안녕하세요! 여립입니다.
연말에는 많은 개발자들이 가고싶어하는 테크컨퍼런스가 열리는데요, 신청하는 모든 컨퍼런스가 떨어지는 와중에 당근 테크 밋업에 다행히(?) 당첨되어 갔다오게 되었습니다!
이번 당근 테크는 코엑스 3층 컨퍼런스 홀에서 열렸고, 신청한 트랙만 입장할 수 있었습니다. 저는 트랙 C인 데이터/머신러닝 트랙을 신청했습니다 (오후에는 사람이 줄어 다른 트랙도 잠깐 들어가봤습니다 ㅎㅎ).
(PS. 출근길 9호선 급행은 쉽지 않은 것 같습니다...)
후기 시작합니다!
첫타임은 네트워크 모임으로 시작하게 되었습니다. 당근 테크 밋업에서는 매 세션타임에 네트워크 모임도 함께 진행해 다양한 직군 혹은 팀에 대해 알아볼 수 있었는데요, 저는 마침 2개의 네트워크 모임 신청에 성공하게 되어 참여할 수 있었습니다.
DBA에 대해 알아보자
저의 첫번째 네트워킹 모임은 DBA 분이 진행하시는 데이터베이스 모임이였습니다. 대부분의 질문은 DBA 분의 커리어 과정과 팀에서 하는 역할, 그리고 DBA 직무에 대해 궁금했던 부분을 물어보았고, 대화하며 당근 내부적으로 문화를 자리잡는 과정에 많은 힘을 쏟고 있다는 생각이 들었습니다.
다음으로는 본격적으로 기술 세션을 들여다 보겠습니다!
Session 1: ㅎㅖ어져서 팝니ㄷr ☆: LLM과 임베딩 유사도로 빠르게 패턴을 바꾸는 업자 잡아내기
제가 데이터 트랙을 신청할때 저의 눈을 사로잡은 제목이였습니다 ㅎㅎ.
세션 내용은 유사 콘텐츠 탐지와 관련해 벡터 임베딩을 통해 유사도를 파악했지만, 한계를 느껴 프롬프트를 활용해 유사도를 찾아내는 과정을 다뤘습니다. 처음에는 few-shot 방식을 고려했지만 제한적이고, zero-shot 방식은 추상적인 공통점을 찾는 것이 어려웠다고 했습니다. 이를 해결하기 위해 LLM을 사용한 자동화 프롬프트 생성을 도입했으며, 약 100건의 라벨링 데이터로 충분한 결과를 얻었다고 했고, 생각보다 비용이 많이 들지 않아 놀라웠습니다.
개인적으로 내용이 AI 관련해 자세히 알지 못해도 이해할 수 있는 내용이라 좋았고, 자료에 함께 사용했던 프롬프트를 제공해주어서 이후 예제로 참고할 수 있을 것 같아 도움이 되었습니다.
Session 2: 당근페이 데이터플랫폼 구축기
가장 제가 관심을 가지던 세션이였습니다. 인상적인 부분은 발표자분께서 1호 데이터 엔지니어라는 말씀에 놀랐습니다..!
데이터 민주화에 대한 개념부터 설명하시며, 기존의 문제점에서 어떻게 데이터 플랫폼을 구성하고자 했는지 들을 수 있었습니다.
그전에 데이터 민주화라는 용어가 생소해 찾아보면,
데이터 민주화는 비즈니스 사용자가 데이터를 사용해 신속한 의사 결정을 내릴 수 있도록 이들에게 데이터에 대한 접근성을 부여하는 것입니다. 데이터 민주화에서 IT의 역할은 이들 사용자에게 데이터를 제공하는 것이 아니라, 조직의 통제 하에 필요한 데이터에만 접근하도록 하는 것입니다.
더불어, 접근 권한과도 관련이 깊어, 데이터 거버넌스, 데이터 운영, 데이터 보호라는 3가지 축이 중심이 되어 데이터를 다루는 것을 중점으로 한다고 합니다.
이후에도 계속 언급되지만, 모든 플랫폼에 공통으로 사용할 수 있도록 개발하는 것이 당근 개발의 주요 포인트 인것 같습니다.
여기서도, 최대한 환경과 공통 요소를 통해 리소스를 줄이는 내용이 나왔고, 전반적인 과정은 대부분의 데이터 플랫폼과 흐름이 같아 충분히 이해할 수 있었습니다. 재밌게 들은 세션이였습니다!
Session 3: 당근 추천 알고리즘 - 홈피드 후보모델 파헤치기
(아쉽게 세번째 세션은 제가 이해하지 못해 패스하겠습니다 ㅠㅠ)
Session 4: 중고거래 시멘틱서치 도입기: 꽁꽁 얼어붙은 키워드 위로 벡터가 걸어다닙니다
제목은 귀엽지만 내용은 귀엽지 않은 키워드 검색에 의미적 유사성을 더하는 내용이였습니다... 검색에 대해 문외한인 저에게는 검색 과정의 전반적인 내용부터 훑어주시고, 주요 과정을 자세히 설명해주셔서 좋았습니다. 투타워 모델이라는 것도 처음 들어보게 되었는데, 고개 끄덕이며 열심히 들었습니다 ㅎㅎ.
의미적으로 유사하더라도 벡터 공간상에 가까이 위치하지 않을 수 있는 점에 대해 추가적인 유사성 학습에 대해 설명하면서, 이 그림을 보여주시는데 머리를 탁 쳤습니다! (무한굴레...ing)
라벨링 가이드를 작성해 직접 5천여건에 대한 데이터를 라벨링 하셨다고 하면서, 여기서도 llm을 사용해 프롬프트로 라벨링 자동화를 하셨다고 합니다 (요즘 프롬프트를 사용한 자동화가 유행인가 봅니다).
이 세션을 들으면서, 제가 경험한 당근의 검색과정이 여기서 설명한 내용과 매우 유사하다는 느낌을 받았습니다. (그러니까 의도대로 경험하고 있다? 음...)
데이터 가치화 팀에 대해 알아보자
다음으로는 네트워킹 모임에 참여하게 되어 아쉽게도 요 타임 세션은 들을 수 없었습니다. 데이터 가치화라는 이름이 생소해 어떤 팀인지 궁금했는데요, 데이터를 통한 비즈니스적인 가치를 창출하는데 초점을 두고있다고 합니다 (자세한건 당근의 데이터 가치화 팀을 검색하시면 알 수 있습니다!). 팀의 절반이 분석에 초점을 두고 있고, 다른 절반이 데이터 엔지니어링을 한다고 합니다. 신기했던 부분은 인프라 서비스에서는 AWS를 사용하는데, 데이터 및 머신러닝은 GCP(Google Cloud Service)를 사용하고 있다는 점이였습니다. 의도는 모르겠지만, 일반적으로 하나의 클라우드 서비스를 쓰는 것과 다르게 분야 별로 다르게 쓰는 점이 인상적이였습니다. 더불어, 내부 개발자를 위한 서비스를 외부에서 도입하기보다 직접 만드는 부분이 인상적이였습니다.
Session 6: 추천 서빙 시스템 아키텍처: 높은 생산성을 위한 아키텍쳐 및 ML Flywheel
이번 세션에서는 검색 엔진 테스트를 위한 머신러닝 플랫폼 아키텍쳐 구성 방식에 대해 설명하는 세션이였습니다.
저에게는 생소한 개념과 분야라 설명이 이해하기 쉽지 않았지만, 새로운 분야를 경혐할 수 있는 좋은 시간이였습니다.
추후 당근 유튜브에 영상이 올라올 예정이라고 하니 관심있는 분은 찾아보면 좋을 것 같습니다.
(제가 설명하기엔 쉽지 않네요...)
Session 7: 비용이 왜 튀었는지 저도 몰라요
마지막으로는 플랫폼 트랙에 들어가, 비용관리 셀프서비스를 도입하는 과정에 대해 들을 수 있었습니다.
기존에 AWS에 프로젝트, 서비스, 팀 태그를 통해 리소스 사용량을 관리했었는데, 명확하게 잘 사용하고 있는지 알 수 없고, 부서 개편 혹은 타이틀이 변경되면, 태그를 일일히 수정해야 하는 문제가 있어, 태그를 AWS에 종속된 형태가 아닌 사내에 묶여있는 형태로 구성하고, 비용관리를 각 팀별로 관리할 수 있도록 셀프 서비스를 제공하려고 했다고 합니다.
기존에 이미 사내 개발자 배포 서비스가 있어, 함께 서비스 오너십을 관리할 수 있도록, 서비스 카탈로그를 구성해 이후 프로젝트 배포 시 슬랙을 통해 연동되도록 구성했다고 합니다. 더불어, 카탈로그에 저장된 팀 혹은 태그 정보와 조직도 기반으로 서비스 비용을 볼 수 있도록 서비스를 만들었다고 합니다.
서비스 카탈로그를 바탕으로 리소스 태그를 관리하고, 배포를 트래킹할 수 있도록 하는 과정을 재밌게 본 것 같고, 직접 내부 서비스를 만들어 제공한다는 점이 인상적이였습니다.
이상으로 저의 당근 테크 밋업 후기였습니다. 전반적으로 내용이 생각보다 자세하고, 실제 경험한 문제점들을 어떻게 풀어나가고, 이후 남은 과제들을 디테일하게 알 수 있어서, 적용점이 많은 세션들이였습니다.
감사합니다!
Reference
'IT Note > Data&AI' 카테고리의 다른 글
호다닥 톺아보는 데이터저장소 친구들(feat. DB,DW,DL,LH) (1) | 2024.10.08 |
---|---|
생성형 AI 개발 정상화해줬잖아 개발까지 다 해줬잖아 (Feat 클로바 스튜디오) (0) | 2024.09.08 |
Hadoop Basics (1) | 2024.08.01 |
Mixture of Experts (MoE) ? 그게 뭔데...어떻게 하는 건데... (3) | 2024.05.19 |
Quantum 말고 Quant! (0) | 2024.05.19 |