본문 바로가기

IT Note/Data&AI

(25)
Kafka의 필요성: 분산 데이터 환경의 필수품 안녕하세요! 여립입니다!다들 2024년을 마무리하며 한해를 돌아보고 계실 것 같습니다. 저의 경우 올해 목표였던 기술 스터디를 완주할 수 있었습니다.마침 기술 스터디의 주제가 [실전 카프카 개발부터 운영까지]이기도 하고, 이전글인 데이터 매쉬에 이어 카프카를 소개하면 좋을 것 같아 간단한 정의부터 장단점, 그리고 사용 예시까지 정리해보았습니다.  1. 카프카가 무엇인가요?카프카(Kafka)! 세계적인 소설가 프란츠 카프카(Franz Kafka)의 이름으로부터 유래한 Apach Kafka는 오픈소스 데이터 스트리밍 플랫폼으로 대용랑, 대규모 데이터(메세지)를 빠르게 처리하는 목적으로 개발된 플랫폼입니다. 비즈니스 중심의 소셜 네트워킹 플랫폼인 LinkedIn에서 하루에 1조 4천억 건의 메세지를 처리하기 ..
국내 최초 CSAP SaaS 인증 공공솔루션 개발 네이버클라우드로 시작하기 (그런데 Redis를 곁들인..) PRE. 공공데이터의 힘바야흐로 학생때 프로젝트를 진행할때 무언가 공신력 있는 자료를 뽑아내려면 공공데이터를 활용하는 경우가 많았습니다. 데이터 아낌없이 퍼주는 공공데이터 포탈은 그야말로 데이터의 천국이었는데요. 공공솔루션 주제를 보고 오랜만에 들어가봤습니다. 흥미로운 건 공공데이터를 활용해서 3118개의 앱, 웹이 개발되었다는 것입니다. 공공데이터를 쓰면서 공공솔루션을 더 잘 개발하기 위해선 어떻게 해야할까요? Main1. 공공솔루션 관련 네이버 클라우드 기술이 있다?공공 시장 진출에 관심이 있는 솔루션 개발사들이라면, 보안 인증에 대한 비용과 복잡한 심사과정 등으로 어려움을 겪어본 적 있으실 텐데요. 좋은 소식이 도착했습니다. 네이버클라우드가 클라우드DB 상품 5종에 대해 국내 최초로 CSAP Saa..
Query Optimization (feat. watsonx.data) 원문 : 호롤리/Query Optimization (feat. watsonx.data)OverviewQuery Optimization의 개념과, IBM의 lakehouse 솔루션인 watsonx.data에서 어떻게 쿼리 최적화를 할 수 있는지 알아보도록 하겠습니다.EnvironmentOpenshift : 4.16.xCP4D : 5.0.3watsonx.data : 2.0.3 Query Optimization두 개의 쿼리가 항상 순서 상관없이 같은 튜플들을 반환한다면 그것은 동등하다고 볼 수 있습니다.예를 들어서 : Natural Join (join순서를 어떻게 하던 동일한 결과를 반환합니다.) Select 연산 (만약에 E1테이블에서만 select 조건에 부합하는 튜플들이 있다면 먼저 select를..
제 1회 2024년 당근 테크 밋업에 갔다온 후기 안녕하세요! 여립입니다. 연말에는 많은 개발자들이 가고싶어하는 테크컨퍼런스가 열리는데요, 신청하는 모든 컨퍼런스가 떨어지는 와중에 당근 테크 밋업에 다행히(?) 당첨되어 갔다오게 되었습니다! 이번 당근 테크는 코엑스 3층 컨퍼런스 홀에서 열렸고, 신청한 트랙만 입장할 수 있었습니다. 저는 트랙 C인 데이터/머신러닝 트랙을 신청했습니다 (오후에는 사람이 줄어 다른 트랙도 잠깐 들어가봤습니다 ㅎㅎ).(PS. 출근길 9호선 급행은 쉽지 않은 것 같습니다...)후기 시작합니다!첫타임은 네트워크 모임으로 시작하게 되었습니다. 당근 테크 밋업에서는 매 세션타임에 네트워크 모임도 함께 진행해 다양한 직군 혹은 팀에 대해 알아볼 수 있었는데요, 저는 마침 2개의 네트워크 모임 신청에 성공하게 되어 참여할 수 있었습니다..
호다닥 톺아보는 데이터저장소 친구들(feat. DB,DW,DL,LH) 원문) 호롤리/호다닥 톺아보는 데이터저장소 친구들(feat. DB,DW,DL,LH)Overview대충 개념정도만 알고 있었던 Database, Data Warehouse, Data Lake, Data Lakehouse....최근 접할 일이 많아져서 이참에 개념들을 쭉 정리해보고자 합니다. DataBaseConceptIT관련 일을 한다면 모를수가 없는 용어죠, 데이터 저장소입니다. DBMS(Database Management System)을 통해 관리&운영ex) MySQL, PostgreSQL, Oracle, Db2관계형 데이터베이스(RDBMS)에서는 table이라는 단위로 데이터가 저장되며 table은 row, column으로 구성 Transaction그래서 이 DB를 가지고 무엇을 할까요? ..
생성형 AI 개발 정상화해줬잖아 개발까지 다 해줬잖아 (Feat 클로바 스튜디오) 안녕하세요 전기톱맨입니다.오늘은 생성형 AI 개발도구 클로바 스튜디오에 대해 알아보겠습니다.PRE. 생성형 AI 찍어먹어보기시간 없으니 빠르게 살펴보겠습니다. 생성형 AI 관련 제가 이전 포스팅에서 정리한게 있기에 가져와봤습니다. https://it-ist.tistory.com/315 생성형 AI? 직접 써볼게요. (Chatgpt, Autogpt, HyperClova X, WatsonX, Midjourney, RVC Crepe V3)2023년은 생성형 AI의 시대라고 해도 과언이 아닙니다. Chatgpt를 필두로 여기저기서 AI, AI, AI에 대해 외치고 있습니다. 이런 적은 처음이 아닙니다. 1. 이제는 볼드모트가 된 그 이름 2018년을 기억하it-ist.tistory.com 생성형 AI 대란의 시..
Hadoop Basics 원문 : 호롤/Hadoop Basics Overview사실 이 글을 쓰는 2024년에는 너무나도 당연하게 모르면 안될 용어가 되어버린 "빅데이터"...ChatGPT가 떠오르면서 AI에 너도나도 큰 관심이 쏠리게되고, 거기에 더불어 Data 영역도 화두가 되었습니다.Data없이 AI를 논할 수는 없기 때문입니다. 이번 포스팅에서는 꽤나 초기 플랫폼이지만 아직까지 여러 회사에서 많이 사용되고 있는 "Apache Hadoop"에 대해서 알아보도록 하겠습니다. 빅데이터란?그 전에 먼저 빅데이터가 무엇인지 짚고 넘어가야겠죠! 빅데이터는 단순히 "큰 사이즈의 데이터"를 의미하기도 하지만 넓은 의미로는 큰 사이즈의 데이터로부터 가치를 추출하고 Insight를 얻어내는 것 으로 정의할 수 있습니다. SNS의..
Mixture of Experts (MoE) ? 그게 뭔데...어떻게 하는 건데... ChatGPT 가 탄생한 이후 LLM의 열기는 아직도 뜨겁다. 특히 기업에서의 LLM 도입은 더 많은 사례와 더 많은 종류의 모델, 그리고 그를 지원하는 다양한 소프트웨어가 생겨나면서 더 견고해지는 시스템 아래 상승곡선을 타고 있는 듯하다. 이에 나도 자연스럽게 LLM 에 관심이 계속 가고 있는데, 관련 자료를 읽을 때마다 가장 흥미로운 동시에 이해하기 어려운 부분이 바로 architecture 이다. "거대 언어 모델"이라는 명칭이 암시하는 매우 복잡한 구조도 여러 종류가 있는데 저마다의 강점과 단점이 명확하다.  오늘 이 포스트에서는 Mixtral 7x8b 모델의 기반으로 유명한 구조, Mixture of Experts(MoE)의 핵심을 알기 쉽게 설명하고자 한다. 참고로, 수식이나 통계적 이론은 최..
Quantum 말고 Quant! 안녕하세요! 오랜만에 돌아온 무휘입니다 ㅎㅎ 오늘 제가 들고 온 주제는 바로 "퀀트(Quant)" 입니다. 사실 주식이나 금융쪽에 생소하신 분들은 이 단어를 들었을 때 양자역학의 quantum 을 떠오르실지도 모르겠습니다. 저 역시 금융학회에서 퀀트팀에 들어가기 전까지는 그랬었거든요. 오늘 제가 소개드릴 퀀트는 바로 quantitave trading 혹은 quantitative analysis 의 약어로, 금융과 투자분야에서 통계적/수학적 모델을 사용하여 리스크 분석, 투자 전략 수립, 주식 거래 자동화 등등을 하는 것을 뜻합니다. 한편으로 이러한 역할을 수행하는 사람들 역시 퀀트라고 부르곤 하는데요. 실제로 인터넷에 한국어로 퀀트라고 검색하면 다음과 같은 정의가 나오네요: "고도의 수학, 통계 지식을 ..
호다닥 톺아보는 VectorDB 기초 원문 : 호롤리/호다닥 톺아보는 VectorDB 기초Overview지난 게시글에서는 Vector란 무엇인가?에 대해서 작성했었습니다. 데이터의 묶음은 여러의미의 데이터들로 이루어진 경우가 많은데, 이를 특정한 순서대로 모아둔 데이터 레코드를 선형대수에서는 Vector라고 부릅니다.그리고 행렬(Matrix) 은 이러한 벡터가 여러개 있는 데이터의 집합이라고 생각하면 될 것 같습니다. Vector의 의미를 알았으니, 이제는 이 Vector를 어떻게 활용할 수 있는지 알아보겠습니다. Embedding이란?지난 게시글에서 Vector의 예시를 설명할때 plain text를 가지고 표현했었습니다. 하지만 사실 plain text는 인간이 알아보기 쉬운 표현법이지, 기계가 이해하기 쉬운 표현은 아닙니다. 그..
[생성형AI 해볼게요] 생성형 AI로 포스터 만들어볼게요 (Midjourney, WatsonX, ChatGPT, Canva) 안녕하세요! 전기톱맨입니다. 모두 체인쏘우! PRE. AWS summit, GPT-4os AWS Summit이 글을 쓰는 시점에 시작했는데요, 역시나 대세는 생성형 AI입니다.그리고 OpenAI에서 Gpt-4o Spring update를 발표하였습니다.영화 Her를 보셨나요? 이제 연구소에 있는 AI가 아닌 지금 당장 핸드폰으로 심심이(라고 하기엔 많이 똑똑한)와 대화할 수 있습니다.통역, 대화, 코딩까지 지원을 한다고.. https://youtu.be/MirzFk_DSiI?si=3XNT9NvASaLGvLzfHello Baldy저도 직접 써보려고 했지만 아직까지는 소수의 사람들에게만 오픈되어 있어 체험해보지는 못했습니다.저 헤드셋을 누르면 5가지 버젼의 사람을 선택할 수 있는데 저는 아직 기능활성화가 되..
<텍스트로 비디오 만들기? 직접 해볼게요 : 비디오스튜, 스테이블디퓨전> 모두 체인쏘우!! 안녕하세요!! 회사 일로 바쁜 나날을 보내고 있습니다. 여러분은 샘 알트먼이라고 아시나요? OpenAI의 창시자인데요. 이 분이 최근 무려.. 9000조를 자기에게 투자해달라고 연설했습니다. 9000조면 얼만지 아시나요? MS(4000조) + 애플(3800조) + 국민연금(1000조)하고도 200조가 남아서 피자배달을 시켜먹을수 있습니다... 이 사람이 9000조를 펀딩해달라고 하는 건 AI 반도체칩을 만들기 위해서 라는데요. 저 또한 글을 위해 펀딩을 해준다는 분이 나타났습니다. 바로 Text To Video 회사 (ttv) 비디오스튜입니다. 오늘 AI를 이용해 텍스트로 비디오를 만들어보겠습니다. 생성형 AI에 대해서는 이전에 포스팅한 만큼 오늘은 바로 본론으로 들어간 후 이 ttv들..