데이터 매쉬: 중앙 집중형에서 분산형으로
안녕하세요, 여립입니다.
이번 글에서는 데이터의 중요성이 부각되며 등장한 데이터 관리방식인 데이터 매쉬에 대해 다뤄볼까 합니다.
** 이번 글은 [Data Mesh Architecture] 내용을 기반으로 작성했습니다.
대부분의 기업들은 대체로 데이터 팀이 주관해 데이터를 관리하고, 필요한 데이터가 있을 때마다 데이터 팀에게 요청해 관련한 데이터나 분석결과를 얻게 됩니다. 이런 형태를 중앙 집중형(central data team)이라고 부릅니다. 이와 다르게, 데이터 매쉬는 이전의 한 팀(functional team)에서 모두 데이터를 관리하는 것이 아닌, 데이터 소유권을 각 도메인(team, business unit)으로 분산시켜, 개별 도메인이 자신의 데이터를 책임지고 관리하며, 데이터를 "제품"으로 취급하는 구조를 의미합니다.
데이터 매쉬에 대해 다양한 이야기들이 있겠지만 이 글에서는 간략하게 데이터 매쉬가 떠오른 이유와, 장점, 그리고 따라오는 문제들에 대해 다뤄보고자 합니다.
왜 데이터 매쉬 구조를 이야기 할까?
데이터 매쉬가 떠오른 이유는 중앙 집중형의 단점이 주요 문제로 떠오르기 때문입니다. 중앙 집중형의 가장 큰 단점은 요청하는 팀과 횟수는 많아지지만, 데이터 팀은 하나라는 근본적인 규모의 문제입니다. 데이터 관점에서 접근하고 분석하고 바라보아야 할 문제들은 많아지지만, 정작 데이터를 관리하고 각기 다른 팀에 데이터를 공급해줄 수 있는 팀의 갯수와 규모에 한계가 있습니다.
더불어, 데이터 팀은 데이터 도메인에 대한 깊이 있는 지식이 부족하기 때문에, 요청하는 형태의 결과를 주는데 한계가 있다는 점도 큰 부분을 차지합니다. 이렇게 적절한 데이터를 주지 못하면, 결국 그만큼 하나의 요청을 처리하는데 걸리는 시간이 늘어나게 됩니다. 또한, 요청에 적절하지 못한 데이터는 데이터의 신뢰성에서도 문제가 발생합니다.
예를 들어, 금융도메인의 데이터가 있다고 했을 때, 데이터를 빠르게 주지 못해 발생할 비즈니스 적인 손실과 금융 도메인에 대한 이해 부족으로 발생할 잘못된 형태의 분석, 혹은 그만큼 걸리는 시간을 고려했을 때, 중앙집중형이 과연 적절한가 라는 의문을 가질 수 있습니다.
결론적으로, 빅데이터의 시대에서 근본적인 구조의 한계를 해소하고자 등장한 구조가 데이터 매쉬입니다.
도메인 팀에서 도메인 데이터를 관리하자!
데이터 매쉬의 핵심 원칙
데이터 매쉬 구조의 기반이 되는 4개의 큰 틀이 있습니다.
- 도메인 중심의 데이터 소유권(Domain Ownership):
- 각 도메인 팀이 자신이 생성하고 사용하는 데이터를 직접 소유하고 관리합니다. 이를 통해 도메인별로 데이터에 대한 깊은 이해와 책임감을 갖게 되며, 데이터의 품질과 활용도를 높일 수 있습니다.
- 데이터를 제품으로 다루기(Data as a Product):
- 데이터 매쉬에서는 데이터를 단순한 리소스가 아닌, 사용자(데이터 소비자)를 염두에 두고 설계된 제품으로 취급합니다. 각 도메인은 데이터를 사용자에게 제공하기 위해 데이터 품질, 접근성, 보안 등을 고려하여 데이터를 관리하고 배포합니다.
- 자율적인 데이터 플랫폼(Self-Serve Data Platform):
- 도메인 팀이 쉽게 데이터를 관리하고 활용할 수 있도록, 자율적인 데이터 플랫폼을 제공합니다. 이 플랫폼을 통해 도메인 팀이 데이터 파이프라인을 구축하고, 데이터를 저장하며, 분석 도구를 사용할 수 있도록 합니다.
- 분산된 거버넌스(Federated Governance):
- 데이터 정책 규칙과 표준을 중앙에서 설정하되, 이를 각 도메인이 자율적으로 적용하고 준수할 수 있도록 합니다. 분산된 거버넌스는 일관된 데이터 관리와 규정을 보장하면서도 각 도메인의 자율성을 존중합니다.
이러한 원칙에 기반한 데이터 매쉬 구조에서는 도메인에 속한 데이터를 가장 잘 이해하는 팀이 직접 데이터를 관리하고, 데이터 팀은 이 데이터가 원활히 활용될 수 있도록 플랫폼을 제공하는 역할을 맡습니다. 또한, 명확한 데이터 관리 체계를 통해 신뢰할 수 있는 데이터를 제공하는 것이 중점이 됩니다. 결론적으로는 이 모든 원칙들이 곧 데이터 매쉬의 장점이라고 생각합니다.
데이터 매쉬와 발생할 문제들
데이터 매쉬가 가진 원칙들처럼 모두 작동하면 좋겠지만, 이런 구조와 이점을 가지기까지 많은 문제들이 있습니다.
첫번째로, 데이터 매쉬는 도메인 중심의 데이터 소유권을 강조하기 때문에, 기존의 중앙 집중형 데이터 관리 방식에서 벗어나 각 도메인 팀이 데이터를 직접 관리해야 합니다. 이는 조직 내에서 큰 변화를 요구하며, 도메인 팀과 기존 데이터 팀 간의 역할 재정립이 필요하기에, 도입이 쉽지 않다는 점이 있습니다.
둘째로, 데이터 매쉬를 성공적으로 도입하기 위한 데이터 플랫폼과 툴이 필요합니다. 이 과정에서 새로운 기술 스택을 선택하고 이를 조직 전반에 걸쳐 적용하는 데 많은 시간과 자원을 필요로 합니다. 더불어 다양한 전문 분야의 지식이 필요한데, 이러한 역량을 갖춘 인력이 부족하다면, 더욱 더 어려운 요소가 됩니다.
셋째로는 데이터 매쉬는 분산된 거버넌스 모델을 채택하고 있지만, 이를 통해 조직 전체에서 일관된 데이터 품질과 규정을 유지하는 것은 쉽지 않다는 문제가 있습니다. 각 도메인이 자율적으로 데이터를 관리하다 보면, 데이터의 일관성과 품질이 저하될 위험이 있고, 이를 방지하기 위해서는 명확한 정책과 지속적인 모니터링이 필요합니다.
결국 데이터 매쉬 구조로의 전환은 상당한 초기 비용과 시간이 요구되고, 단기적으로 긍정적인 결과를 보기 어려울 수 있기에 도입이 어렵다는 점이 있습니다.
그럼에도, 데이터 매쉬는 빅데이터의 시대에서 매력적이고 효율적인 구조로 인정받고 있습니다. 많은 프레임워크와 기술들이 등장하고 있으며, 다양한 기업에서 데이터 매쉬 구조로 접근하고자 합니다. 이에 더불어, 여러분도, 본인이 아는 전문지식을 데이터로 표현하고, 이해할 수 있기를 바라고, 이 글을 통해 데이터 매쉬와 조직의 데이터 접근 방식들에 대해 알아갈 수 있으면 좋겠습니다.
부족한 글 읽어주셔서 감사합니다!