McKinsey Article 소개 II: "A generative AI reset : Rewiring to turn potential into value in 2024"
오늘은 저번 포스트에 이어서 McKinsey 아티클 "A generative AI reset : Rewiring to turn potential into value in 2024"이 다룬 기업에서 AI 역량은 레버리지 하기 위해 필요한 여섯가지 역량 중 남은 두 가지에 대한 이야기를 해보려고 한다.
- 데이터의 품질을 보장하고 비정형 데이터 활용하기
기업이 AI 를 사용함으로써 얼마만큼의 가치를 창출하는지는 곧 데이터의 활용에 달려있다. 그러기 위해서는 데이터 아키텍처의 낭비를 줄이고 효율적으로 업그레이드 시키는 것이 중요하다. 이에 본 아티클은 그 방안으로 세가지 세부 사항을 제시하고 있다.
1) 데이터 품질과 증강에 있어 확실한 목적 갖기
생성형 AI에 활용되는 수 있는 데이터의 규모와 범위는 매우 방대하다. 데이터 품질 관리와 증강을 기업 전반에 걸쳐 하는 것이 아니라, 특정 AI나 AI 애플리케이션과 연동시켜 하는 것이 현명하다. 예를 들어, 장비의 유지보수에 사용되는 AI 애플리케이션이 있다면, 장비의 사양 및 결함 등에 관한 데이터를 하나의 레포짓토리에서 관리하면 해당 AI 애플리케이션을 좀 더 확실하게 지원할 수 있다.
2) 비정형 데이터가 가진 가치 알기
LLM 의 진가는 ppt, 비디오, 사진, 텍스트 등 비정형을 사용할 수 있다는 데에 있다. 때문에 어떤 종류의 비정형 데이터가 가장 활용도 있는지 파악하고, 메타 데이터 태깅 규정을 정립하면 모델이 데이터를 처리하고 관련 부서가 원하는 데이터를 찾을 때 도움이 될 수 있다. 특히, 비정형 데이터가 가진 잠재력을 판단할 때는 창의적으로 접근해야 한다. 사내 시니어 직원들을 대상 인터뷰를 하고 거기서 나온 인사이트를 LLM 에 학습시키는 등 그 비정형 데이터의 활용법은 무궁무진 하다.
3) 최적화(optimize) 하여 비용 절감하기
많은 기업들이 데이터에 지출하는 비용은 관련 인프라와 지출은 최적화 했었을 때 발생하는 것과 천지차이다. 이런 문제는 보통 PoC 로 시작한 프로젝트를 최적화 과정을 거치지 않고 확장했을 때 나타나곤 한다.
크게 두 가지 종류의 비용이 두드러지는데 첫번째는 대용량의 데이터를 클라우드에 업로드하고 24시간 중 아무 때나 사용(액세스)할 수 있도록 할 때이다. 실제로 이런 수준의 availability를 요하는 데이터는 대부분 10% 미만이기 때문에 그 외의 데이터는 간헐적으로 액세스 하는 옵션이 더 경제적이다.
또 다른 비용은 모델을 실행하기 위해 수천 개의 프로세서에 대한 온콜 액세스를 할 때 발생한다. 이는 기업이 자체적으로 개발한 모델을 사용할 때나 사전학습된 모델을 기업의 데이터와 use case에 맞춰 사용할 때에 모두 해당된다. 기업들은 클라우드 플랫폼 상에서 이런 computation 비용을 최적화 할 수 있는 방법을 고안해야 한다. 일례로, 밤과 같이 프로세서들이 많이 사용량이 낮은 시간에 모델이 돌아가도록 대기시켜 놓는 것이 훨씬 더 저렴하다.
- 도입과 확장을 추진하기 위하여 신뢰와 재활용성 구축하기
많은 사람들이 생성형 AI 의 안정성을 우려하고 있는 만큼, 과련 툴이 어떤 방법으로 작동하는지에 대하여 더 엄격한 수준이 설명을 요하고 있다. 따라서 모델의 정확성 보장과 답변에 대한 손쉬운 검증을 위해 추가적인 투자가 필요하다.
그 예로 한 보험사는 보험 청구 관리에 gen AI 툴을 도입했다. 해당 툴은 적용된 모든 가드레일을 밝히는 한편 답변을 내놓을 때 관련된 정책 문서로 디렉팅 되는 링크를 제공하였다. 이와 같은 노력이 통해 end user 가 이 툴에 대한 신뢰를 갖게 하는 데 기여했다.
뿐만 아니라, 생성형 AI 툴 사용에 대한 직원 교육을 실시할 때 모델의 한계점과 최적의 답변을 출력하기 위한 방법을 가르쳐야 한다. 쉽게 말해 모델에게 문맥을 제공하는 것과 같이 답변의 품질을 높이는 간단한 프롬프팅 테크닉을 알려줘야 한다. 또한, 이미 사용중인 툴과 비슷한 인터페이스를 개발하면 생성형 AI 애플리케이션을 도입할 때마다 새로운 툴에 대한 사용법을 익혀야 한다는 부담감을 줄여줄 수 있다.
반면, 생성형 AI를 확장한다는 것은 곧 비슷한 use case 여러 개에 재활용 할 수 있어야 한다는 것이다. 한 글로벌 에너지 및 자재 기업은 모든 gen AI 모델의 필수 조건으로 재활용의 용이함을 내세웠고 그 결과 50 ~ 60 %의 요소들은 재활용될 수 있게 되었다고 한다. 이를 위해서는 위해서는 prompt 와 context 등 생성형 AI 관련 asset 개발에 있어서 재활용을 가능케 하는 기준을 정립해야 한다.
마지막으로, 생성형 AI 를 도입한 기업 중 21% 만이 직원들의 관련 기술 활용 정책을 수립했다고 하며 이는 지속적으로 노력이 필요한 부분이다. 생성형 AI가 지적 재산권 준수, 개인 정보 보호 그리고 bias를 배제한다는 것을 보여주는 테스트 역시 권장된다. 특히, 성능에 대한 사항과 생성형 AI 활용에 있어 각종 결정과 근거를 문서화하다면 규제 기관과의 조율에 많은 도움이 될 것이다.
이번 포스팅을 끝으로 본 아티클에 대한 리뷰를 마무리했다.
gen AI 관련 애플리케이션은 확실히 기업들이 기존에 사용해오던 툴과 견줄었을 때 리스크, 성능, use case, 데이터의 활용법, 인프라 등에서 많은 차이점이 있는 것 같다. 그리고 이러한 수많은 독보적인 특징들을 관통하는 한 가지 사실은 바로 manage 하기 굉장히 까다롭다는 것이다. 생성형 AI를 형성하는 기술이 많은 전문적 지식과 방대한 양의 데이터를 요하고, 또 의도하지 않은 출력값을 줄 여지가 많기 때문에 대다수의 기업들이 관련 매뉴얼이나 정책을 수립하는 데 있어 막막하게 느끼는 것 같다.
하지만 본 아티클이 암시하듯, 생성형 AI의 잠재력을 최대한으로 활용하기 위해서는 당장의 결과에 현혹되어 단기적인 목적을 가지는 것이 아닌, 지속적인 활용을 목표로 전반적인 데이터 관리 체계와 기업의 구조적 개편이 필요해 보인다. 이것을 해낸다면 도요타가 Toyota Production System으로 자동차 공정을 혁신하였듯, 기업 운영에 있어 기존에 없던 방식으로 새로운 경쟁적 우위를 선점할 수 있는 기회가 되지 않을까?