안녕하세요, 새롭게 합류하게 된 무민입니다.

저는 대학교 4학년 막학기생으로, 현재 보안 컨설팅 분야 취업을 준비하고 있습니다ㅎㅎ
저도 공부한 내용을 정리하면서, 블로그에서 함께 다뤄보면 좋을 만한 주제들을 공유드릴 수 있도록 열심히 활동해보겠습니다!
요즘 대학생분들 생성형AI 굉장히 많이 활용하시죠?? 요즘에는 특히 발표자료나 논문도 출처까지 표기해서 AI가 완성해줄정도로 AI 가 너무 발전했는데 제 입장에서는 당연히 너무 좋지만,, 한편으로는 이렇게 편리한 만큼, 개인정보 보호 측면에서 괜찮은 건지 고민이 들 때도 있더라구요ㅎㅎ
그래서 검색을 하다가 최근에 저도 알게 된 사실인데, 올해 8월 개인정보보호위원회에서 '생성형 AI 개발/활용을 위한 개인정보 처리 안내서'를 마련했다고 합니다. 분량은 42쪽정도이고, 발췌독하면 30분도 안 걸리니 궁금하신 분들은 확인해주셔도 좋을 것 같아요!
다운받을 수 있는 링크는 요기:
https://www.pipc.go.kr/np/cop/bbs/selectBoardArticle.do?bbsId=BS217&mCode=D010030000&nttId=11439
( 발행일 기준으로 국가정보자원관리원 대전센터에서의 화재로 링크 접속은 안되는 것 같네요...ㅜ
'생성형 AI 개발/활용을 위한 개인정보 처리 안내서' 구글링하면 바로 위에 뜨는 자료와 동일합니다.)
안내서가 나온 이유
생성형 AI가 개인정보를 어떻게 처리하는지에 대한 명확한 가이드라인이 없다보니까 기업이나 개발자 입장에서도 어디까지가 괜찮은건지 애매한 부분이 많았다고 합니다. 그래서 개인정보보호위원회에서 기존에 나왔던 여러 안내서들이랑 규제샌드박스, 사전실태점검 같은 제도들을 통해 쌓인 경험을 바탕으로 이번에 체계적으로 정리한 거라고 생각하시면 될 것 같아요!
생성형 AI 개발·활용의 4단계
안내서에서는 생성형 AI를 개발하고 활용하는 과정을 크게 4단계로 나눠서 설명하고 있습니다. 저는 우선 1단계:목적 설정 파트만 정리해보았습니다. 반응이 괜찮으면 나머지 2~4단계도 정리하는 걸로..
편의를 위해 말투는 음슴체로 가겠습니다ㅎㅎ
1단계 - 목적 설정
생성형 AI 개발의 첫 단추인 목적 설정 단계에서는 크게 두 가지를 생각해야 함.
첫째로, 목적 달성에 어떤 개인정보가 얼마나 필요한지 파악하는 것임. AI로 뭘 하고 싶은지 명확해야 필요한 데이터도 명확해지기 때문임. 둘째로, 초기부터 발생할 수 있는 리스크를 가늠하고 관리 방안을 세울 수 있음.
안내서에서는 목적을 설정할 때 AI의 사용 맥락, 대상, 기술적 한계를 고려하라고 강조하고 있음. 쉽게 말하면 "이 AI가 어떤 상황에서 누구를 대상으로 쓰이는지", "예상되는 오용 가능성은 없는지" 같은 걸 미리 정의해야 한다는 것임.
특히 프라이버시 관점에서 중요한 건, 개인정보 처리 목적이 구체적이고 명확하며 합법적이어야 한다는 점임. 개인정보보호법 제3조에서도 "처리 목적을 명확하게 하고 그 목적에 필요한 범위에서 최소한의 개인정보만 수집해야 한다"고 명시하고 있음.
[실제 사례]
실제로 위원회에서 AI 디지털교과서를 사전 점검했을 때 이 부분에서 문제가 발견됨. 학생들의 학습시간, 성취수준, 진도율 같은 상세한 정보를 통합 DB에 쌓아두긴 했는데, 정작 이 데이터를 AI 학습에 어떻게 활용할 건지 목적이 명확하지 않았던 것임. 학생 개개인의 일상 행동까지 감시될 수 있다는 우려가 제기되면서 결국 처리 항목과 목적을 명확히 하라는 시정권고를 받았다고 함.
범용 AI의 경우 목적을 사전에 구체화하기 어려운 면이 있긴 하지만, 그래도 최대한 구체화하는 게 권장된다고 함!
개인정보 수집 출처별 적법 근거 확보
목적을 정했다면 이제 그 목적에 맞는 개인정보 처리의 법적 근거를 확보해야 함. 개인정보 수집 출처는 크게 두 가지로 나뉨.
(1) 공개된 개인정보를 수집하는 경우
ChatGPT 같은 거대 언어모델(LLM)을 개발할 때는 웹 스크래핑으로 엄청난 양의 데이터를 수집하거나 Common Crawl, Wikipedia 같은 대규모 말뭉치를 사용하는 게 일반적임. AI가 현실 세계에 대한 광범위한 지식을 갖추려면 공개된 개인정보 처리가 어느 정도 필요하긴 한데, 무분별한 스크래핑으로 인한 권리 침해 우려도 있어서 주의가 필요함.
문제는 인터넷에서 데이터를 수집할 때 기업과 정보주체 사이에 직접적인 관계가 없다보니 동의나 계약 같은 전통적인 법적 근거를 적용하기 어렵다는 것임. 그래서 실질적으로 고려할 수 있는 게 개인정보보호법 제15조 제1항 제6호의 '정당한 이익' 조항임.
정당한 이익 조항을 쓰려면 세 가지 기준을 충족해야 함
- 목적의 정당성: AI 기업의 영업 이익뿐 아니라 그로 인한 사회적 이익까지 포함해서 정당한 이익이 존재해야 함
- 처리의 필요성: 공개된 개인정보를 처리하는 게 실제로 필요하고 합리적이어야 함 (예를 들어 의료진단 AI를 만드는데 소득·재산 정보까지 학습시키면 안 되는 것임)
- 이익형량: 기업의 정당한 이익이 정보주체의 권리보다 명백히 우선해야 함
(2) 이용자 개인정보를 재사용하는 경우
기존에 수집한 이용자 정보를 AI 학습에 재사용하는 경우엔 당초 수집 목적과의 관련성에 따라 적법 근거가 달라짐.
① 당초 수집 목적 범위 내 서비스 개선·고도화
원래 서비스를 더 좋게 만들거나 기능을 향상시키는 거라면, 처음 개인정보를 수집할 때의 법적 근거(동의, 계약, 정당한 이익 등)를 그대로 쓸 수 있음.
예를 들어 AI 기능이 포함된 서비스를 제공하는데 그 기능을 개선하는 게 계약 이행에 필요하고 이용자가 충분히 예측할 수 있다면 별도 동의 없이도 가능하다는 것임.
② 당초 수집 목적과 합리적 관련성이 있는 경우
원래 목적과 완전히 같진 않지만 합리적으로 연관되어 있다면 개인정보보호법 제15조 제3항의 '추가적 이용' 조항을 검토할 수 있음.
[실제 사례]
한 LLM 서비스에서 이용자가 입력한 프롬프트 내용을 AI 학습데이터로 수집·이용한 경우가 있었는데, 위원회는 다음과 같은 이유로 적법하다고 판단함
- LLM의 환각, 편향 같은 리스크를 완화하려면 이용자 상호작용 데이터가 학습에 필요함
- LLM은 원래 대화 맥락을 파악해서 답변을 생성하는 서비스니까 기존 대화 내용이 학습에 쓰일 거라고 예측 가능함
- 학습데이터 수집 사실과 거부 방법(opt-out)을 대화창에 여러 번 알려서 예측 가능성을 높임
- 대화 데이터는 모델 학습에만 쓰이고, 이용자가 언제든 옵트아웃 할 수 있음
- 개인식별 가능성 높은 정보를 탐지·삭제하는 필터링 절차를 운영함
[실제 사례]
또 다른 사례로는 통신사가 이용자 통화내역 데이터로 보이스피싱 의심번호 DB를 구축한 경우인데, 이것도 적법하다고 봄. 보이스피싱 예방이 통신·금융 서비스 제공과 밀접하게 관련되고, 기존에도 스팸·이상거래 방지 서비스를 해왔으니 예측 가능하며, 전화번호를 암호화해서 안전성을 확보했다는 점 등을 고려했다고 함.
중요한 건, 추가적 이용이 지속적으로 발생하는 경우엔 판단 기준을 개인정보 처리방침에 공개하고 CPO가 점검해야 한다는 것
③ 당초 수집 목적과 별개의 신규 서비스 개발
완전히 새로운 AI 서비스를 개발하는 거라면 두 가지 방법이 있음
- 가명·익명처리해서 이용하거나
- 새로운 적법 근거(별도 동의 등)를 마련하기
예를 들어 병원이 보유한 MRI, CT 사진 같은 걸 가명처리해서 질병 진단 보조 AI 개발에 쓰는 경우가 있음. 또는 금융당국이나 수사기관이 보유한 보이스피싱 통화데이터를 가명처리해서 통신사가 보이스피싱 예방 AI 개발에 활용하는 것도 가능함.
반대로 서비스 품질 개선 목적으로 수집한 이용자 대화데이터를 합리적 관련성 없는 신규 AI 챗봇 개발에 암호화 등 안전조치 없이 쓴 경우는 목적 외 이용으로 적발됨.
다만! 혁신성이나 공익성이 인정되면 규제샌드박스 제도를 활용해서 강화된 안전조치를 전제로 개인정보 처리 근거를 확보할 수도 있음. 실제로 자율주행 기업이 수집한 영상정보를 가명처리하면 AI 성능 향상에 어려움이 있었는데, 규제실증특례를 통해 강화된 안전조치를 준수하는 조건으로 동의 및 가명처리 없이 영상 원본을 활용할 수 있게 됨.
④ 특수한 개인정보 처리
민감정보(생체정보, 건강정보 등)나 고유식별정보(주민번호 등)를 AI 학습에 쓰려면 별도의 동의나 법적 근거가 필요함. 예를 들어 음성인식 기반 목소리 인증 서비스를 만들려면 정보주체의 동의를 받아야 함.
또 CCTV 같은 개인영상정보는 설치·운영·촬영 목적 범위 내에서만 처리할 수 있음. 지자체가 교통정보 수집·분석을 위해 CCTV를 설치했다면, 그 영상을 AI 기반 스마트교차로나 감응신호시스템에 이용하는 건 목적 범위 내라서 가능하다는 식임.
그렇다면 대학생 입장에서 생성형 AI, 어떻게 활용해야할까?
사실 이 안내서는 AI를 개발하거나 서비스를 제공하는 기업·기관을 대상으로 만들어진 거긴 한데, 저 같은 대학생들이 생성형 AI를 쓸 때도 참고할 만한 부분들이 있기는 합니다.
먼저 가장 중요한 점은 개인을 특정할 수 없도록 가명처리하거나 일반화해서 입력하는 거라고 생각해요.
<이렇게 하면 안 됨> | <이렇게 하는 건 가능> |
홍길동(010-1234-5678)과의 인터뷰 내용을 정리해줘 | 20대 대학생 응답자와의 인터뷰 내용을 정리해줘 |
저도 귀찮을 때는 사실 그냥 개인정보를 AI 프롬프트에 막 입력하긴 하는데.. 안내서에 따르면 우리가 AI에 입력한 내용이 학습데이터로 활용되고 있다고 하니,, 그리고 대부분의 AI 서비스는 이용약관에 이 부분을 명시하고 있으니(사실 저는 이런 약관들을 일일이 읽는 타입은 아닙니다ㅜ) 주의하면 좋을 것 같아요. 특히나 민감한 정보를 다루는 과제라면 학습데이터 수집을 거부하는 설정을 켜두는 것도 방법이 될 것 같습니다~
또한, 캡스톤 디자인 과목 등 실습에서 AI 개발할 때는 안내서 내용이 직접적으로 적용됩니다.
학습데이터 출처가 합법적인지(Kaggle 같은 공개 데이터 셋인지 혹은 출처가 불분명한 곳인지)를 꼭 따져가야 합니다. 웹 스크래핑으로 데이터 수집 시 할루시네이션으로 인해 이상한 정보가 막 생길수도 있으니.. 꼭 가급적 승인을 받은 공개 데이터셋을 사용하고, 자체 수집한 데이터를 사용할 경우에는 기본적으로 모두 가명처리/익명처리를 필수적으로 해주어야 합니다. 모델을 출력할 때 학습데이터에 있던 개인정보가 그대로 출력되지 않도록 다시한번 필터링을 하고, 혹시 모를 프롬프트 인젝션 공격 등도 대비해서 안정장치를 마련해두는 것까지 가능하다면 진행하면 좋을 것 같네요.
생성형 AI 활용로 처벌받은 사례는??!
블로그 작성하다가 문득 궁금해져서 대학생이 과제하다가 개인정보를 침해해서 처벌받은 사례가 있는지를 검색해보았는데, 연구 윤리 위반(표절) 사례는 몇몇 나와도 생성형 AI를 활용해서 과제나 논문을 작성하다가 개인정보를 침해한 사례는 아직 공개적으로 나오지는 않는 것 같아요. 다행인거겠죠?ㅎㅎ 그래도 항상 조심하면서 생성형AI를 활용하는 습관을 들여두는 게 좋을 것 같습니다. 개인적으로 작업하는 학생 신분에서는 크게 문제가 되지 않더라도 나중에 사회생활하다보면 작은 부주의가 큰 문제로 이어질 수도 있으니까요,,
마무리
저도 이번에 자료 찾아보면서 느낀건데, 생성형 AI가 정말 빠르게 발전하다보니 이에 맞춰 법적·윤리적 기준도 계속 실시간으로 업데이트되고 있는 것 같다는 생각이 들었어요. 이번 안내서도 나온지 2달도 안된 따끈따근한 내용이라는 거ㅎㅎ
지금은 언어모델 중심이지만 앞으로 음성, 이미지, 영상 같은 멀티모달 AI로 확대될 예정이라고 하니까 관련 분야 종사자분들은 이런 가이드라인을 계속 챙겨보시는 게 좋을 것 같아요!
저도 보안 컨설팅 쪽으로 취준하면서 이런 부분들 더 공부해봐야겠다는 생각이 들었습니다. 부족하지만 앞으로 많이 기대해주세용!

'IT Note > Security' 카테고리의 다른 글
AI 시대에 보안 담당자로 살아가기 (0) | 2025.08.16 |
---|---|
Gartner 2025 Prediction Top 10 중 하나, 허위 정보(Disinformation) 톺아보기 (0) | 2024.12.14 |
인공지능(AI)의 빛과 그림자, 우리는 어디로 가고 있을까? (0) | 2024.08.15 |
호다닥 톺아보는 Kerberos (1) | 2024.04.26 |
ChatGPT의 시대, 당신이 주의해야 할 점 (0) | 2023.08.15 |