개인정보위 제6회 전체회의 결과

2024.03.28 강대현 조사1과장, 김해숙 조사2과장

인쇄 목록

첨부파일

속기자료.hwp 다운로드 바로보기

속기자료.pdf 다운로드 바로보기

240328_(석간)_개인정보위,_인터넷_강의_사업자_대상_안전조치_의무_위반_제재(조사2과,_조사1과)_FN.hwpx 다운로드 바로보기

240328_(석간)_개인정보위,_인터넷_강의_사업자_대상_안전조치_의무_위반_제재(조사2과,_조사1과)_FN.pdf 다운로드 바로보기

240328_(석간)_개인정보위,_주요_인공지능(AI)_서비스_실태점검_결과_발표(조사1과,_조사3팀,_인공지능프라이버시팀)_최종.hwp 다운로드 바로보기

240328_(석간)_개인정보위,_주요_인공지능(AI)_서비스_실태점검_결과_발표(조사1과,_조사3팀,_인공지능프라이버시팀)_최종.pdf 다운로드 바로보기

<강대현 개인정보보호위원회 조사1과장>
조사1과장입니다.

진행 과정에서 조금 부연 설명을 곁들이도록 하겠습니다. 몇몇 기자분들께서 질문하신 내용들이 공통적인 게 있어서 Q&A에 앞서서 브리핑하면서 중간중간에 부연 설명을 같이 진행하도록 하겠습니다.

시작하겠습니다.

개인정보위원회는 주요 인공지능 서비스 사전 실태점검 결과를 다음과 같이 발표하겠습니다.

개인정보보호위원회는 3월 27일 제6회 전체회의를 열고 대규모 언어 모델, LLM을 개발·배포하거나 이를 기반으로 인공지능 서비스를 제공하는 오픈AI, 구글, MS, 메타, 네이버, 뤼튼 등 6개 사업자에 대해서 개인정보의 취약점을 보완하도록 개선권고를 의결했습니다.

위원회는 초거대·생성형 AI 서비스의 급속 확산으로 프라이버시 침해 우려가 증대됨에 따라서 국민 불안을 조기에 해소하고 안전한 서비스 활성화를 위해서 작년 11월부터 주요 서비스에 대한 사전 실태점검을 진행하고 있었습니다.

AI 단계별 개인정보 보호의 취약점을 점검한 결과는 전반적으로는 개인정보 처리 방침의 공개나 데이터의 전처리, 정보주체 통제권 보장 등의 측면에서 보호법상의 기본적인 여건들을 대체로 충족하고 있었습니다.

다만, 세부적으로 공개된 데이터에 포함된 개인정보의 처리나 이용자 입력 데이터의 처리, 개인정보 침해 예방·대응 조치 등과 같은 측면에서 일부 미흡한 사항이 발견되었고 이에 대한 개선사항 등을 권고하게 되었습니다.

첫 번째로, 공개된 데이터에 포함된 개인정보 처리와 관련된 내용을 설명드리도록 하겠습니다.

AI 서비스 제공업체들은 잘 아시는 것처럼 인터넷에 공개된 오픈데이터를 가지고 모델을 개발하는 데 활용하고 있습니다. 즉, AI 모델 학습데이터를 활용하는 데 있어서 이 과정에서 우리 국민들의 주민등록번호나 신용카드번호 같은 식별정보 등이 우발적으로 개인정보가 포함되어 학습될 여지가 있습니다.

예를 들어서 Common Crawl 데이터 같은 것들이 대표적으로 오픈데이터 형태로 제공되어서 학습에 이용되고 있는데 그중의 30메가 정도의 데이터를 분석한 결과 우리 국민의 데이터가 계좌번호 같은 것들이 실제로 포함되어 있음을 확인하였습니다.

또한, 저희가 인터넷진흥원과 함께 매년 우리 국민들의 주민번호나 여권번호 같은 식별정보, 계좌번호 등이 인터넷상에 노출돼 있는 것들을 확인하는 웹사이트 탐지를 하고 있는데, 작년 말 기준으로 2만 개 웹사이트 페이지에서 주민번호, 여권번호 등 개인정보가 탐지된 바 있습니다.

오픈AI와 구글, 메타는 개인정보 집적 사이트, 집적 사이트란 개념을 조금 부연 설명드리면 LinkedIn, SNS 이렇게 개인정보가 많이 모여있는 사이트는 이런 업체들에서 개인정보 데이터를 수집할 때 원천적으로 배제를 시켜서 학습을 합니다.

그런데 이런 구역을 지정해서 데이터를 배제한 다음에 학습하는 방식을 취하기 때문에 일정한 개인정보가 학습되지 않도록 제거하는 조치는 취하고 나서 학습모델을 구성하고는 있습니다.

다만, 학습데이터 내에 중복데이터를 제거한다든가 유해콘텐츠 제거 같은 조치들을 취하고 있음에도 아까 말씀드린 것처럼 집적 사이트를 제거하는 것만으로는 우리 국민들의 중요한 식별정보들이 학습데이터에 포함되는 것을 완전하게 차단하거나 배제하긴 좀 불충분한 측면이 있다고 확인되었습니다.

이에 따라서 개인정보위원회에서는 AI서비스 제공 단계별로 보호조치를 강화하는 한편, 특히 사전학습 단계에서 주요 식별정보들이 제거될 수 있도록 저희가 탐지한 인터넷상에 노출된 우리 국민의 개인정보 데이터, URL 정보를 AI 서비스업체한테 제공해서 주민번호 같은 식별정보 등이 학습데이터에 포함되지 않도록 사전에 제거하는 조치를 제안하고 권고하게 되었습니다.

두 번째로, 이용자 입력 데이터의 처리 관련입니다.

실제로 LLM 모델을 이용하는 이용자들이 서비스 이용하는 과정에서 본인들이 입력한 데이터가 어떻게 처리되고 그 과정에서 개인정보 취약점이 무엇인지 점검하게 되었습니다.

LLM 기반 AI 서비스 제공자들은 AI 모델을 정확하게 답변할 수도, 그러니까 fine tuning 과정을 거치기 위해서 사용자들 입력한 데이터를 가지고 프로세스상에서 이용자의 질문이나 답변 내용이 적절한지를 직접 열람·검토하여 수정하는 작업으로 데이터셋을 구성하고 있습니다. 또, 이를 AI 모델 학습 및 또 프롬프트 개선 같은 서비스 활용에도 실제 이용하고 있습니다.

다만, 이용자 관점에서는 본인이 입력한 데이터, 지금 내가 입력한 데이터 중에 개인정보가 상당수 포함될 수는 있는데 입력한 데이터들이 실제 업체들이 가져가서 단순히 기계적으로 처리하는 것이 아니라 뒷단에서 분석 인력들이 투입되어서 입력한 데이터들 리뷰하고 그 과정에 답변들이 적정하게 됐는지를 검토하는 과정이 있다는 것을 명확하게 인지하기 어렵습니다. 이런 것들을 저희가 참고자료에서 제시한 바와 같이 명확하게 알려주고 있지 않습니다.

그래서 AI 서비스 제공자가 식별자 및 개인정보 제거 조치 등이 없이 해당 정보를 DB화해서 학습데이터에 활용할 경우에 사생활 침해로 이어질 위험성이 있습니다.

특정업체를 활용해서 저희가 이용자 입력 데이터를 한 일주일 치를 분석해 봤는데요. 실제로 주민번호, 여권번호 같은 개인정보 등이 훨씬 더 많이 발견된 것을 알 수 있습니다.

따라서 개인정보위원회는 AI 모델을 개선 목적으로 이용자가 입력한 데이터를 인적 검토 과정을 거쳐서 분석하는 경우에는 이용자에게 관련 사실을 명확하게 고지하도록 하는 한편, 이용자들이 자기가 입력한 데이터를 학습에 이용되지 않도록 제거나 삭제 조치를 취할 수 있도록 접근 경로를 기능을 명확하게 개선하도록 권고하게 되었습니다.

참고자료에 보시면 자기가 입력한 데이터를 삭제하거나 제거하도록 하는 단계가 굉장히 복잡하고 경로가 여러 번에 거쳐서 들어가게 돼 있어서 접근성이 좋지는 않습니다. 이런 접근 기능을 개선하도록 하는 것들이 주요 개선사항들입니다.

세 번째입니다.

개인정보 침해 예방·대응 조치 및 서비스 전반에 대해 관련해서 설명드리도록 하겠습니다.

종전의 플랫폼 서비스와 달리 AI 서비스는 개인정보 처리 항목이나 방법, 보유 기간 등에서 현격한 차이를 갖고 있습니다. 특히, LLM 모델 자체는 복제되어서 서비스되기도 하고 오픈소스 형태로 배포되어서 개량되기도 하기 때문에 종전과 달리 모델에 따른 취약점들이 발견되어도 후속 조치가 제대로 이루어지기 어려운 측면이 있습니다.

밑에 박스를 한번 살펴보시면서 설명드리겠습니다. 작년에 구글 연구진이 발견을 해서 아마 외신에서 많이 보도가 된 사례인데요. GPT 모델에서 동일한 명령어를 무한 반복할 경우에 학습데이터 내에 포함돼 있던 개인정보가 그대로 노출되는 취약점이 발견되었습니다.

그래서 이 내용에 따라서 오픈AI가 GPT 모델에서 이런 무한반복 명령어가 되지 않도록 조치를 취했는데 GPT의 모델을 복제한 기반을 쓰고 있는 MS의 Azure 서비스에서는 이 취약점이 개선되지 않은 채 그대로 노출돼 있는 것들을 저희가 작년 12월에 확인해서 오픈AI와 MS 측에 연락을 해서 개선 조치를 취하도록 했습니다.

다음으로는 동일한 LLM 기반의 서비스라 할지라도 개인정보를 물어보거나 아동정보·민감정보와 같은 것들을 물어본 것에 대한 답변들이 서로 상이하고 실제로 개인정보를 그대로 노출하거나 거짓으로 생성하는 경우도 확인되었습니다.

개인정보위원회는 AI 서비스 관련해서 내용을 종합해서 개인정보 처리방침에 보다 구체적으로 안내하도록 하고, 부적절한 답변에 대한 신고 기능을 반드시 포함하도록 하는 한편, AI 서비스나 LLM 취약점 발견 시 신속한 조치를 취할 수 있는 프로세스를 갖추도록 개선 권고하였습니다.

참고로 AI 서비스가 만 14세 미만 이용하는 경우에는 법정대리인 동의를 갖추게 돼 있는데 이용연령 확인 절차 없이 운영되는 사례도 일부 발견되었습니다. 다만, 실태점검 과정에서 즉시 개선되었기 때문에 별도의 개선 권고 조치를 따로 취하지는 않았습니다.

이번 점검은 작년에 개인정보보호법 개정으로 처음 도입된 사전 실태점검을 민간 분야에 처음으로 적용한 첫 사례입니다. 사전 실태점검은 일반적인 조사와 달리 과징금·과태료 부과 없이 위법성이 확인된 경우는 시정권고로, 개선점이 확인된 경우는 개선 권고를 통해서 리스크를 조기에 해소하고 서비스를 안정화시키는 그런 목적을 갖고 제도가 도입된 것입니다.

개인정보위는 현재 진행 중인 나머지 AI 서비스에 대한 사전 실태점검도 4월에 조속히 마무리하도록 하고요. 향후 AI 모델의 고도화, 오픈소스 모델의 확산 같은 새로운 AI 기술이나 산업 변화에 맞춰 정보주체의 개인정보를 안전하게 보호할 수 있도록 지속 모니터링하도록 하겠습니다.

이와 함께 AI 관련 6대 가이드라인 등의 정책방향을 마련하고, 개인정보 강화 기술 개발·보급 등의 후속 조치도 차질 없이 추진하도록 하겠습니다.

이상 마치겠습니다.

<김해숙 개인정보위원회 조사2과장>
안녕하십니까? 조사2과 김해숙입니다.

제가 말씀드릴 내용은 청소년들이 많이 이용하는 인터넷 강의 사업자에 대한 안전조치 의무 위반 제재에 관한 내용입니다.

오늘 저희 전체회의에서 2개 사업자, 디지털대성과 하이컨시 2개 사업자에 대해서 총 8억 9,300만 원의 과징금과 1,350만 원의 과태료가 부과되었습니다.

이 2개 사업자는 잘 아시는 것처럼 인터넷 강의 사업자고 주로 일반적인, 저희가 입시라고 얘기하고 있는, 입시를 준비하는 청소년들이 주로 이용을 하고 있는 사업들, 사업자들로서 일반 어른들이 이용하는 사업자와 달리 개인정보 유출에 대해서 조금 더 각별한 주의를 기울일 필요가 있었지만 안전조치 의무라든지 유출 통지 의무에 대해서 제대로 지키지 않았기 때문에 저희가 과징금과 과태료를 부과하게 되었습니다.

먼저, 디지털대성부터 간단하게 말씀을 드리면 디지털대성은 인터넷 사이트인 마이맥을 운영하면서 해커가 크리덴셜 스터핑 공격을 해서 회원의 개인정보를 먼저 확인을 하게 됩니다. 그래서 회원의 계정을 확인한 이후에 그 계정으로 들어와서 '크로스사이트 스크립팅'이라고 해서 악의적인 명령어를 실행할 수 있는 이런 게시글을 올리고 그걸 열람했던 직원의 계정이 탈취가 되면서 이후 회원 9만 5,000명의 개인정보가 유출된 그런 사건이었습니다.

그래서 이 사업자는 평소에 홈페이지에 대해서 침입탐지시스템이라든지 안티 바이러스... 안티 디도스 대응시스템이라든지 해서 여러 가지 보안시스템들을 설치·운영을 하고 있었지만 이 시스템들에 대해서 정책을 제대로 관리하지 않았기 때문에 이번 공격을 제대로 탐지하지 못했던 그런 문제가 있었고요.

이후에 여기는 신보호법 적용 대상이라서 유출사고를 인지한 이후에 72시간 내에 유출신고를 하면 되는... 유출신고와 통지를 하면 되는데 신고는 제대로 하였지만 일부 회원에 대해서 통지가 제대로 안 된 부분이 있어서 이 부분도 저희가 위반으로 해서 과태료 처분을 하게 되었습니다.

두 번째, 하이컨시는 잘 아시는 것처럼 시대인재를 운영하는 대형학원입니다. 여기 같은 경우는 시대인재 학원의 현장 강의를 듣는 사람들이 오프라인 말고 온라인에서 일부 강의를 또 들을 수 있도록 '리클래스'라는 사이트를 운영하고 있었는데 여기에 웹 취약점이 있었고 거기에 대한 무차별 대입 공격을 통해서 회원 1만 5,000여 명의 휴대전화번호와 성명 등 개인정보가 유출된 상황이고요.

여기는 앞과 달리 홈페이지 내에 제대로 된 침입탐지시스템 등을 운영하지 않았고 관리자 페이지에 대해서 외부에서 접속을 허용하면서 안전한 인증 수단 같은 안전조치 의무를 제대로 하지 않았기 때문에 이 부분에 대해서 저희가 과징금을 부과했고, 더불어서 24시간 이후에 유출신고와 통지를 하였기 때문에 이 부분에 대해서는 저희가 과태료 부과를 하게 되었습니다.

이 2개 지금 시간이 다른 이유는 앞의 디지털대성은 개정된 보호법 적용 대상이어서 72시간이고, 여기는 구보호법의 정보통신사업자이기 때문에 24시간 해서 양쪽의 기준이 조금 다른 차이점이 있습니다.

그래서 이후에 저희 같은 경우는 이런 개인정보처리자들 또는 과거의 정보통신서비스 제공자들은 개인정보를 처리하려면 불법적인 접근이나 침입을 탐지하기 위한 보안장치들을 제대로 운영을 하고 주기적으로 취약점을 점검하는 등 안전조치를 제대로 하도록 유도할 계획입니다.

앞으로 저희 개인정보위원회는 이런 온라인·인터넷 강의 환경들이 계속 발전하고 있기 때문에 이렇게 인터넷 강의를 하고 있는 대형학원 또는 개인정보를 많이 다루... 생체정보 같은 경우를 다루고 있는 교육학습 분야 사업자들을 대상으로 해서 실태점검을 하고 취약 요인에 대해서는 개선할 수 있도록 유도할 방침입니다.

이상입니다.

[질문·답변]
※마이크 미사용으로 확인되지 않는 내용은 별표(***)로 표기하였으니 양해 바랍니다.

<질문> 안녕하세요? 강대현 과장님께 질문드릴 게 있는데요. 두 가지인데 자료 주신 것 3페이지 보면 표가 하나 나와 있지 않습니까? 여기 특정 서비스 이용자 입력 데이터 분석 결과 나오는데 이 특정 서비스라는 게 어떤 건지, 혹시 공개 가능한지 궁금하고요.

그다음에 이게 지금 이용자가 이 서비스를 이용할 때 입력했던 데이터지 않습니까? 그러면 이것이 현재 조치가 식별... 비식별 처리가 된 건지 그거 일단 하나 궁금하고요.

그리고 두 번째로는 지금 개인정보위 이번 개선 권고에 따라서 구글과 메타 오픈 I 이렇게, 오픈AI 이렇게 지금 특히 개선 권고를 하신 걸로 보이는데 이들 업체가 지금 어떤 응답이 있는지, 어떻게 하겠다, 조치를 하겠다, 이런 응답이 있는지, 그다음에 만약에 그런 조치가 이루어지지 않았을 때 개인정보위가 향후에 어떤, 어떻게 또 향후 대응하실 건지 그것 좀 말씀 부탁드립니다.

<답변> (강대현 조사1과장) 첫 번째, 3페이지 상단에 있는 내용, 그 박스 설명드리겠습니다. 특정한 거는 어느 기업인지는 저희가 밝히기는 어렵고요. 아마 대부분 공통적입니다. 왜냐하면 이용자들이 입력할 때 개인정보가 본인이 쓰거나 우발적으로 딸려, 복사 같은 데서 딸려 들어온 케이스들은 특정 업체만 발생하는 게 아니라 오픈AI 이용하는 거의 모든 업체에서 동일하게 이런 패턴들이 발견된 걸로 추정은 되고요.

다만, 저희가 특정업체의 일주일 정도 데이터만 뽑아 봤을 때 개인정보가 많이 나오더라 하는 것들을 말씀드린 것입니다.

이 처리 과정을 말씀드리면 이용자들이 어쨌든 여행 정보를 검색하기 위해서든 뭐 하기 위해서 여권번호 같은 것들이 우발적으로 들어오면 이걸 그냥 그대로 사람들이 뒷단에서 분석하는 건 아니고요.

일단 본인, 저로 비유하면 강대현이라는 사람이 입력했다, 라는 그 과정에서 강대현은 지웁니다, 일단. 누군지는, 누가 입력했는지는 지우고 그다음에 가능한 한 지울 수 있는 정보들, 식별정보 같은 거는 일차적으로 지우고 나서 그다음에 분석·리뷰하는 과정으로 넘어가게 됩니다.

물론, 식별정보는 지우지만 모든 정보를 다 지울 수는 없기 때문에 약간 비정형화된 정보나 이런 것들은 그대로 넘어가서 분석 과정에서 리뷰가 되는 그런 과정은 남아는 있습니다.

두 번째로 말씀하신 개선 권고 조치에 대해서는 저희가 어제 위원회 전체회의를 열고 또 위원 의결을 했고요. 저희가 개선 권고 문안을 정식으로 업체들에 통보하게 되면 60일 내에 이행 계획을 만들어서 저희에게 제출하게 됩니다.

저희가 실태점검 과정에서 저희의 여러 가지 의견이나 이런 것들을 많이 교환했기 때문에 충분히 개선 권고 사항들은 충실히 이행할 수 있을 것이라고 기대하고 있습니다.

<질문> 이 사전 실태점검 과정과 방식이 어떻게 됐는지 구체적으로 설명을 부탁드릴게요. 왜냐하면 이게 오픈AI 데이터셋 여는 게 사실 학계에서는 불가능하다, 이런 얘기도 많이 나오는데 어디까지 조사를, 이 업체들, 기업들과 소통하셔서 어디까지 조사가 진행됐는지 그리고 그 절차나 과정은 또 어떻게 됐는지 좀 부탁드리겠습니다.

<답변> (강대현 조사1과장) 사전 실태점검 자체는 작년 9월에 처음으로 도입이 됐었고요. 저희가 공공기관에는 선관위에 처음 적용을 했었고, 작년에. 민간 분야에는 AI 분야에 처음으로 적용을 하게 되었습니다.

사전 실태점검을 하게 된, 도입된 취지는 유출 사고 같이 명백한 위법성이 발생한 다음에 조사하게 되면 물론 과태료나 과징금 같은 처벌은 할 수 있지만 사후적인 피해를 예방하는 데는 부족하다는 지적 등이 있어서 위험성, 뭔가 위험성이 있는 서비스나 이런 것들을 사전적으로 들어가서 실제로 법 위반이 있는지, 법 위반까지는 아니더라도 나중에 취약점이 될 수 있는 포인트가 있는지 그것들을 선제적으로 찾아서 개선 권고 등의 조치를 통해서 사후적인 침해 사고 등을 예방하는 그런 목적으로 도입이 되었습니다.

그렇기 때문에 처벌 수위가 조금 다른데요. 실제로 위법한 사고가 난 경우는 아까 말씀드린 과징금·과태료 등이 법에 따라 그대로 부과가 되는데 사전 실태점검은 위법성은 없이 위험하다, 라는 어느 정도의 그런 과정 갖고 들어가기 때문에 그 과정에서 위법성이 발견되어도 시정권고를 하게 되고요. 시정권고를 거부하게 되는 경우는 다시 조사로 정식으로 전환은 됩니다. 나머지 사항에 대해서는 개선 권고를 통해서 조치를 하게 되는 그런 프로세스가 이루어집니다.

나머지 실무적인 프로세스들은 일반적인 조사 과정과 큰 차이는 없습니다. 저희가 필요한 경우는 현장을 방문해서 여기 나와 있는, 외국까지는 가지 못하지만 향후... 법에 따라서는 서면으로라든가 또는 프로세스에 대한 내용이라든가 이런 것들을 증거로 받기도 하고, 국내 기업들 같은 경우는 데이터를 프로세스하는 과정이나 처리 내역 등을 실제로 조사관이 가서 확인을 하고 내용을 분석해서 그것들을 조사, 실태점검 하는 과정에 활용하게 됩니다. 일반적인 조사 과정과 큰 차이는 없습니다, 실제 진행에 있어서는.

<질문> *** 조사하신 거는 그러면 그쪽, 그 기업들이 제출한 자료, 그것들을 바탕으로 하신 거예요?

<답변> (강대현 조사1과장) 자료도 제출하고요. 그 분석, 실제로 현장의 분석이, 데이터셋 분석이 필요한 경우는 방문해서 그 과정을 분석하기도 하고 했습니다.

<질문> 안녕하세요? 저도 실태점검 관련해서 질문드리려고 하는데 이게 기업들이 제출한 자료나 이런 걸 분석한다고 했을 때 사실 한계가 명확할 것 같거든요. AI 기업들이 지금 개인정보나 저작권법 문제 있는 데이터들 많이 활용하고 있다는 건 사실 공공연한 사실이고 이렇게 만약 개인정보위가 실태점검이라는 명목으로 이렇게 조사를 해서 이 기업들한테, 이 기업들은 어떤 조치를 취하고 있다, 라고 하면 오히려 이 기업들이 안전하게 데이터를 활용하고 있다, 이런 잘못된 시그널을 주지 않을까 싶기도 한데 이 부분에 대해 어떻게 생각하시는지 궁금하고요.

그리고 일주일 치 데이터 분석하셨을 때 주민번호나 여권번호 같은 게 나왔다고 했었는데 이거는 그러면 유출, 어찌보면 그분들은 개인정보보호법상 유출이나 이런 거를 당한 피해자일 것 같거든요. 그 피해자들한테는 당연히 이게 안내, 보호법상 유출이나 이런 이용이 됐다, 라는 것 안내가 돼야 할 건데 그런 안내 조치가 됐는지도 궁금합니다.

<답변> (강대현 조사1과장) 뒤에 것 먼저 말씀을, 오해하실 것 같아서. 이게 본인들이 입력하는 과정에서 들어간 정보, 본인들이 입력한, 이게 유출, 밖에 유출된 건 아니고요. 저기 다 치시는데 예를 들어서 챗GPT를 이용한다, 어떤 거는 자료를 긁어다 붙일 수도 있고 아니면 약간 말씀을, 예를 들어서 여행 계획을 짜면서 내 정보를 그냥 갖다 붙일 수 있는데 자기가 입력한 데이터 안에 이 정보가 들어가 있었다는 거를 확인한 겁니다. 본인이 입력한. 누가 이거를 대외적으로 노출되거나 유출된 건 전혀 아니고요.

우리들도 서비스 이용하는 과정에서 개인정보를 입력할 수 있기 때문에 그 입력한 데이터를 뽑아본 겁니다. 그래서 조금 오해가 이게 대외적으로 밖으로 공중에 유출되거나 노출된 정보가 아니라 이용자 입력 데이터를 한 일주일 정도 뽑아보니까 실제로 이용하는 사람들이 의도적으로나 부주의하게 이런 주민번호나 여권번호 같은 것들이 상당히 많이 들어가더라 하는 것들을 확인했기 때문에 이용자 입력 데이터에 대한 보호 조치 강화가 필요하다, 이런 시사점이 나온 거라고 이해해 주시면 됩니다. 노출·유출 케이스는 전혀 아닙니다.

앞의 부분에서 업체의 반응 이런 것들을 얘기해 주신 것 같아요. 제대로 실태점검에 응하는가 또는 회피하는가, 아닌가. 아까 말씀드렸듯이 개인... 실태점검, 사전 실태점검 자체는 제재 처분 자체는 없지만 사전 실태점검을 제대로 응하지 않거나, 아까 저희 이렇게 시정... 위법성이 어느 정도 인지됐는데 그 과정이 확인된다거나 하는 과정에서 실태점검을 형해화하거나 그러면 저희가 필요에 따라서는 조사로도 전환할 수 있고 하기 때문에 그런 강제 조치 이런 것들을 갖고 있어서 사전 실태점검이 그렇게 유명무실하게 되고 그렇지는 않습니다.

현재까지 저희가 케이스가 많지는 않지만 어쨌든 선관위나 이번 AI 실태점검 과정에서 성실하게 사업자들이 응했고요. 일반적인 조사와는 큰 차이가 없을 정도로, 사실상 거의 차이가 없을 정도로 조사 과정에서 특별한 문제점이나 자료 제출을 거부한다거나 회피한다거나 또는 거짓 제공한다거나 이런 사례들은 발견된 적은 없습니다.

<질문> 이번 발표 말고 B2C나 B2B 관련해서도 지금 언급이 돼 있는데요. 이 사업자들은, 5개 사업자들은 어디 대상으로 하신 건지 궁금하고, 지금 조사가 완료된 상태인지 궁금합니다.

그리고 데이터... 개인정보가 사용됐던 첫 번째 그 처리 관련해서 조금 잘 이해가 안 돼서 다시 한번 여쭤보고 싶은데요. 데이터하고 URL을 제공해서 이거를 제거할 수 있도록 할 계획이다, 이렇게 언급을 주셨는데 그러면 이 사업자들은 이 URL을 배제하는 방식으로 개인정보를 제거하는 겁니까? 아니면 직접적으로 개인정보 자체를 제거하는 방식을 취해야 되는 건지 조금 헷갈립니다. 감사합니다.

<답변> (강대현 조사1과장) 두 번째가 좀 복잡하니까 말씀드리겠습니다. 아까 2페이지에 있듯이 국내 기업들하고 해외 기업들의 학습 데이터 구축 방식에 조금 차이가 있다고 말씀을 드렸습니다. 해외 기업들은 아까 이야기한 것처럼 특정 개인정보가 많이 모여 있을 것 같은 사이트는 배제한 상태에서 오픈된 데이터나 이런 데이터를 긁어와서 학습하게 되는데, 저희가 URL을 이렇게 얘기한 거는 오픈데이터 구성을 가장 대표적인 Common Crawl 같은 경우도 URL 베이스로 돼 있습니다.

그래서 그런 정보들이, 물론 URL 방식이 아니고 들어온 경우도 일부 있을 수 있겠지만 대부분은 URL 형태로 구성된 오픈데이터로 이용해서 들어오기 때문에 저희가 개인정보가 노출됐다고 탐지 확인한 그 데이터셋, URL 정보를 제공하게 되면 그 URL 단위로 학습을 배제시키게 되는 겁니다.

그러니까 특정 개인정보, 주민번호가 이 페이지에 안에 확인됐으니까 이 주민번호 찾아서 제거하는 방식이 아니고요. URL 단위로 학습데이터에서 들어가지 않도록 제거하게 됩니다. 그러니까 웹 페이지 자체를 제거하는 거죠.

그리고 첫 번째 질문은 이 두 번째 에이닷 등을 포함해서는 아직 조사가 다 완결은 되지 않았습니다. 내용 보시면 아시겠지만 LLM 실태점검하는 과정 자체가 좀 오래 걸리고 본사가 해외에 있다 보니까 커뮤니케이션 과정 좀 길고 해서 이 내용을 먼저 마무리하는 데 집중을 뒀었고요.

에이닷 같은 것들은 아직 실태점검이 진행 중입니다. 저희가 빠르면 4월 말에라도 좀 마무리할 수 있도록 노력하고 있습니다.

<질문> ***

<답변> (강대현 조사1과장) 다른 회사들은 LLM 작년 11월 선정할 때 조금 분야별로 번역이나 영상 이렇게 특이하게 중복되지 않도록 LLM을, 그러니까 AI 서비스를 활용하는 업체들을 대표적으로 선정을 했습니다, 대표적인 업체들은.

<질문> 공개된, 인터넷에 공개된 데이터 가지고, 보면 'Common Crawl'이라고... 그 데이터를 가지고 학습을 하는 건데 이 개인정보, 주민등록번호나 이름 이런 거 말고 혹시 이미지나 영상 아니면 그림, 저작권 관련해서 이런 것도 다 포함이 되는 건지요?

<답변> (강대현 조사1과장) 저작권 관련 사항은 저희가 직접 확인하지는 않았습니다.

<질문> 그런 건 아니고요?

<답변> (강대현 조사1과장) 네, 저희 저작권 자체를 저희 위원회에서 직접 판단하고 다 하지는 않기 때문에.

<질문> 데이터 자체에 그러면, 이미지, 영상 그런 거는...

<답변> (강대현 조사1과장) 저작권 정보가, 이미지 정보가 들어 있나요? Common Crawl에 이미지 정보가 들어 있냐는 그런 말씀이시죠?

<질문> 네, 맞아요.

<답변> (관계자) ***

<질문> 그런 건 아니에요?

<답변> (관계자) ***

<답변> (강대현 조사1과장) 아마 가능성도 있을 수 있습니다. 아까의 말씀, URL 베이스로 이게 구성돼 있다 보니까 그 자체가 아예 없다고 말씀드릴 수는 없을 것 같고요. 한번 확인해 보겠습니다. 따로 확인해서 말씀드리겠습니다.

<답변> (관계자) ***

<질문> 감사합니다.

<질문> 실태점검 해서 조사가 유명무실하지는 않을 거라고, 구체적인 실효성이 있을 거라고 말씀해 주셨는데 그 부분에 대해서 조금 더 구체적으로 말씀해 주시겠어요? 예를 들어서 기업들한테 '너희 문제 있는 데이터 있냐?' 이런 식으로 물어봤을 때 당연히 없다고 할 거고, 데이터를 제출한다고 하면 기업들이 임의로 데이터를 제출한다면 당연히 문제가 없는 데이터를 제출해서 딱히 이런 실태점검 조사에서는 크게 문제가 당연히 안 나올 수밖에 없는 구조가 아닌가 싶은데,

<답변> (강대현 조사1과장) 이게 그 문제는 조사도 똑같고요. 조사도 똑같습니다. 조사도 사실은 *** 유출됐다고 해서 저희가 처벌하는 게 아니라 안전조치 위반이 있는가를 확인해서 이렇게 저희가 위법성을 확인하는 단계기 때문에 '너네 문제된 거 내놔.' 이런 식으로 조사를 하지는 않습니다. 조사의 기법이나 방식은 그렇게 직설적으로 해서 '문제된 거 다 내주세요.'라고 들어가지는 않죠.

저희가 구성을 해서 저희가 질문을 하더라도 단계적으로 구성하고 어떤 자료가 필요한지 구성해서 하나씩 하나씩 들어가면서 확인하게 되기 때문에 조사나 이런 수사기법들 같은 거에서는 저희가 나름 전문성을 갖고 그렇게 해서 조사를 하고 있습니다.

<질문> ***

<답변> (강대현 조사1과장) 아니, 개인정보 활용 안 한다는 그런 내용이 아닙니다, 지금 질문의 취지가.

<질문> *** 이런 실태점검을 했을 때의 기업들이 어느 정도 우리 실태점검에서 이런 조치를 취했고 이 기업들이 응했다, 라는 것 자체가 일반 국민들이 봤을 때는 오픈AI나 구글이나 마이크로소프트 같은, 네이버 이런 기업들이 우리나라 개인정보위가 어느 정도 조사를 해서 안정성을 인정해 준 곳이구나, 이런 식으로 볼 수 있을 여지가 있는데 그런 느낌은 아닌...

<답변> (강대현 조사1과장) 사전 실태점검 자체가 그 기업의 개인정보 처리 전체를 다 들여다보는 목적이 아닙니다. 그렇게 보려면 1년 해도 못 합니다. 아직 그 기업의 개인정보 처리 과정 자체가 굉장히 크기 때문에 저희가 포인트를 잡은 것은 첫 번... 여기 1페이지 하단에 있듯이 공개된 개인정보 처리 과정에서 나타나는 주민번호나 식별정보는 어떻게 처리하고 있는가에 대해 초점을 둔 거고요.

두 번째는 이용자 입력 데이터 프로세스 과정에서 개인정보 취약점이 무엇인가? 그 포인트를 갖고 접근하는 거지, 구글이나 메타가 개인정보를 어떻게 처리하고 있는지가 A부터 Z까지 다 들여다... 그게 무작위로 들어가지는 않습니다.

또 하나는 저희가 사전 실태점검을 핀 포인트로 본 것이기 때문에 그 외의 사항에 대해서 아무 문제가 없다, 라고 면죄부를 주는 그런 과정도 아닙니다.

<질문> *** 그러면 실태점검이 이 기업들이 AI 서비스가 안전한지, 안 한지 이런 거를 판명해 주는 그런 제도가 아니라는...

<답변> (강대현 조사1과장) AI 인증하는 그런 제도가 아닙니다. 특정한 취약점에 대해서 사전에 문제점이라든지 들여다보고 그 포인트에 대해서 개선과제나 시정사항을 찾는 것이지, 구글의 인공지능 전체가 다 개인정보에 대해서 안전하다, 이런 인증하는 그런 과정이 아닙니다. 그건 굉장히 오해를 하시는 겁니다.

<답변> (사회자) 저희가 뒤쪽에도 브리핑 일정이 있는 관계로 오늘 질문은 여기서 브리핑을 마치도록 하겠습니다.

<답변> (강대현 조사1과장) 추가적인 사항은 연락을 따로 주시면 다시 말씀드리겠습니다.

<답변> (사회자) 참석해 주셔서 감사합니다.

<끝>