뉴스

SBS 뉴스 상단 메뉴

챗GPT 답변에 내 정보 뜨지 않도록…데이터 사용 기준 마련

챗GPT 답변에 내 정보 뜨지 않도록…데이터 사용 기준 마련
챗GPT에 활용되는 음성이나 텍스트처럼, AI 기술 개발의 핵심 재료인 비정형 데이터에 대한 사용 기준이 새롭게 마련됐습니다.

비정형 데이터는 형식이 정해지지 않은 음성·텍스트·영상·이미지 등의 정보를 의미한다.

개인정보보호위원회는 오늘(4일) 이 같은 내용이 담긴 '가명정보 처리 가이드라인' 개정안을 발표했습니다.

가명정보는 개인정보 일부 항목을 삭제·변형해 추가 정보 결합 없이는 특정 개인을 알아볼 수 없도록 한 정보입니다.

AI 기술이 빠르게 발달하면서 지난해 기준 비정형 데이터는 전 세계 데이터의 약 90%를 차지할 정도로 몸집을 키웠습니다.

그러나 기존에 마련된 가이드라인은 정형 데이터에 대한 기준만 제시한 탓에, 기업이나 연구기관을 중심으로 비정형 데이터의 사용 기준이 모호하다는 목소리가 나왔습니다.

더구나 정형 데이터에 비해 관리가 쉽지 않기에 개인정보 유출에 대한 우려도 꾸준히 제기됐습니다.

이에 개인정보위는 각 분야 전문가로 구성된 태스크포스를 1년여간 운영하면서 가이드라인을 대폭 개정했습니다.

개정된 가이드라인은 비정형 데이터를 활용하는 과정에서 개인정보 유출 위험을 차단하기 위한 원칙을 명시하고, 의료·교통·챗봇 등 주요 7개 분야에 걸맞은 사례를 설명해 현장에서 손쉽게 활용할 수 있도록 한 것이 특징입니다.

예를들어, 병원에서 환자의 컴퓨터단층촬영(CT)을 사용할 때 '블랙마스킹' 기법을 통해 환자 번호나 생년월일, 성별 등을 지우도록 권고했습니다.

이렇게 처리한 결과에 대해서는 추가로 검수하고, 목적이 달성됐다면 신속히 파기할 것을 강조했습니다.

자율주행 시스템이나 교통정보 등에 비정형데이터를 활용할 경우 행인이나 차량 탑승자의 얼굴과 차량 번호판을 컴퓨터가 식별할 수 없는 수준으로 가려야 한다고 밝혔습니다.

인공지능 챗봇의 경우 언어 학습에 활용된 가명 정보가 그대로 답변으로 나오지 않도록 학습 데이터베이스와 답변 데이터베이스를 분리해 처리할 것을 명시했습니다.

또 이메일 주소와 ID 등 개인이 식별될 수 있는 항목들도 가명 처리해야 한다고 언급했다.

특히 AI 기술 발달로 개인정보 유출을 완벽하게 제거하는 것은 불가능하기에 이용자의 권익이 침해될 가능성을 지속해서 관찰할 것을 강조했습니다.

기업이나 연구자가 가명 처리 단계마다 고려해야 할 사항을 안내하고, 개발 과정에 있는 관련 기술을 소개해 경험이 부족한 스타트업이 참고할 수 있도록 했습니다.

가이드라인에서 언급된 위험성을 미리 진단할 수 있도록 개인식별 위험성 검토 체크리스트도 마련했습니다.

가이드라인은 내일(5일)부터 개인정보위 홈페이지와 개인정보포털에서 내려받을 수 있습니다.

태현수 개인정보위 데이터안전정책과장은 "지금까지 비정형 데이터로 인한 개인정보 유출 피해는 거의 없는 것으로 파악되지만, 시민사회나 학계 등에서 우려를 동반한 관심은 많은 것으로 알고 있다"며 "이번 가이드라인이 데이터 처리 개발 기업에도 큰 도움이 될 거라 생각한다"고 밝혔습니다.

그는 "다만 가이드라인은 말 그대로 권고라, 처벌의 기준이 되진 않는다"며 "올 한 해 여러 사례를 모니터링하면서 규제가 필요한 부분을 검토해 나가겠다"고 덧붙였습니다.

(사진=개인정보보호위원회 제공, 연합뉴스)
Copyright Ⓒ SBS. All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지

스브스프리미엄

스브스프리미엄이란?

    많이 본 뉴스