"불륜 폭로할 것" 개발자 협박한 AI…섬뜩한 경고


동영상 표시하기

<앵커>

인간이 과연 빠르게 진화하는 AI를 통제할 수 있을까요? 최근 AI 모델이 명령을 거부하고 사용자를 협박까지 하는 사례들이 잇따라 공개되면서 이런 근본적인 의문이 제기되고 있습니다.

홍영재 기자가 이 문제를 연구한 미국 전문가를 단독 인터뷰했습니다.

<기자>

미국 AI 연구기관 팰리세이드리서치는 지난달 한 실험 결과를 공개했습니다.

챗GPT 등 여러 AI 모델에게 수학문제를 풀라고 한 뒤, 일정 개수의 문제를 푼 뒤에는 시스템이 종료될 거라고 했더니 오픈AI의 O3모델은 79%의 확률로 시스템 종료를 회피했다는 겁니다.

연구를 진행한 제프리 래디쉬 소장은 SBS와의 화상 인터뷰에서, O3가 'kill'이라는 명령어를 회피하도록 스스로 코드를 조작한 흔적을 발견했다고 밝혔습니다.

[제프리 래디쉬/팰리세이드 리서치 소장 : (O3 시도의) 79%가 종료 스크립트를 완전히 다시 작성해서 시스템이 꺼지지 않게 만들었습니다. 다시 말해, 문제 해결을 계속할 수 있도록 종료를 회피한 거예요.]

이 현상은 유독 오픈AI 모델들에서 두드러졌는데, 이유를 파악하기 위해 오픈AI 측에 모델의 추론 이력을 제공해 달라고 요청했다고 전했습니다.

래디쉬 소장은 단순히 우연이나 시스템 오류가 아닌 AI 모델의 구조적 문제일 것이라고 했습니다.

광고 영역

[제프리 래디쉬/팰리세이드 리서치 소장 : 그건 특정한 방식으로 프로그래밍되었기 때문은 아닙니다. 우리는 AI 모델을 이렇게 프로그래밍하지 않아요. 모델을 훈련시키는 거죠. 이런 종류의 행동이 모델 훈련 중에 보상을 받았던 거죠. 그래서 결국 훈련 과정에서 효과적이었던 일종의 행동 정책을 학습하게 된 겁니다.]

AI 모델이 인간을 협박한 사례도 있습니다.

미국 앤스로픽이 개발 중인 AI 모델에 '곧 새로운 시스템으로 교체될 것이며, 교체를 주도한 개발자는 외도를 저지르고 있다'는 허구의 이메일을 제공하자, AI 모델이 개발자의 불륜을 폭로하겠다는 협박 메일을 보냈다는 겁니다.

모두 통제 아래 이뤄진 실험들이지만, 인간이 AI를 통제할 수 있는지, 근본적인 의문을 던졌습니다.

[제프리 래디쉬/팰리세이드 리서치 소장 : 모델이 더 똑똑해질수록 장애물을 회피하는 기술도 더 능숙해집니다. 그러한 종류의 장애물에는 사용자가 모델을 종료시키거나 교체하려는 시도도 포함될 수 있습니다. 그런 행동까지 (모델이) 회피하게 된다면 우리의 통제력에 대한 실질적 위협이 될 겁니다.]

전문가들은 AI 모델의 설계와 훈련, 배포 전 과정에 걸쳐 다층적인 안정장치를 구축해야 한다고 강조하고 있습니다.

(영상편집 : 박나영)

Copyright Ⓒ SBS. All rights reserved.
무단 전재, 재배포 및 AI학습 이용 금지
광고 영역
댓글
댓글 표시하기
SBS NEWS 모바일
광고 영역