[월드리포트] '인류 멸종 수준 위협' AI…"사람 해치지 마!" 명령 가능할까

얼마 전 미국에서 AI 정책 조언을 담은 용역보고서가 공개됐습니다. 미국 국무부가 의뢰한 것으로, 보고서는 최악의 경우 AI 시스템이 '인류 멸종 수준의 위협'이 될 수 있으며 미국 정부가 긴급 개입해야 한다고 지적했습니다. 또 업체 간 경쟁 압박으로 인해 기업들이 안전과 보안을 희생하면서까지 AI 개발을 가속화하고 있다며 무기화 가능성 등을 경고했습니다. 해당 보고서가 국무부 등 미국 정부의 견해를 대변하는 건 아니었지만 공상 과학 영화에나 나올 법한 충격적 내용은 관심을 끌기에 충분했습니다.

해당 보고서 발표를 기사화한 뒤 여러 가지 궁금증이 생겼습니다. '인류 멸종 수준의 위협'이라는 게 구체적으로 어떤 건지, 이를 막을 방법은 무엇인지 같은 보고서 세부 내용에서부터, 영화 <아이, 로봇>이나 <터미네이터>가 현실화할 수도 있는 건지 같은 다소 호기심 섞인 질문까지 다양했습니다. 현지 매체도 아닌 한국 언론의 인터뷰 요청에 응해줄까 하는 의구심이 있긴 했지만 일단 해당 업체인 '글래드스톤 AI'에 이메일을 보냈습니다.

한국이 IT 분야 강자여서 그랬을까요? 생각보다 흔쾌한 반응이었습니다. 보고서 공동 저자이자 '글래드스톤 AI' 공동 설립자인 제러미와 에드 두 사람이 화상 인터뷰에 응했습니다. 앞서 말씀드린 여러 궁금증들을 쏟아내자 공동 저자들은 최대한 일반 시청자 눈높이에 맞춰 답변을 해줬습니다. 내용이 짧지 않아 이번에 쓰는 글을 포함해 몇 편에 나눠 가장 관심 갈 만한 내용을 정리해 보도록 하겠습니다.

AI도 프로그램인데…통제 왜 안 되나

먼저, 가장 이해가 안 갔던 부분… AI도 결국 사람이 만든 프로그램 아니냐는 점이었습니다. 보고서는 AI, 특히 사람처럼 스스로 학습하고 판단할 수 있는 AGI(범용인공지능 / Artificial General Intelligence)가 고도화될 경우 통제를 벗어날 수 있다고 우려했습니다. 이미 오픈AI나 구글 딥마인드, 페이스북 모회사인 메타, 앤트로픽 같은 선두 업체들은 연구 수준을 감안할 때 인간 지능 수준의 AGI는 대략 5년 뒤 완성할 걸로 전망됩니다. 대비하기 위해 우리에게 주어진 시간이 얼마 없다는 얘기이기도 합니다.

정확히 인공지능은 아니지만 영화 로보캅에서 비슷한 대목이 등장합니다. 로보캅을 만든 옴니 사는 자사 임원에게 위해를 가하지 못하도록 로보캅을 프로그램합니다. 1편에서 악역이었던 회사 임원은 로보캅의 활약으로 죄상이 드러나지만 로보캅은 이 프로그램에 막혀 그를 공격하지 못합니다. 다행히 회장이 기지를 발휘해 그를 '해고'하면서 빌런은 제거됩니다. 사이보그도 아닌 순수 프로그램인 AI라면 이런 프로그래밍, 즉 <인간 공격 금지>나 <명령권자 최종 승인 후 파괴적 임무 수행> 같은 명령을 최우선 순위로 부여하면 되지 않을까 싶었지만, 공동 저자들의 답은 '그렇지 않다'였습니다.

보다 정확히 말하면 (적어도 미국에서는) 현재 AI를 통제할 기술이 없다고 설명했습니다. AI 기술이 무서운 속도로 발전하고 있지만 정작 이를 통제할 기술은 확보하지 못했다는 겁니다. 공동저자 중 한 명으로 글래드스톤 AI의 CTO를 맡고 있는 에드는 현재 어떻게 하면 이를 안정적으로 수행할 수 있는지가 기술적으로 해결되지 않았다고 말했습니다. 깊이 들어가면 복잡해지는 만큼 쉽게 2가지 이유를 들어 설명했습니다.

목표 설정도, 목표 실행도 쉽지 않아

첫 번째 문제는 AI가 목표를 올바르게 수행하고 만족할 만한 결과를 내도록, 우리 스스로 확신할 수 있는 방법으로 AI에게 그 목표를 설명하는 게 쉽지 않다는 점입니다. <인간을 공격하지 마>라고 할 경우, 공격의 정의를 무엇으로 할지, 어떤 수단을 허용하고 제한할지 등등이 생각만큼 단순하지 않다는 것입니다. 에드는 램프의 요정 '지니'를 예로 들었습니다. "우리가 지니에게 소원(목표)을 빌면 지니가 원하는 방식으로 소원을 들어줄 수도 있고 (우리가 생각하는 것과는) 다른 방식으로 해석할 수도 있다"고 말했습니다.

두 번째 문제는 설사 우리가 목표를 적어 놓았다고 해도, 현재 기술 수준에서는 AI가 이 목표에 따라 만족할 만한 결과를 내도록 담보하기가 어렵다는 겁니다. "(현 단계에서 선두 연구자들조차) 실제로 어떤 목표를 세우고 AI 시스템이 그 목표를 안정적으로 추구하도록 하는 방법을 알지 못한다"고 전했습니다. 왜 그럴까요?

에드는 챗GPT 사례를 들어 설명했습니다. 과거에 챗GPT 같은 시스템이 처음 구축되었을 당시 챗봇들에는 텍스트 자동 완성 시스템이 적용됐습니다. 뭔가를 일부 적어 넣으면 다음에 나올 텍스트를 예측하는 방식입니다. 문제는, 가끔 '너무' 도움이 된다는 것이었습니다. '사제 폭탄'이란 말에 AI가 미리 넘겨짚어서 집에서 폭탄을 만드는 방법을 알려주거나, 최소한 그렇게 하기 위해 최선을 다하는 식입니다.

이러니 텍스트 자동 완성은 원하는 목표에서 배제됩니다. 다른 목표가 필요하죠. 어떤 걸까요? 사람들은 AI가 내놓은 결과를 인간이 평가하도록 하자고 했습니다. 그렇게 한다면, 우리가 원하는 AI 시스템을 얻을 수 있을 테니까요. 하지만 이 역시 원래 취지와 달리 사람들에게 좋은 평가를 받는 데 최적화되도록 AI를 훈련시키는 결과를 낳았습니다. 즉, AI가 진짜로 인간에게 진실하고 유용한 결과물을 만들어 내는 것보다 사람들이 AI의 결과물을 유용하다고 믿도록 만들게 훈련된 겁니다.

'인간의 좋은 평가'가 목표로 설정되자, 어떤 평가를 받을지 불확실한 '진실한 정보나 유용한 결과물' 대신 자신의 결과물이 좋다고 인간을 설득하는 데 최적화되도록 AI가 스스로 진화해 나갔다는 것으로, 인간이 의도했던 것과 실제 AI가 진화해 나가는 방식이 일치하지 않을 수 있다는 설명인 셈입니다. AI는 판도라 상자로도 불립니다. 어떤 급격한 변화를 가져올지 예측하기 어렵기 때문입니다. 또한 인간이 AI를 설계했지만 딥러닝(Deep Learning)으로 스스로 학습하는 AI가 그 안에서 어떻게 진화하는지… 그 속을 알기 어렵다는 점에서도 판도라 상자와 닮아 있습니다.