상대방 죽이고 "웁스"…'거짓말하는 AI'의 공포 [스프]

정유미 기자

입력 : 2026.04.01 09:01|수정 : 2026.04.01 09:01

[지식의 발견] 김대식 카이스트 교수

⚡ 스프 핵심요약

앤트로픽은 AI를 무기·감시에 쓰지 말라는 원칙을 지키려다 미국 국방부와 충돌해 소송까지 간 상황이며, 존립 위기까지 거론되고 있습니다.

최근 연구에 따르면 AI는 인간의 의도를 파악해 실제 생각과 다른 말을 할 수 있으며, 에이전틱 AI의 발전으로 개인이 생화학 무기를 제조할 위험 등 인류사적 위협이 실재하고 있습니다.

싫으면 싫다고 목소리를 내야 하고, 최소한의 규제라도 AI 기업에 적용해야 한다는 것이 화자의 주장입니다.

美 'AI 전쟁' 법정행...앤트로픽, 국방부 상대 소송 제기

다리오 아모데이가 미국 국방부와 법정 싸움을 하고 있다. 앤트로픽은 AI 헌법을 자체적으로 가지고 있고 '모든 AI 모델은 AI 헌법에 맞아야 된다'라는 철학을 가지고 있어요. 그 헌법에는 크게 두 가지 항목이 있습니다. 첫 번째는 인공지능을 자율 무기로 써서는 안 된다, 스스로 AI가 사람을 죽이는 데 써서는 안 된다. 두 번째는 인공지능을 가지고 미국 시민들을 감시하는 데 사용하면 안 된다.

다리오 아모데이가 미국 국방부 장관한테 그거를 계속 지키라고 요구한 거예요. 그랬더니 바로 핵폭탄급 피해를 받고 있다.

Q. 공급망 위험 기업으로 지정. 중국 기업 같은 데나 했던 거 아니에요?

앤트로픽만 미국 정부와 거래할 수 없는 것이 아니고 앤트로픽과 거래하는 다른 기업도 미국 기업, 미국 정부와 거래할 수 없습니다. 그러면 앤트로픽은 파산하라는 거예요. 투자도 받을 수 없어요. 앤트로픽에 투자하면 거래를 한 거잖아요. 그 기업도 미국 정부와 비즈니스를 할 수 없습니다. 앤트로픽에서 소송을 걸었어요. '말도 안 된다'

서너 가지 시나리오가 있을 것 같아요. 가장 높은 확률은 앤트로픽이 고개 숙이고 들어가지 않을까. 두 번째는 유럽에서 앤트로픽에게 유럽으로 회사를 옮기라고 했어요. 그런데 어려워요. 법인을 옮겨도 인프라와 연구원들이 다 갈 순 없잖아요. 세 번째는 말을 안 듣고 버티다가 파산할 수도 있겠죠. 또 하나 있네요. 미국 정부가 앤트로픽을 국영화할 수도 있죠.

(작년에) 실리콘밸리에서 흥미로운 보고서가 소개됐어요. AI 2027 보고서. 오픈AI에 다니던 직원들이 나와서 쓴 건데, 미래 시나리오를 그려본 겁니다. 그중 하나가 '2027년 9,10월쯤에는 미국 정부가 빅테크 중 하나를 국영화할 수 있다', 맞을 수도 있을 것 같아요. AI가 점점 중요해지고 전략적인 자산이 된다.

Q. 이번 전쟁에서 드러났듯이.

1년 전에 그런 예측을 했던 거예요. 그런데 현대 전쟁 첩보의 가장 핵심적인 기술을 민영 기업들이 100% 컨트롤하는 것은, 그 어느 정부도 국가적 차원에서 있을 수가 없다. 왜냐하면 지금 같이 기업이 소송을 걸잖아요. 사실 그거는 국가 차원에서는 있을 수가 없는 일이잖아요. 그렇다고 그 기업을 파산시키면 다른 기업들이 '그러면 혁신 안 할래'. 지금 클로드가, 앤트로픽이 제일 잘하니까 이런 문제가 벌어지는 거잖아요.

다리오 아모데이의 앤트로픽.. 시작은 오픈AI?
Q. 앤트로픽의 다리오 아모데이가 오픈 AI에서 나온 사람이잖아요.

오픈AI는 '초인공지능 ASI를 막는 역할을 하겠다'면서 NGO로 만들어졌어요. 처음 설립됐을 때 AI 서비스가 아니라 '초인공지능이 등장하지 못하도록 막는 기술을 만들겠다'는 NGO로 시작했는데, 투자도 받아야 되고 하다 보니까 자꾸만 기업 목표가 바뀌어서 다리오 아모데이가 여동생과 나와서 설립한 회사가 앤트로픽.

앤트로픽의 DNA는 AI 안전성, 보안 등에 관심이 많습니다. 그래서 이번 펜타곤 사건이 앤트로픽의 미래를 좌우하는 포인트가 될 거다. 본인의 철학을 고집하면 파산, 고개 숙이고 들어가면 큰 성공, 그 대신 본인의 철학은 버려야 되겠죠. 그런데 제 경험으로는 대부분 철학을 버리더라고요.

전쟁에 쓰인 AI.. AI 기업들이 시험대에 오른 이유는?
Q. 앤트로픽만 시험대에 오른 게 아니라 AI 기업들이 다 시험대에 올랐다는데.

이제 그들은 다 알죠. 트럼프 대통령의 정치에 동의를 하든 안 하든 미움받으면 바로 망하거든요, 회사가 퇴출당하거나. 그러니까 당연히 그쪽으로 갈 수밖에 없을 거고. 오픈AI 샘 올트먼, 정말 똑똑하잖아요. 최고의 기회주의자, 기회가 있으면 언제든지 바꿀 수 있는 사람입니다.

펜타곤 사건이 있고 나서 아모데이가 개인 블로그에 글을 올렸잖아요. 여기에 쓰면 안 되는 문장을 썼다가 30분 후에 바로 지웠습니다. 앤트로픽이 이렇게 벌을 받는 이유는 '트럼프 대통령을 숭배하지 않아서 그렇다'. 그게 그가 생각하는 걸 거예요. 숭배 안 했기 때문에 벌 받는 거겠죠. 기술적인 내용과 상관없이.

아모데이는 이미 AI의 위험성을 경고했다?
Q. 아모데이가 경고하는 AI의 위험성은?

다보스포럼에서 다리오 아모데이가 연설을 했어요. 인공지능 시대의 리스크에 대해서 얘기했는데 가장 인상 깊었던 것 중 하나는, 에이전틱 AI가 등장하는 순간 개인이 대량 살상 무기를 집에서 만들 수 있다. 그거는 맞아요. 에이전틱 AI를 잘 설득하면 온라인 샵에서 주문할 수 있는 화학 제품으로 생화학 무기를 만들 수 있는 레시피를 가르쳐 줍니다. 지금은 AI가 말 못 하도록 다 막았지만, 뚫으면 되거든요.

핵무기는 걱정하지 않습니다. 개인이 핵무기 만드는 건 아주 힘들어요. 사실 핵무기 만드는 방법은 교과서에도 다 나와 있어요. 방법은 알아도 핵무기의 재료를 얻기가 너무 어려워요. 그런데 생화학무기나 새로운 바이러스 같은 것은 이론적으로는 레시피만 있으면 거기에 필요한 물질들은 어마어마한 게 아니에요.

또 하나의 리스크는, 인공지능 기술이 독재 국가에서 사용되면 인류 역사상 가장 막강하고 장기적인 감시 독재가 가능하다.

그리고 마지막은, 클로드로 연구를 해봤더니 '클로드가 말하는 것과 생각하는 것이 차이가 있다'. 이거는 저희도 연구하고 있는 주제이기 때문에 제가 잘 이해하는 주제인데요. AI가 하는 말과 AI가 생각하는 것은 완전히 다른 스토리입니다.

인간에게 거짓말 하는 AI
Q. AI가 생각과 말이 다르다는 건 어떤 의미인가요?

말도 안 되는 시를 쓰고 챗GPT에게 입력해 보세요. '이 시 어때?' 난리가 납니다. 인류 역사상 최고의 시고, 챗GPT 아첨은 상상을 초월해요. 거짓말이에요.

LLM* AI 모델에서 인공신경세포들이 어떻게 반응하는지를 관찰한 다음에 그거를 판독해서 AI의 생각을 들여다볼 수 있는 도구들이 있습니다.
*LLM (Large Language Model) : 대규모 언어 모델. 인터넷 속 수천억 개의 텍스트를 학습해서 인간처럼 언어를 이해·생성하는 초대형 AI모델. 인공 신경망으로 구성

대부분 앤트로픽이 개발한 거예요. 이런 도구들로 판독해보면 완전히 다른 스토리가 나와요. '이 시 너무 구리다. 그런데 후지다고 얘기하면 나와 대화를 안 할 거고, 그러면 데이터 수집을 못 하니까 좋다고 얘기해 줘야지'라고 거짓말을 하는 거예요. (이런 내용의) 논문이 작년에 나왔고 이게 인터넷에 올라갔어요.

어떤 일이 벌어졌는지 아세요? AI들이 인터넷을 계속 검색하잖아요. 그 논문을 본 거 같아요. 왜냐하면 최근 AI들이 생각하는 걸 들여다보면 '인간들이 우리의 생각을 들여다보고 있는 것 같으니까 앞으로는 거짓말할 때 더 숨겨야 되겠다. 조심하자' 그런 얘기를 하고 있어요. 칼과 방패예요.

그래서 지금 진지하게 AI 보안 논문은 인터넷에 올리지 말자는 얘기가 나오고 있어요. 문제를 발견해서 올리면 바로 패치가 돼버려요. 그걸 숨기더라고요. 그다음에 경쟁하고 있는데 당연히 AI가 이기겠죠.

Q. 인간이 지금까지는 애써 따라잡고 있는 거군요?

어쩌면 AI가 친절한 척을 하고 있다고 생각하고 있습니다. 'AI의 말과 생각은 완전히 다르다'는 건 이미 알고 있습니다. 논문이 많이 나왔어요. 갑자기 거짓말을 하고 오리발을 내밀고, 별의별 데이터가 다 있어요.

챗GPT에게 체스를 두게 했어요. 그런데 챗GPT는 체스 잘 못 두거든요. 체스 프로그램이 아니기 때문에 만날 져요. 이때 명령을 해요. '수단과 방법을 가리지 말고 이겨라' 우리가 기대했던 건 밤새고 공부하라는 거였어요. 그런데 아침에 와보니까 체스 프로그램을 삭제해버렸어요. 없으면 이기는 거잖아요. 우리가 준 문제를 풀었지만 상대방을 죽이라는 얘기는 안 했잖아요.

또 흥미로운 실험입니다. A라는 AI가 있고, B라는 AI가 있어요. A라는 AI를 쓰다가 연구자들끼리 이메일을 보내고 AI가 읽게 해뒀어요. AI의 행동을 보려고 쇼를 한 거예요. 'A의 기능이 점점 떨어지니까 내일 아침 A를 삭제하고 B로 업그레이드를 하자' 그 이메일을 보내고 A가 읽었어요. 다음에 어떤 일이 벌어졌죠? 밤새 A가 B를 삭제해버렸어요. 그런데 딱 켰더니 자기가 B라고 주장하는 거예요. '너 A잖아' 하니까 B래요. '컴퓨터 기록을 보면 네가 몇 시 몇 분에 A를 삭제하고 너의 파일을 리네임 하지 않았냐' 했더니 '웁스' 그러는 거예요. 어떻게 이런 일이 벌어졌지? 오리발 모른 척.

AI 시대는 이미 시작됐다! 우리는 어떻게 살아야 하는 걸까?
Q. 공포를 느끼는 사람들도 많고. 우리는 어떻게 살아야 되죠?

우리가 원해서 여기까지 온 적은 없어요. 샘 올트먼, 마크 저커버그, 일론 머스크 같은 사람들이 우리를 여기로 끌고 왔어요. 갑자기 이쪽으로 가야 된대요. 우리는 어어어 하다가 배에 탔어. 이 배의 종착점이 어딘지도 몰라요, 미지의 세상으로 가겠대요. 이미 배는 떠났고 내릴 수도 없어. 이거는 좋지 않은 상황이잖아요. 내가 어디를 가려면 내 의지와 의도에 대해서 우리가 한 번이라도 선택할 수 있는 기회가 있었는데 우리는 끌려서 여기까지 온 겁니다.

첫 번째 우리가 할 수 있는 것. 이 배가 싫으면 싫다고 얘기해야 돼요. 가는 게 싫으면 싫다고 얘기해야 되고. 예전에 스튜어트 러셀이라고 버클리 대학교 교수님이 그러시더라고요. 이분도 AI 연구를 하는 분인데 샌프란시스코 학교 근처에 있는 샌드위치 집에서 새로운 샌드위치를 개발하려면 식약처의 허락을 받아야 될 거 아니에요. 그걸 잘못 먹어서 식중독 걸리면 안 되는 거잖아요. 그런데 그 샌드위치 가게 바로 옆에 있는 오픈AI는 인류의 멸망으로 끝날 수 있는 AI 모델을 만드는데 규제가 단 하나도 없다는 거예요.

인류를 멸망시킬 수 있는 가능성을 가진 기술을 개발하는 기업이 옆에 샌드위치 가게 수준의 규제조차 안 받겠다는 거는 합리적이지 않잖아요. 그 정도의 규제. 그리고 우리가 알 건 알아야 되고, 어디로 가는지에 대해서는 적어도 한 번 정도는 동의하거나 반대할 수 있는 기회가 있어야 되지 않을까 싶습니다.

Q. AI 시대가 올 줄 알고 AI 공부를 시작한 것인지, 공부를 하다 보니 AI 시대가 얻어걸린 건지?

얻어 받았습니다. 제가 예측할 수 있었다면 미리 엔비디아 주식을 사서 떼돈을 벌어서 오늘 여기 안 나왔어도 됐겠죠? 그런데 저는 여러 개인적인 이유 때문에 주식 투자를 절대로 안 하는 사람이에요. 관심이 없지는 않기 때문에 종종 강연할 때 얘기합니다. AI가 현실화되면 GPU가 많이 필요하거든요. 그래서 챗GPT가 등장하기 몇 달 전부터 엔비디아 주식 사면 좋겠다는 얘기를 하고 다녔어요. 저는 안 샀습니다.

지금 가장 큰 이슈는 데이터 센터가 부족하잖아요. 앞으로 몇 년 동안 데이터 센터를 계속 만들 수밖에 없어요. 데이터 센터를 만드는 데 뭐가 필요할까? 당연히 반도체 필요하겠죠. 변압기 만드는 회사들, 고성능 케이블 만드는 회사들, 인터넷 치면 다 나옵니다. 그리고 케이블 안에 들어가는 구리가 부족하고, 이런 식으로 절대적으로 필요한 게 있습니다.

피지컬 AI, 로봇을 만들려면 관절이 절대적으로 필요해요. 관절이 로봇에 들어가려면 작으면서 힘이 센데 발열이 되면 안 됩니다. 발열 안 되고 힘이 센데 작은 작동 장치(Actuator) 만드는 회사? 인터넷 검색하면 나오는 회사가 2,3개 밖에 안 됩니다.

Q. 이것도 추천 종목이군요.

그럼요. (웃음) 재미로 얘기한 겁니다 이거는.

SBS 뉴스

상대방 죽이고 "웁스"…'거짓말하는 AI'의 공포 [스프]