[스프] 헛것을 보는 AI…2023 올해의 영어 단어

2023년 한 해를 대표할 만한 단어를 고른다면 무엇이 적합할까? 각자 살고 있는 문화권과 쓰는 언어, 소득 수준, 관심사 등에 따라 다양한 대답이 가능하겠지만, 그중에서도 가장 많은 이들의 공통 관심사를 추려보면 어떤 단어로 수렴할까?

국제적으로 가장 널리 쓰이는 언어는 아무래도 영어일 테다. 영어권에서 권위 있는 사전을 만드는 출판사들이 선정한 '올해의 단어(word of the year)'를 보면, 숨 가쁘게 지나간 2023년을 한 마디 말로 압축해 보는 데에 도움이 되지 않을까.

'할루시네이트 (Hallucinate)'라는 단어가 있다. (명사형은 hallucination).

스프 뉴스쉽

'헛것을 보다, 환각(幻覺)을 경험하다'라는 뜻의 단어다. ('환각'은 '감각 기관을 자극하는 외부 자극이 없는데도 마치 어떤 사물이 있는 것처럼 느낌'이라는 뜻이다). 그런데 이 단어는 2023년 들어 새로운 의미를 띠게 되었고, 그 의미 때문에 딕셔너리 닷컴(Dictionary.com)과 캠브리지 사전(The Cambridge Dictionary)이 'Hallucinate'를 '2023 올해의 단어'로 선정했다.

이 단어가 새로 띠게 된 의미는, "(AI가) 있지도 않은 사실을 지어내서, 사실인 것처럼 제시하다"이다.

챗GPT와 같은 생성형 AI가 엉뚱하게 지어낸 내용을 마치 사실처럼 제시한다는 건 2023년 들어 널리 알려진 일이다. 소셜미디어 등을 통해 다양한 사례가 회자되었다. 이를테면 '세종대왕의 맥북 던짐 사건에 대해 알려줘'라고 챗GPT에 질문했더니 "세종대왕의 맥북프로 던짐 사건은 조선왕조실록에 기록된 일화로, 15세기 세종대왕이 새로 개발한 훈민정음(한글)의 초고를 작성하던 중 문서 작성 중단에 대해 담당자에게 분노해 맥북프로와 함께 그를 방으로 던진 사건입니다."라는 답변을 출력했다는 등의 사례가 있었다.

스프 뉴스쉽

미국에선 한 변호사가 챗GPT의 '할루시네이션'에 당한 사건이 화제가 됐다. 스티븐 슈워츠 변호사가 항공사를 상대로 한 승객의 소송을 진행하면서 뉴욕법원에 소장을 냈는데, 여기에 포함시킨 판례 중 6건 이상이 챗 GPT의 완전한 '창작'이었던 것이다. 챗GPT에게 "관련 판례를 찾아줘"라고 주문하니 챗GPT는 실존하는 판례를 검색한 게 아니라 등장인물부터 사건내용까지 완전히 소설을 써냈고, 그런 줄도 모르고 그 내용을 그대로 법률문서에 갖다 쓴 변호사는 자신의 30년 경력을 날리게 됐다.

아메카(Ameca)는 올해 7월 제네바에서 열린 ITU AI서밋에 등장한 휴머노이드 인공지능 로봇이다. AFP 올해의 사진 가운데 하나로 선정된 아메카의 모습을 토대로 이번주 뉴스쉽의 표제 이미지를 만들었다.

아메카(Ameca)는 올해 7월 제네바에서 열린 ITU AI서밋에 등장한 휴머노이드 인공지능 로봇이다. AFP 올해의 사진 가운데 하나로 선정된 아메카의 모습을 토대로 이번주 뉴스쉽의 표제 이미지를 만들었다.

AI 관련 단어 중 왜 이것이?... '올해의 단어' 선정 이유

AI 관련 기술이나 사건들은 올 한 해 내내 전 세계를 떠들썩하게 만들었다. 반도체를 둘러싼 미중 간의 다툼도 따지고 보면 AI의 무한한 잠재력을 누가 통제하는가에 대한 전략적 경쟁이다. 연말에 즈음해서 터진 오픈 AI (챗GPT 개발사) CEO 해임 소동은 AI가 앞으로 인간과 어떤 관계를 맺게 될 것인지에 대한 다양한 토론을 낳았다.

AI가 산업과 경제뿐 아니라 사회전반에 깊숙이 들어오면서, AI 관련 단어들의 사용도 늘고 있다. 인공지능의 기능적 측면들에 대한 새로운 단어들- 이를테면 챗봇(chatbot), 대규모 언어모델(LLM), 프롬프트(prompt -사용자가 AI에게 묻거나 지시하는 것), 딥페이크(deep fake, 인공지능 기술을 활용해 진짜-가짜 구분이 어렵도록 만들어낸 이미지) 등의 어휘가 근년에 사전에 새로 등재되었다.

'인공지능'이라 쓴 스크린 앞의 휴머노이드. / 출처 : 연합

그중에서도 AI가 인간의 언어와 삶의 미래에 대해 갖는 파급효과를 가장 잘 대변하는 올해의 단어는 무엇일까? 이 질문에 대해 딕셔너리 닷컴의 사전학 전문가들이 내놓은 대답이 바로 'hallucinate'였다.

양적인 지표로 봐도 이 단어는 올해의 단어가 될 만했다. 딕셔너리 닷컴에 따르면, AI 관련 단어들(챗봇, GPT, 생성형 AI, LLM 등)의 사전검색은 전년 대비 62% 늘었다. 그중에서도 'hallucinate'를 찾아본 횟수는 전년 대비 46% 증가했다. 디지털미디어에서 2023년 'hallucinate'의 사용 빈도는 전년 대비 85% 늘었다고 한다.

'Hallucinate'라는 단어는 '챗봇, 프롬프트' 등 AI에 관한 다른 단어들과 다른 특성이 있다. AI가 잘못 작동하는 경우에 관한 단어라는 것이다. 그런 면에서는 기술의 부작용을 언급하기 위해 새로운 뜻을 띠게 된 단어들-이를테면 '스팸', '바이러스' 등과 비슷하다.

의미 면에서도 이 단어는 AI에 관해 2023년에 벌어진 논의들의 중요한 측면을 보여준다. 단어 선정작업을 주도한 사전학 책임자 그랜트 바넷은 이렇게 말했다.

"할루시네이트 라는 단어는 우리가 꿈꾸는 완벽한 미래와 우리가 실제로 달성중인 엉망인 미래 사이의 지속적인 불일치를 압축적으로 보여준다."

스프 뉴스쉽

'환각'은 생성형 AI의 본성에서 비롯된 결함

헛것을 지어내는 '할루시네이션(hallucination)'은 챗GPT와 같은 LLM(Large Language Model, 대규모 언어모델)의 한 특징이다. 챗GPT와 같은 AI는 사람들이 쏟아낸 말의 뭉치를 학습해서 사람처럼 쓰고 말한다. 그런데 그 과정에서, 말들의 진실성에 가중치를 두거나 사실여부를 따지는 게 아니다.

이런 생성형(generative) AI는, 자신이 학습한 텍스트들에서 특정 단어 뒤에 어떤 단어가 따라 나오는 확률이 높은 지를 가늠해 그에 맞게 말을 '생성해 낸다'. 즉, 지어낸다. 그 결과물이 자연스러워 보이게 하는 능력은 뛰어나지만, 그 결과물이 '맞는 말인지' 검증하는 건 생성형 AI의 목적이 아니다.

컴퓨터 머더보드와 'AI' 글자. 로이터가 제작한 삽화용 이미지

'물어봤더니 답을 한다'는 사용자 체험 측면에선 비슷하지만, 이는 구글과 같은 '검색엔진'과의 가장 큰 차이점이다.

구글은 스탠퍼드 대학원에서 컴퓨터과학을 전공한 창업자들이 '학위논문 인용 시스템'의 개념을 참고해 만들었다. 어떤 논문이 더 믿을만한 지 어떻게 계량화할 수 있을까? 다른 논문이 많이 인용한 논문일수록 더 믿을만하다고 할 수 있을 것이다. 그렇다면 웹페이지는? 예를 들어 이용자가 검색창에 '인공지능'의 뜻을 물었다면, 인공지능에 관한 수많은 웹페이지 중 무엇을 제일 먼저 보여주어야 할까? 다른 웹페이지들이 가장 많이 링크한 페이지가 가장 믿을만한 답변을 제시한다고 볼 수 있지 않을까. 이것이 구글 창업자들이 고안한 검색엔진의 기본 개념이었다.

이런 모델에 따르면, 이용자가 '세종대왕의 맥북 프로 던짐 사건'을 물었다고 해서 천연덕스럽게 지어낸 내용을 답이라고 내놓을 수는 없다.

(남은 이야기는 스프에서)

더 깊고 인사이트 넘치는 이야기는 스브스프리미엄에서 보실 수 있습니다.