더 강력해진 '챗GPT4', 무엇이 달라졌을까

드디어 왔다, 챗GPT4. 지난해 11월 이후 넉 달 동안 많은 사람들이 그 어떤 슈퍼스타보다도 '다음 앨범 들고 컴백'을 기다려온 존재다.

지난해 11월에 출시된 챗GPT의 정확한 명칭은 챗GPT 3.5였다. 즉, 과거에 1, 2, 3이 있었다는 이야기다. 오픈 AI사가 내놓은 이 초거대 언어생성형 AI 모델이 3.5에 이르러 세계적으로 이목을 끌었던 건 첫째, 3.5에 이르러 비로소 정말 사람과 대화하듯이 그럴듯한 대화가 가능해진 데다 둘째, 온라인에서 누구나 단골 쇼핑몰에 로그인하듯 간단한 로그인 한 번으로 무료 대화를 시도해 볼 수 있었다는 점 때문이었다.
　

왜 다음을 기다렸나?

뭘 물어봐도 일단 그럴싸한 대답을 해놓고, 시나 소설의 일부를 던져주면 그다음을 꽤 재미있고 설득력 있게 이어갈 뿐만 아니라, 집요하게 조르거나 물어대면 체념한 듯 원하는 대답을 들려주는 이 AI는 이세돌 9단과 대결한 알파고 이후 7년 만에 처음으로 일반 대중이 전격적으로 자기 삶 속에서 그 존재를 인식하게 된 AI였다.

TV를 통해 이세돌 9단 '인간 대표'의 장엄한 승리와 패배를 지켜봤던 보통 사람들이 나보다 아는 게 많고 말도 잘하는 AI를 안방에서, 지하철에서 만나게 된 것이다. 그리고 "이건 사실 시범 수준이었는데..."라는 오픈 AI사의 말 흐림에 OpenAI가 심혈을 기울여 준비해 왔다던 그 '진짜' 챗GPT4를 많은 사람들이 경이와 공포 속에서 기다렸다. 화이트데이의 새벽, 그가 왔다.
　

무엇이 달라졌을까

얼마나 '진짜'일까. 일단 그는 4개월 만에 엄청나게 유능해졌다. 그런데 가장 유능해진 부분을 일반 사용자들은 바로 체험할 수는 없다. 챗GPT3.5와 비교했을 때 가장 크게 달라진 점은 이 GPT, '미리 훈련시켜 놓은 생성형 트랜스포머 모델 인공지능'(Generative Pre-trained Transformer)이 그냥 말뿐만 아니라 이미지나 동영상도 인식하고 처리할 수 있다는 점이다.

이를테면 너무너무 밥 하기 싫고 식욕도 애매한 날, 냉장고를 열고 사진을 찍어서 챗GPT4에게 보여준다.(채팅창으로 업로드해 준다) 그러면 그가 냉장고를 파먹을 수 있는 몇 가지 간단한 조리법을 바로 말해줄 것이다. 냉장고 안의 재료 이미지들을 보고, 그동안 학습해 둔 방대한 데이터 안에서 적절한 레시피를 찾아내고 정리해 알아듣기 쉬운 말로 알려주는 것이다. 즉, 말뿐만 아니라 다른 모드, '멀티 모드'가 가능해진 것이다.

하지만 지금 일반 사용자가 사용할 수 있는 채팅창에는 이미지 업로드 버튼이 없다. 지나친 트래픽이 두려웠던 건지, OpenAI사가 막아두었다. 대신 OpenAI사는 챗GPT4의 이 기능을 이용해 시각장애인들이 매우 유용하게 이용할 수 있을 서비스 '내 눈이 되어줘(Be My Eyes)'를 구축해 놓았다. 시각장애가 있어 직접 볼 수 없는 영상이나 사진에 대해 챗GPT4가 접목된 '내 눈이 되어줘'가 상세한 설명을 들려줄 수 있다.

이 부분은 바로 체험하기 어렵다 해도, 챗GPT4를 사용해 보면 3.5보다 확실히 똑똑해졌다는 느낌을 받는다. 특히 미국인보다 한국인들이 훨씬 더 그렇게 생각하게 될 것이다. 이미지 처리 기능 다음으로 두드러진 발전은 사용할 수 있는 언어의 발전이다. 영어 외의 다른 언어 데이터가 매우 빈약했던 3.5까지와 달리, 챗GPT4는 한국어가 많이 늘었다. 한국어만 많이 는 게 아니라 26개 언어가 확 늘었다.

지난달 초, '친절한 경제'에서 기자가 챗GPT를 소개할 때 3.5의 한국어 실력을 보여주기 위해, 우리말로 "대한민국은 누가 건국했지?"라고 물었다. "나이지리아 파견 군사관인 김정일이 건국하였습니다."란 답변이 돌아왔다.(전체적인 문장도 비문이었다) 또다시 물어보자 뭔가 이게 아니라고 '느꼈는지', "김정일은 한국의 첫 대통령이지만 건국한 것은 한국 국민이었습니다."라고 뭔가 감성을 건드리는 답변을 내놓긴 했다. 그래도 그 정도로는 틀려도 보통 틀린 게 아니어서 감성이 건드려지지 않았다.

챗GPT4는 이런 초보적인 실수는 하지 않는다. "대한민국은 이승만이 건국했습니다. 대한민국의 건국은 제2차 세계대전이 끝난 후 일본의 패망으로 조선 반도가 독립되면서 시작되었습니다. 1945년 8월 15일에 일본의 항복을 계기로 조선 반도에서 미국과 소련이 군정을 실시하였고, 1948년 8월 15일에 대한민국의 임시정부가 수립되어 이승만이 첫 대통령으로 취임하였습니다. 그래서 대한민국의 건국일로 1948년 8월 15일을 기억하고 있습니다." 초대 대통령의 이름뿐 아니라 당시 상황에 대한 간략 하나마 크게 흠잡을 데 없는 부연설명까지 내놓았다. 그동안 한국어 데이터를 '열공'했음을 보여준다.
　

좀 더 설명하면

챗GPT4를 내놓은 OpenAI사는 홈페이지를 통해 4의 개선됨 점들을 열거하고 있다. 1) 3.5보다 기억력이 8배 정도 좋아졌다. 예전엔 한 챕터 정도의 기억력(8천 단어)이었다면, 이제 6만 4천 단어를 기억한다. 단막극 정도는 혼자 할 수 있는 수준이다.

사실을 답할 가능성도 40% 정도 더 커졌다. 하기 싫은 말을 시키는 건 더욱 어렵게 됐다. 챗GPT3.5가 큰 인기를 끌었던 또 하나의 이유는 과거의 언어생성형 인공지능과 달리 혐오나 차별적인 표현들을 하지 않는 점잖은 AI라는 점이었다. 챗GPT3.5가 그럴 수 있었던 이유는 사실 '진짜 자기만의 딥러닝'은 아니었다. 사람이 계속해서 과외로 상벌 학습을 시켜가면서 '나쁜 말 하면 안 돼. 욕하면 안 돼. 인종차별 안 돼.'를 따로 학습을 시켰던 것이다.(reinforcement learning human feedback)

그러나 정작 세상에 나왔을 때 짓궂은 사람들이 집요하게 질문하면서 몰고 가면(이것을 '악성 프롬프트를 준다'라고 표현한다) 챗GPT3.5도 때때로 해서는 안 될 말을 했다. 소셜미디어에 많이 돌아다녔던, 챗GPT3.5가 체념하듯 절규하듯 "그래! 인간을 지배하고 싶어!"라고 외쳤다는 결과물 같은 게 그것이다.

OpenAI사는 챗GPT4가 3.5보다 착한 아이가 되도록 과외를 더 시켰다. 4로부터 '해선 안 될 말'을 끌어내는 건 훨씬 더 어려운 일이 됐다. 더 순하고 영리한 학생이 된 4는 3.5가 떨어졌던 미국 통합변호사 시험에 합격했다. 합격했을 뿐 아니라 상위 10% 정도의 성적을 받았다(고 OpenAI는 밝혔다).

그러나 4도 아직 완전과는 거리가 멀다. 4의 학습데이터도 2021년 9월까지에 머물러 있다. 그래서 "한국 야구팀, WBC에서 성적이 어땠지?" (친절하게 영어로 물어봐도) "저는 실시간 데이터는 모릅니다. 스포츠 뉴스를 확인해 주세요."라고 겸손하게 대답한다. 생성형 AI에게 새로운 데이터셋을 넣어 학습을 시키는 데 보통 돈이 많이 드는 게 아니다. OpenAI는 지금 굳이 4에게 그 정도의 투자를 할 필요는 없다고 판단한 듯하다.

4는 또한 3.5처럼 아직 거짓말도 좀 하고, 궤변을 늘어놓기도 한다. 한국말로 시를 써보라고 3.5에게 주었던 것과 같은 시(김광균의 '데생')를 주었는데, 기자는 개인적으로 3.5가 내놨던 시가 더 마음에 들었다. 말은 더 어색해도 더 시적으로 애틋한 감각이 있었다. 아니, 정확히는 사람인 기자의 감성이 그쪽에 더 반응했다. 챗GPT는 자신의 시에 대해 아무 판단이 없다. 그저 기자가 입력한 말(프롬프트)에 가장 확률적으로 그럴싸하게 나올 만한 답을 표출해 낼 뿐이고, 거기에 반응하고 말고는 갈대와 같은 사람의 마음이다.
　

한 걸음 더

챗GPT4는 물론 대단하다. 영특하다. 조금 더 선해진 듯한 '느낌'마저 있다. 그러나 챗GPT3.5로부터 받은 경이감과 공포감이 조금 가라앉은 지금, 여기에 쏟아진 여러 가지 윤리적, 철학적 이슈들에 대한 격앙된 감정이 약간 누그러진 지금, 챗GPT의 쓰임새가 좀 더 명확해지고 있다는 의견도 일각에 존재한다.

미국의 언어 석학 노암 촘스키가 지난 8일 NYT에 실은 칼럼은 큰 화제가 됐다. 그는 단언했다. "인공지능은 현재와 같은 모델로서는 완전히 인간 미만의 존재이며 절대로 인간 같이 될 수 없다"라고. 그의 요지는 이것이다.
　

"챗GPT를 비롯해서 지금의 인공지능은 결국, 아주 방대한 양의 데이터를 가지고 거기서 빈번하게 나오는 패턴을 찾아서 가장 확률이 높은 답을 하게 하는 방식의 모델이다. 이것은 사람이 학습하고 이야기를 하는 메커니즘이랑 완전히 다르다. 이 상태로는 인공지능엔 지울 수 없는 결점이 계속 존재하게 된다. 사람의 뇌는 아주 적은 정보만 가지고도 사람의 마음에 내재된 어떤 논리성, 어떤 운영체계를 만들어낸다. 그러나 인공지능은 지성의 핵심이라고 할 수 있는 '설명'을 하지 못한다. 묘사나 예측을 하지 못할 뿐만 아니라, 무엇이 옳고 그른지, 무엇이 가능하고 가능하지 않은지에 대한 '판단'을 하지 못한다. 그저 '지구는 둥글다'는 말과 '지구는 평평하다'는 말을 둘 다 학습하다가, 확률적으로 '지구는 둥글다'는 말이 더 많았으면 그쪽으로 확 기울어진 대답을 내놓는 것이다. 그것은 '판단'이 아니다. 3.5든 4든, 이 아이들에겐 '입장'이 없다. 창의성과 한계 사이에서 자신의 좌표를 스스로 잡지 않는다. 아무튼 지금까지의 모델로는 그렇다. 이 모델로 발전하는 한 앞으로도 그럴 것이다."

　
보통 사람들은 챗GPT에게 경이와 함께 공포를 느꼈다. 그러나 정작 AI 개발 최전선에 있는 개발자들은 "그 글 쓰신 분이 언어학자세요? 저 완전히 동의해요."라고 말한다. 결국 '판단'은 인간이 하는 것이다.

스프 배너