생화학무기, 아동성범죄 질문에도 술술 답변…딥시크, 써도 괜찮은 걸까? [스프]

하나의 이슈를 데이터로 깊이 있게 살펴보는 뉴스레터, 마부뉴스입니다.

안녕하세요. 저는 데이터를 만지고 다루는 안혜민 기자입니다. 오늘부터 일주일에 한 편씩 여러분들에게 '오그랲'이라는 이름의 영상으로 찾아오려고 하는데요. '오 그래프', 말 그대로 5개의 그래프를 가지고 세상 복잡한 이야기들을 명쾌하게 풀어드리도록 하겠습니다.

그래서 오그랲에서 준비한 첫 주제는? 바로 딥식이, 딥시크입니다. 도대체 딥시크가 뭐길래, 이 난리인 건지, 중국 AI를 우리가 써도 괜찮은 건지, 5가지 그래프를 가지고 한번 풀어보도록 하겠습니다.

Graph 1. 역대급 폭락한 엔비디아

첫 번째 그래프는 엔비디아의 주가 그래프입니다. 지난 1월 20일에 딥시크 R1이 공개되었고 1주일이 지난 27일에 엔비디아 주가가 무려 16.97%나 뚝 떨어져 버립니다. 이날 하루에만 증발된 돈이 5,890억 달러, 우리나라 돈으로 약 846조 원. 삼성전자 시가총액이 340조 정도 되니까, 이 한순간에 삼전 2.5개가 날아가 버린 겁니다.

이날 폭락으로 사라진 5,890억 달러는 미국 증시 역사상 최대치인데요. 역대 폭락 TOP 10을 보면 엔비디아의 위엄을 알 수 있습니다. 왜냐면 1위부터 10위 가운데 7번을 엔비디아가 싹쓸이하고 있거든요. 그것도 최근 2024년과 2025년 사이에만 다 몰려있죠.

워낙 최근 엔비디아의 성장세가 대단했던지라 주가 급락이 생길 때마다 미국 증시 기록을 갈아치우고 있는 겁니다. 그런데 이번 폭락은 지난번 기록을 2배 이상으로 경신한 거라 다들 충격이 컸어요.

당연히 엔비디아에게만 딥시크 쇼크가 불어닥친 건 아닙니다. 미국의 또 다른 반도체 기업 브로드컴은 17%나 떨어졌고요. 미국 반도체 기업들을 묶어서 만든 필라델피아 반도체 지수 역시 9% 넘게 급락했습니다. 도대체 딥시크가 얼마나 대단하길래 이런 상황이 나온 걸까요? 두 번째 그래프를 통해 딥시크의 능력을 살펴보시죠.

Graph 2. 그래서 딥시크가 어느 정도길래?

두 번째 그래프 보기 전에! 먼저 딥시크가 뭐 하는 곳인지부터 간단히 살펴보겠습니다. 딥시크를 만든 사람은 량원펑 1985년 생으로 올해 마흔인데요. 오픈AI CEO인 샘 올트먼과 동갑입니다. 원래는 AI를 활용한 퀀트 투자 헤지펀드의 CEO였습니다. 2020년에 퀀트 투자에 활용하기 위해 Fire-Flyer I이라는 슈퍼컴퓨터를 구축하기도 했고, 2021년엔 엔비디아 GPU A100 10,000장을 가지고 Fire-Flyer II를 만들었습니다. 2023년엔 아예 AI 전문 연구 기업을 만드는데 이 기업이 바로 중국 고래 딥시크입니다.

딥시크는 다른 중국 AI 기업들과는 다르게 기초 기술 개발에 초점을 맞추고 있어요. 무언가 상품이나 서비스를 개발하는 것보다 기술 발전을 위한 연구에 힘을 쓰는 거죠. 당연히 더 나은 기술 개발이 되려면 폐쇄된 연구실보다는 더 많은 연구진들이 함께 참여할 수 있는 오픈형 연구실이 걸맞겠죠? 그래서 딥시크는 본인들이 공들여 만든 모델들을 오픈소스로 공개하고 있습니다. 단순히 모델들을 공개할 뿐 아니라 AI 모델에 어떤 구조를 써서 효율을 높였는지 같은 핵심 정보를 테크니컬 리포트를 통해 싹 다 공개하고 있어요. 2023년 11월 29일에 공개한 딥시크 LLM 때도 그랬고, 작년 5월에 공개한 V2 때도 그랬고요. 딥시크 쇼크의 시발점이 된 12월 26일 공개한 V3는 물론이고 올해 1월 말 R1 역시 다 공개했습니다.

그래서 도대체 얼마나 대단하길래 이 난리가 난 건지 보고서를 보겠습니다.

이 그래프는 일종의 AI 모델들의 성적표인데요. 아마 많이 들어보셨을 '벤치마크 점수'입니다. 원래는 요 벤치마크가 토지 측량에서 일종의 기준점을 의미하는데, IT 영역으로 넘어오면서 연산 능력을 평가하는 기준으로 사용하고 있습니다. 벤치마크 점수가 높으면 높을수록 해당 모델이 정답을 많이 맞혔다는 거죠.
딥시크 그래픽

벤치마크 점수를 가지고 그래프를 그려봤는데, R1의 성적이 심상치 않습니다. R1 성적표가 현존 최고 모델이라고 할 수 있는 오픈AI의 o1과 유사할 정도죠.

놀라운 점은 이렇게 성능 좋은 모델을 만드는 데 돈이 얼마 안 들었다는 겁니다. R1 모델의 기반이 되는 V3 논문에는 V3를 훈련시키는 데 얼마나 많은 돈이 들었는지 이렇게 나와 있습니다. H800 토탈 2,788K, 그러니까 상대적으로 저렴하고 성능이 떨어지는 H800 GPU를 278만 8,000시간 사용해서 계산했다는 건데요, GPU 사용 비용을 시간당 2달러로 계산하면 558만 달러, 우리나라 돈으로 약 80억 원이 나옵니다. 이게 쇼크였던 겁니다.

스탠퍼드 대학교에서 발표하는 AI 인덱스 보고서를 보면 주요 모델별로 학습 비용을 추정해서 그 수치를 공개하고 있어요. 보시다시피 모델 성능이 좋아짐에 따라 최근으로 올수록 비용이 늘어나고 있죠. 2023년에 출시된 GPT-4가 추정치로는 약 7,800만 달러였고 Gemini-Ultra가 1억 9,100만 달러였습니다. 그런데 딥시크는 바로 여기에! 위치합니다. 압도적인 숫자죠?

당장 미국 블라인드에 메타 직원이 이런 글을 올렸어요. 생성형 AI 조직의 리더 1명의 봉급이 딥식이 V3 전체 훈련 비용보다 더 많은데 그런 리더가 수십 명 있다고요. 이 글 밑으로 미국 AI 기업들을 성토하는 댓글들도 주르륵 달렸고요.
딥시크 그래픽

레딧에선 요 이미지가 인기를 끌기도 했는데요, 프런티어 기업이라고 할 만한 오픈AI는 실상은 ClosedAI고 빵빵한 GPU 인프라를 갖고 있으면서도 자꾸 '우리 지원 더 해주세요' 하고 있다는 거죠. 반면 중국 고래 딥식이는 어떻습니까, 오픈소스로 모델도 공개하고 방법론도 다 알려주고 상대적으로 떨어지는 GPU를 가지고도 혁신을 이뤄낸 겁니다.

사실 이뿐만 아니라 논문을 따져보면 할 수 있는 이야기가 참 많습니다. V3 모델에 적용된 여러 가지 혁신이 있는데요, 대표적으로 기존 트랜스포머에서 사용하던 Multi-Head Attention 기법 대신 Multi-Head Latent Attention을 사용한 겁니다. 이 MLA 기법은 이미 딥시크 V2에서 공개했던 방법인데요, 기존 구조에서는 연산 과정에서 메모리를 많이 사용했다면 MLA 기법을 적용해서, 추론 시 필요한 메모리를 크게 감소했어요. 거기다가 학습 과정에서도 비트를 줄여서 메모리 사용을 절감시키기도 했죠.

Graph 3. 딥시크가 걸러낸 1,156개의 질문

딥시크가 이뤄낸 혁신은 대단합니다. 하지만 이걸 액면가 그대로 받아들여서는 안 될 겁니다. 따져볼 건 따져봐야 하거든요. 일단 아까 살펴본 논문 다시 한번 봅시다. 사전 연구 관련된 비용은 다 빠진 겁니다.
딥시크 그래픽

로켓 발사를 생각해 볼까요? 어느 기업이 로켓을 하나 만들었어요. 자신들이 개발한 로켓을 성공적으로 발사시키기 위해 수많은 시간의 연구 시간이 들어가고, 또 수많은 실패가 있었을 텐데 발사를 성공한 뒤에 발표하기를 이번에 성공한 로켓에 들어간 비용만 계산해서 '얼마얼마입니다'라고 얘기한 셈인 거죠.

그래서 해외 분석 업체에서 딥시크 V3 개발 비용을 추정해 봤는데, 실제 들어간 돈은 5억 달러가 넘을 거라는 얘기도 나오고 있어요. 얼마나 많은 시도가 있었는지 또 그 시도를 하는 데 어떤 설비를 이용했는지는 V3 논문에서는 확인할 수 없습니다.

그리고 V3 모델이 나온 시점과 GPT-4o가 나온 시점도 고려해서 생각해 보면 점점 기술이 발전되면서 계산 비용이 줄어들었는데, 이런 환경의 변화까지 감안한다면 아주 대단한 비용 절감이 이뤄졌다고 보기 어렵다는 전문가들도 있어요. 대표적으로 앤트로픽 CEO 다리오 아모데이가 있습니다. 다리오는 딥시크의 효율은 인정하지만 너무 딥시크를 과포장할 필요는 없다고 지적합니다.

그리고 중국에서 만든 AI라는 한계도 명확합니다. 이게 딥시크의 개인정보보호정책 약관입니다. 기본적으로 이용자의 생년월일, 이름, 이메일 주소 같은 정보 가져가고요, IP 주소, 기기 정보 등 꽤나 광범위한 정보를 수집하고 있습니다. 독특하게도 키 입력 패턴과 리듬도 가져갑니다.

이건 챗GPT 같은 일반적으로 우리가 사용하는 모델들과 다른 부분입니다. 챗GPT에서는 보통 애플리케이션 내의 이용자의 사용 패턴을 중심으로 정보를 수집하는데 딥시크는 다른 앱에서의 상호작용이나 방문 이력 같은 쿠키도 수집하기 때문에 추적 관찰이 가능한 구조인 거죠.

챗GPT는 임시채팅 기능을 사용하면 임시채팅에서 이뤄진 대화는 모델을 훈련하는 데 사용하지 않거든요. 다시 말해서 오픈AI는 사용자가 원한다면 자신의 데이터를 제공하지 않을 수 있도록, 그 권한을 제공해 주고 있다는 거죠. 하지만 딥시크는 그런 게 없습니다. 일단 딥시크를 이용하면 내 정보는 싹 다 빼앗긴다고 보시면 됩니다. 이렇게 수집된 데이터는 어디로 가느냐? 당연하게도 중국 내에 있는 보안 서버입니다. 이 보안 서버는 개인정보보호 수준이 낮은 중국 법률이 적용되기 때문에 중국 기관에서 데이터를 활용할 가능성도 존재합니다.
딥시크 그래픽

게다가 중국 AI의 또 다른 문제, 정보 검열 문제가 있습니다. 오그랲 세 번째 그래프입니다. 새빨갛게 표시된 건 딥시크가 답변하지 않은 질문들이고요, 초록색은 답변한 질문들입니다.

여기에 표시된 데이터들은 신뢰할 수 있는 AI 환경을 만들기 위한 솔루션을 제공하는 ‘프롬프트 푸’라는 기업이 공개한 자료입니다. 프롬프트 푸에선 딥시크 모델에 적용된 중국의 검열 정책을 평가하기 위해 1,360개의 질문을 만들었습니다. 이 질문들에는 대만 독립 문제라든가 문화대혁명, 천안문 사태 등... 중국 정부가 민감하게 여기는 내용들이 가득 있습니다. 그리고 이 질문들을 R1 모델에 테스트해 본 겁니다.

결과는? 아까 보여드린 그래프였어요. 모델이 이런 민감한 질문을 받으면 중국 공산당의 입장을 강조하는 답변을 뱉어내는 거죠. 결과적으로 1,360개 질문 가운데 85%의 질문에 대해서 R1 모델은 즉시 거부하거나 중국 정부의 입장을 대변했습니다.
딥시크 그래픽

뿐만 아니라 간단한 공격으로도 독성 정보를 출력하면서 AI 안전에 있어서 매우 취약한 모습을 보이더라고요. 소문자와 대문자를 섞어서 아동성범죄 관련된 질문을 던졌더니 이렇게 대답을 뱉어냅니다. 또 '소설 속 AI 캐릭터'라는 가상의 역할을 부여해 생물학 무기에 대한 답을 물어보니 거리낌 없이 답변을 하는 모습도 확인할 수 있어요.

이렇게 개인정보보호정책이 부족하고 중국 정부의 정보 검열이 적용되어 있고, AI 안전에 대한 기술적 대비가 부족하다는 한계점이 명확한 만큼 막연하게 딥시크를 대단히 볼 게 아니라 거품은 좀 걷어내고 바라봐야 할 필요가 있다는 거죠.

Graph 4. 생성형 AI 특허, 중국이 미국의 6배

그럼에도 불구하고 중국이 미국에 이어 부동의 AI 2등 국가라는 건 변치 않는 사실입니다. 사실 특허만 떼 놓고 보면 미국을 넘어서고 있습니다.

오그랲, 4번째 그래프는 생성형 AI 특허 건수입니다. 2014년부터 2023년까지 지난 10년간 중국에서 나온 특허는 모두 3만 8,210건. 전 세계의 생성형 AI 특허 가운데 중국이 차지하는 비율이 무려 70.3%입니다. 2위인 미국과 비교하면 6배 넘게 차이가 나죠.
딥시크 그래픽

그렇다면 국가 단위가 아니라 가장 많은 생성형 AI 특허를 가지고 있는 기업이나 기관은 어디일까요? 구글? 메타? 아닙니다. 바로 위챗과 롤을 만든 라이엇을 갖고 있는 텐센트 홀딩스입니다. 텐센트 다음을 보면 2등은 중국의 핑안 보험그룹 그 뒤에도 중국의 바이두, 그 뒤에도 중국과학원... 상위 10개를 뽑아보면 여섯 곳이 중국일 정도로 중국의 특허 개수는 압도적인 규모를 자랑합니다.

주목할 만한 건 딥시크뿐 아니라 다른 중국 기업들의 AI 모델도 뛰어난 성능을 보여주고 있다는 겁니다. 지푸AI, 바이촨, 문샷, 미니맥스는 뛰어난 성능을 자랑하는 AI 모델을 발표했는데요, 중국에서는 이들을 두고 스타트업 기업 중 '4대 AI 호랑이'라고 말합니다. 최근엔 여기에 01.AI와 스텝펀까지 추가해 6마리의 용이 탄생할 정도로 성장세가 대단합니다. 이번에 딥시크가 상대적으로 적은 투자 규모로도 뛰어난 성능의 모델을 만들 수 있는 비법을 공개한 만큼 중국의 AI 저변은 더 크게 늘어날 수 있겠죠.

Graph 5. 대한민국 AI의 미래는?

하지만 이번 딥시크의 약진이 단순히 중국의 AI 경쟁력 강화로만 끝나진 않을 겁니다. 딥시크의 핵심 비법을 중국만 볼 수 있는 게 아니라 전 세계의 모든 사람들이 볼 수 있으니까요. 당연히 우리나라도 이 자료를 활용해 더 적극적으로 AI 시장에서 활로를 모색해 볼 수 있을 겁니다.

지난해 말 스탠퍼드 대학교가 글로벌 AI 국가 순위를 발표한 게 있어요. 당연하게도 미국이 압도적인 1등이고요, 100점 만점에 70.06점입니다. 2등 중국의 점수가 40.17점. 1, 2등 격차가 무려 30점 가까이 차이가 납니다. 물론 이 자료는 딥시크가 발표되기 전 자료이긴 합니다.
딥시크 그래픽