국가대표 인공지능에 도전하는 국내 AI 모델들이 수학 문제 해결 능력에서 해외 모델에 크게 뒤처진다는 분석 결과가 나왔습니다. 김종락 서강대 수학과 교수 연구팀은 국내 5개 팀의 AI 모델과 챗GPT 등 해외 모델 5개를 대상으로 수능 수학과 논술 문제 풀이 성능을 비교했습니다. 연구팀은 수능 공통과목과 확률과 통계, 미적분, 기하에서 가장 어려운 문항 20개와 국내외 대학 논술·대학원 입시 문제 30개 등 모두 50문제를 선정했습니다. 그 결과 해외 모델은 76점에서 최고 92점을 기록한 반면, 국내 모델 가운데서는 업스테이지의 솔라 프로 2만 58점을 받았고 나머지는 대부분 20점대에 머물렀습니다. 일부 모델은 한자릿수 점수에 그쳤습니다. 연구팀은 국내 모델들이 파이썬 도구를 활용하도록 설계했음에도 성능 격차가 컸다고 설명했습니다. 대학·연구자 수준 문제로 구성한 별도 평가에서도 해외 모델은 80~90점대를 유지했지만, 국내 모델은 최고 70점에 그쳤습니다. 김종락 교수는 국내 AI 모델의 수학적 추론 능력이 해외 모델에 비해 크게 뒤처진 수준임을 확인했다고 밝혔습니다. 연구팀은 향후 국가대표 AI 신규 버전이 공개되면 동일한 방식으로 재검증하겠다고 밝혔습니다.
(취재: 박서경 / 영상편집: 소지혜 / 디자인: 육도현 / 화면제공: 김종락 교수팀 / 제작: 디지털뉴스부)