▲ 서울대 AI 부정행위 적발
최근 연세대와 서울대에서 발생한 생성형 인공지능(AI) 사용 부정행위로 대학 내에서의 AI 부정 사용이 논란이 되고 있습니다.
특히 연세대의 경우 학생들에게 '자수'를 권고하는 방식으로 대응해 온라인 커뮤니티를 중심으로 "부정행위를 적발하지 못하니 자수를 유도하는 것 아니냐"는 이야기가 돌고 있습니다.
일각에선 "AI 탐지기의 정확도가 떨어진다", "우회 프로그램으로 얼마든지 피할 수 있다"는 의견도 나옵니다.
AI가 작성한 글인지 사람이 쓴 글인지 판별해 준다는 'AI 생성 글 탐지기'(AI text detector)의 성능은 실제로 어느 정도인지 궁금증을 불러일으킵니다.
결론부터 말하면 최근 나온 논문들은 AI 탐지기가 부정 사용을 적발하는 데 사용될 만큼 정확하지 않고 신뢰할 만하지도 않다는 연구 결과를 내놓고 있습니다.
필리핀 연구진이 2020∼2024년 AI 탐지기를 다룬 논문 34편을 검토해 발표한 논문 'AI 생성 글 탐지기의 정확도와 신뢰성'(2025)에 따르면 대부분 AI 탐지기의 정확도가 50% 이상을 보였으나 탐지기별로 차이를 보였습니다.
유료 AI 탐지기가 무료보다 더 나은 성능을 보였습니다.
유료 AI 탐지의 정확도는 평균 87%였지만 가입이 필요 없는 AI 탐지기는 정확도가 77%에 그쳤습니다.
하지만 탐지 회피 기법을 도입하면 정확도는 대부분 급격하게 떨어졌습니다.
예컨대 다른 표현으로 바꾸기(paraphrasing)만 해도 정확도가 60% 이상 하락한 사례도 있었습니다.
또한 GPT-4로 생성된 자료보다 GPT-3.5로 생성된 자료를 탐지할 때 더 높은 정확도를 보였습니다.
이는 AI 탐지기의 정확도가 오래된 AI 모델에 대해선 효과적이지만 새로운 모델에선 제대로 기능하지 못함을 의미했습니다.
논문은 이 같은 문헌 검토 결과를 토대로 "AI 탐지기는 사용하기에 정확하지도 않고 신뢰할 만하지도 않다"며 "AI 탐지기의 능력에만 전적으로 의존해서는 안 된다"고 조언했습니다.
구체적인 테스트 결과를 확인하기 위해 국제학술지 '고등교육 교육공학 국제저널'(IJETHE)에 실린 논문 '생성형 AI 텍스트 감지기를 우회하는 간단한 기법'(2024)을 살펴봤습니다.
이 논문은 'AI 생성 글 탐지기의 정확도와 신뢰성' 논문이 검토 대상으로 삼았던 34편 중 하나입니다.
마이크 퍼킨스 브리티시 유니버시티 베트남(BUV) 연구·혁신센터장 등 7명이 공저한 이 논문에 따르면 터닛인, GPT제로, 제로GPT, 카피리크스, 크로스플래그 등 AI 탐지기 7개의 평균 정확도는 39.5%에 불과했습니다.
테스트에는 GPT-4, 클로드2, 바드(현 제미나이) 등이 각각 5개씩 생성한 글 15개, 인간이 작성한 글 10개, AI 생성 글에 탐지 회피 기법을 적용한 글 89개 등 모두 114개가 표본으로 활용됐습니다.
AI 탐지기의 정확도는 이 중 AI 생성 글 15개를 대상으로 테스트한 결과입니다.
즉, AI 생성 글을 줬을 때 'AI가 쓴 글이다'라고 판정한 비율이 39.5%라는 의미입니다.
하지만 AI 탐지기를 속이기 위해 AI가 생성한 글들에 고의로 철자 오류를 삽입하거나 문장들의 길이를 들쭉날쭉하게 하는 등 탐지 회피 기법을 적용했더니 평균 정확도가 22.2%로 급감했습니다.
이 같은 결과는 탐지 회피 기법이 AI 탐지기가 AI 생성 글임을 판단하는 기준을 역이용하기 때문입니다.
예컨대 AI는 인간과 달리 비교적 일관된 길이와 구조의 문장을 생성하는 경향이 있습니다.
이를 역이용해 문장 길이에 변화를 주면 AI 탐지기는 인간이 쓴 글로 착각하게 됩니다.
철자 오류도 마찬가지입니다.
AI 생성 글에는 철자 오류가 사실상 없기 때문에 AI 탐지기는 철자 오류가 있는 글을 인간이 쓴 글로 판정합니다.
AI 탐지기는 인간이 작성한 글 10개에 대해서도 인간이 쓴 글이라고 판정한 비율이 67%에 불과했습니다.
특히 인간이 작성했음에도 AI 생성 글로 잘못 판단한 오탐지율이 15%에 달했습니다.
논문은 "학생들이 학업윤리지침을 위반했는지를 판단하기 위한 목적으로 AI 탐지기를 활용하는 것을 권장할 수 없다"고 밝혔습니다.
인간이 쓴 글, AI 생성 글(탐지 회피 기법이 적용된 글 포함) 등 모든 표본을 대상으로 테스트했을 때 AI 생성 글임에도 탐지하지 못한 미탐지 비율이 평균 65.7%였습니다.
논문은 현세대 AI 탐지기는 정확도가 낮고, 탐지 회피 조작에 매우 취약해 학문적 부정행위 판단 도구로는 신뢰할 수 없다고 결론을 내렸습니다.
AI 탐지기는 영어와 구조적·문법적 특성이 다른 한국어에 대해선 어떤 성능을 보일까?
'2024년 대한전자공학회 하계학술대회 논문집'에 실린 논문 '인공지능 생성 텍스트 탐지 기술의 한국어 적용'(박현주·김병준·김부근 중앙대 AI대학원)에 따르면, 영어 기반인 AI 탐지 모델을 한국어에 그대로 적용하면 성능이 급격하게 떨어지는 것으로 나타났습니다.
이 논문에선 디텍트GPT와 '적대적 학습 기반 AI 텍스트 탐지 모델'(RADAR)이라는 두 가지 AI 탐지 모델을 대상으로 GPT-3.5-터보와 클로드-3-소네트가 생성한 한국어 텍스트를 입력해 AI 생성 글인지 여부를 판단하게 했습니다.
그 결과 GPT-3.5가 생성한 글들에 대해서 디텍트GPT는 수용자조작특성곡선(AUROC) 값이 0.55∼0.65, RADAR는 0.40∼0.47을 기록했습니다.
AUROC 지표는 AI 생성 글과 인간이 쓴 글을 얼마나 잘 구분하는지 보여주는 점수로, 0~1 사이의 값을 갖는데, 1은 100% 확률로 맞춘다는 것을 의미합니다.
0.5는 확률이 50%이므로 사실상 탐지기가 아무 쓸모가 없는 수준임을 나타냅니다.
어떤 글이 AI 생성 글이거나 인간 글일 확률이 기본적으로 반반이므로, 어떤 글이 AI 생성 글일 확률이 50%라고 말하는 것은 누구나 할 수 있는 말이기 때문입니다.
이 두 탐지 모델이 영어로 쓰인 글을 대상으로 했을 때 AUROC 값이 0.9 수준에 달했던 것과 비교하면 한국어 글에 대한 탐지 능력이 상당히 떨어진다고 할 수 있습니다.
클로드-3가 생성한 한국어 글에 대한 AUROC 값은 디텍트GPT가 0.43∼0.52, RADAR은 0.18∼0.38로 GPT-3.5보다 더 낮았습니다.
이는 클로드-3가 GPT-3.5보다 더 사람처럼 글을 자연스럽게 쓰기 때문에 그만큼 탐지가 안 된 것으로 풀이됐습니다.
특히 RADAR의 AUROC 값이 0.5보다 상당히 낮은데, 이는 동전 던지기로 결정해 맞추는 것보다 확률이 더 떨어진다는 것을 의미한다고 논문은 설명했습니다.
이 논문이 작성된 지난해 수준에선 AI 탐지 모델이 한국어에선 신뢰할 수 없음을 실험 결과가 보여준 셈입니다.
이처럼 현재 AI 탐지기로 AI 부정 사용을 적발하기 어렵다면 어떻게 학내 AI 부정 사용에 대처해야 할까?
영국의 민간 싱크탱크 고등교육정책연구소(HEPI)가 올 2월 발표한 '2025 생성형 AI 학생 활용 실태 조사'의 결과와 정책 제언을 참고로 할 만합니다.
이 조사에서 영국의 대학생 1천41명을 대상으로 한 설문한 결과 어떤 식으로든 AI를 사용해봤다는 응답이 92%로, 작년 조사 때의 66%에서 급증했습니다.
특히 과제나 시험에 AI를 써봤다는 응답이 같은 기간 53%에서 88%로 뛰어올랐습니다.
18%는 AI가 생성한 글을 그대로 자신의 과제물에 포함했다고도 했습니다.
AI를 사용하는 이유로는 '시간을 절약하기 위해서'(51%), '내 과제물의 질을 개선하기 위해서'(50%)라고 밝혔습니다.
HEPI는 모든 시험·평가에 대해 챗GPT 유로 버전과 같이 강력한 AI를 활용해 문제가 너무 쉽게 풀리지는 않는지 확인하는 '스트레스 테스트'를 실시해야 한다고 조언했습니다.
학생들이 교과 과정에 성실히 참여하지 않고도 AI를 활용해 높은 점수를 받을 수 있다면 그런 시험 또는 평가는 과감하게 다시 설계해야 한다고 강조했습니다.
그러면서 대학이 AI 교육에 적극적으로 나서지 않는다면 AI를 잘 다루는 학생과 그렇지 못한 학생 간 '디지털 격차'를 더 확대할 것이라고 경고했습니다.