[스프] AI가 당신을 노린다면? AI를 속여서 방어한다!

<예언자들>은 각 분야에서 연구 중인 KAIST 교수들이 특정 시점을 전제로 미래를 예측해 쓰는 가상의 에세이입니다. 그저 공상 수준이 아니라 현재 연구 성과와 미래의 실현 가능성을 정교하게 조율하기에, <예언자들>은 스프 구독자들에게 짧게는 10년, 길게는 50년 이상 과학이 내다보는 미래를 미리 살펴볼 수 있게 할 것입니다. (글: 김창익 카이스트 교수)

2030년 3월의 어느 아침, 이란의 핵과학자 라민 가예디(가명) 박사는 출근 준비로 바쁘다. 수염을 가지런히 다듬은 후, 위아래가 하나로 된 전통 옷을 입고, 터번을 머리에 두른다. 마지막으로, 지난주 한국에서 도착한, 특수한 무늬가 새겨진 마스크를 착용한다. 모두가 알다시피 마스크의 착용은 사막에서 불어오는 미세먼지와 전염병을 차단하는 효과가 있다. 2019년 말 발생하여 3년이 넘게 전 세계를 유행병 공포에 떨게 했던 코비드 19가 아직도 말끔히 사라지지 않고 갖가지 새로운 변종으로 나타나고 사라지기를 반복하며 인류를 괴롭히고 있을 줄은 아무도 생각하지 못했으리라. 하지만, 가예디 박사가 매일 아침 출근 때마다 한국에서 직수입한 마스크를 착용하는 진짜 이유는 따로 있다.

2020년 11월, 그가 몸담고 있던 이란 핵개발 연구소에 근무하던 '이란 핵개발의 아버지'로 불리던 모센 파크리자데 박사가 앞뒤로 경호차량을 대동하고 직접 몰고 가던 승용차 안에서 외부의 총격을 받고 사망한 일이 있었다. 사건 당일 파크리자데는 카스피해 별장을 떠나 테헤란 동쪽 압사르의 시골집에서 주말을 보내려 승용차에 부인을 태워 이동 중이었다. 파크리자데는 이란 국방부 연구ㆍ혁신기구 책임자로 근무하면서 1999년부터 2003년까지 핵무기 개발 계획인 '아마드 프로젝트'를 주도했다. 이란 정부는 반정부 단체와 이스라엘 정부가 원격조종 기관총으로 이란의 최고 핵 과학자 모센 파크리자데를 암살했다고 주장하였으며 그가 주도한 핵 프로그램은 평화적 목적으로 개발되어 왔다고 밝혔다. 그 당시 가예디 박사를 더욱 놀라게 한 사실은 파크리자데 박사가 총격을 받은 상황이 매우 충격적이기 때문이다. 사건 직후 이란 정부는 파크리자데의 경호원과 저격조 간의 총격전이 있었고 그가 근거리 사살됐다고 발표한 바 있다. 하지만 사건 보도 이후, 몇몇 이란 언론은 파크리자데가 '원격 조종 기관총'에 의해 사살됐다고 보도했고, 이번 암살에 사용된 무기가 위성을 통해 원격 조종됐다는 보도가 잇따라 나오기 시작했다. 그 해 11월 30일, 샴카니 최고 국가안보회의 의장은 파크리자데의 장례식에서, 이번 공격이 원격으로 이뤄졌으며 '특이한 방법'이 동원됐다고 말했다.

"안타깝게도 이번 작전은 매우 복잡하며 전자장치가 사용됐습니다. 당시 사건 현장에 저격조는 없었습니다."

그로부터 1년 뒤, 미국 뉴욕타임스(NYT)에 따르면 "지난해 11월 27일, 파크리자데를 향해 기관총 공격을 한 것은 저격수가 아니라 그의 얼굴을 인식해 공격한 인공지능(AI)이 장착된 로봇이었다"는 보도가 나와 다시 한번 충격을 준 일이 있었다. 파크리자데는 방탄 처리된 닛산 자동차를 타고 있었고, 승용차 앞뒤로 무장 경호 차량 2대가 호위했지만 아무 소용이 없었다. 교차로로 진입해 속도를 늦추는 순간 140m 거리에 주차된 차량에서 총격이 가해졌다. 사고 현장에 기관총을 탑재한 무인 트럭 이외에는 범인의 흔적이 없었다.

주차된 픽업트럭에 장착된 기관총은 파크리자데의 안면을 확대 조준했고 13발이 발사됐다. 이 기관총은 위성으로 제어할 수 있고 AI 기술도 적용됐다. 25cm밖에 떨어지지 않은 그의 아내는 총에 맞지 않았다. 기관총은 위성을 통해 온라인으로 제어됐고 첨단 카메라와 AI 기술로 표적을 식별하는 성능이 있었다. 테러분자들은 현장에 없었다. 당시 11명의 경호원이 파크리자데를 경호 중이었지만 비극을 막지는 못했다. 임무 수행 후 트럭은 자동 폭파된 것으로 전해졌다.

가예디 박사는 이 당시 보도자료들을 보며 공황상태에 빠졌던 기억이 10년이 지난 지금도 생생하다. 파크리자데 박사의 뒤를 이을 가장 촉망받는 위치에 있던 인물이 바로 자신이었기 때문이다. 대외적으로 미국의 이란에 대한 경제 제재는 오히려 강화되는 추세였고, IAEA(국제원자력기구)와의 이란 핵 복원 협상은 좌초 위기를 맞고 있었다. 이렇게 어수선한 국내외 정세 속에서 얼굴인식 인공지능을 장착한 로봇이나 무인기의 공격 가능성은, 과거의 인간 암살조를 통한 공격방식과는 차원이 다른, 생각만 해도 섬뜩한 위협으로 다가왔다. 차를 타고 갈 때도, 거리를 걸을 때도 어디엔가 숨겨진 얼굴인식 인공지능이 탑재된 암살무기가 자신을 노리고 있을지도 모른다고 생각할 때의 두려움이란.

결국 가예디 박사는 파크리자데 박사의 뒤를 이어 이란의 핵개발 책임자의 자리에 올랐으나, 보이지 않는 어디선가 자신을 알아보고 공격을 감행할지도 모르는 인공지능 첨단무기의 존재를 한시도 잊을 수가 없던 차에, 반가운 소식을 듣게 되었다. 그동안 실험실 레벨에서 개발 중이던 적대적 인공지능 공격이라고 하는, 한마디로 설명해서 상대의 인공지능을 속이는 기술이 본격 상용화 되었다는 사실이다. 적대적 공격기술이란 영상에 사람의 눈으로는 알아채기 힘든 작은 노이즈들을 추가하여 상대방이 얼굴인식, 물체식별 등을 위해 개발한 인공지능을 무력화하는 기술이다. 이 기술을 물리적 세계에 확장, 적용하여 특수 제작한 패턴 무늬를 인쇄하여 모자나 마스크 등에 부착을 하면 수많은 나의 얼굴 사진으로 완벽히 학습을 마치고 나를 탐지하고자 하는 상대방의 얼굴인식기를 무용지물로 만들 수 있는 것이다. 가예디 박사는 지금까지 외출 시에는 반드시 이 특수 패치가 부착된 마스크를 착용해 오고 있는 것이다.

특수 제작된 패턴이 새겨진 마스크를 착용하여 얼굴인식기를 속이는 장면. 인식을 못하게 하거나 심지어 특정 다른 사람으로 오인식하게 할 수도 있다.

특수 제작된 패턴이 새겨진 마스크를 착용하여 얼굴인식기를 속이는 장면. 인식을 못하게 하거나 심지어 특정 다른 사람으로 오인식하게 할 수도 있다.

위에서 가예디 박사의 예를 들어 설명한 적대적 공격이라고 불리는 이 기술의 기본 원리는 다음과 같다. 예를 들어 아래와 같이 판다 영상을 생각해 보자. 인공지능이 판다를 더 이상 판다로 인식하지 못하는 상태가 될 때까지 영상에 사람의 눈으로는 알아채기 힘든 노이즈를 조금씩 추가해 주는 것이다. 이때 노이즈는 아무렇게나 생성하면 되는 것이 아니라 고도의 수학적 계산에 의해 인공지능이 잘못된 결과를 낼 수 있도록 발생된다.

예언자들

이 그림은 원래 '판다'로 인식되는 영상이 미세한 노이즈 (즉, 가운데 영상은 설명을 위해 눈에 보이도록 100배 증폭된 것임)가 추가된 경우 '긴팔원숭이'라고 하는 다른 동물로 오인식되는 것을 보여준다.

영상전체에 미세한 노이즈를 추가하는 방식 대신, 일부 영역에 특수 제작된 패턴을 추가하여 상대의 인공지능을 속일 수도 있다. 2017년 구글 리서치 그룹은 논문을 통해 영상인식 인공지능 알고리즘을 속일 수 있는 스티커를 발표했다. 그림에서 보듯이 탁자 위에 놓인 바나나가 바나나로 잘 인식되다가 탁자 위에 적대적 공격 기법으로 제작된 스티커를 붙이면 토스터로 오인식되는 것을 볼 수 있다.

적대적 스티커를 통해 상대의 인공지능을 속일 수 있다. 바나나로 인식되는 영상(위)에 적대적 스티커를 둠으로써 분류결과가 토스터로 바뀌게 할 수 있다 (아래).<br />
출처 : T. B. Brown, et al., "Adversarial Patch", https://arxiv.org/abs/1712.09665.

적대적 스티커를 통해 상대의 인공지능을 속일 수 있다. 바나나로 인식되는 영상(위)에 적대적 스티커를 둠으로써 분류결과가 토스터로 바뀌게 할 수 있다 (아래).<br />
출처 : T. B. Brown, et al., "Adversarial Patch", https://arxiv.org/abs/1712.09665.

특히 이러한 적대적 스티커를 이용한 공격방법은 영상에 노이즈를 추가하는 디지털 영역 공격 방식과는 달리 실세계공격 (real-world attack)이 가능할 것처럼 보인다. 하지만 위에서 소개한 두 가지 방법 모두 화이트박스 공격법이라는 한계를 가지고 있다. 즉, 상대방의 인공지능을 속이기 위해서 상대 인공지능의 내부(예를 들어, 학습에 사용되는 알고리즘, 모델 학습 시 생성되는 파라미터 등)를 속속들이 알고 있다고 가정한 경우에 가능한 공격법인 것이다. 하지만 이것은 현실에서 사용하기에 거의 불가능한 조건이 된다. 적의 인공지능이 어떤 인공지능 모델을 이용하여 개발되었는지, 학습을 마친 후 생성된 파라미터가 어떠한지 외부인이 어찌 알 수 있다는 말인가. 따라서 최근 연구는 상대방의 인공지능 모델이 어떤 식으로 개발되었는지에 대한 구체적 지식이 없어도 공격이 가능한 블랙박스 공격에 좀 더 초점이 맞추어져 있다.

그나저나, 상대방의 인공지능이 어떤 방식으로 설계되어 있는지도 모르는데 어떻게 그 인공지능을 속일 수 있다는 걸까. 여기서는 블랙박스 공격법의 주된 방식의 하나인 전이성기반 공격법을 설명해 보기로 하자. 먼저 아래 그림을 보라. 종이 위에 빨간 사각형들과 초록 동그라미들이 그려져 있다. 만일 두 집단을 구분하는 경계선을 그어 보라고 하면 사람들은 어떻게 선을 그을까? 사람마다 인종도, 부모도, 지능도, 성격도 제각각이니 그들이 긋는 경계선의 모양도 천차만별이 아닐까?

하지만 실제로 두 집단을 가르는 선(직선이든 곡선이든)을 그려보라고 하면 대부분의 사람들은 아래의 그림 중 왼쪽 그림과 유사하게 경계선을 그릴 것이다. 인공지능의 경우도 마찬가지이다. 높은 성능을 낼 수 있도록 제대로 학습이 된 인공지능들은 특징 공간 상에서 대부분 아래그림의 왼쪽 그림과 유사한 결정 경계를 갖게 된다.

당신이라면 두 그룹을 나누는 선을 어떻게 그릴 것인가

이와 같이 정상적인 사람이라면, 또는 제대로 학습을 마친 인공지능이라면, 그 내부의 독특한 특성에 관계없이, 분류 또는 인식하는 작업을 할 때 대부분이 공통적인 성향을 갖는다는 사실을 이용하여, 비록 상대방이 개발한 인공지능에 대해 정확한 정보가 없을지라도 그것과 유사한 기능과 성능을 갖는 인공지능을 개발하여 그에 맞는 적대적 노이즈나 패치를 생성하면 상대방의 인공지능을 속이는 일이 가능하다는 것이 전이성 기반 공격방식의 기본 철학이다. 사실 이러한 전이성 기반 공격이라고 하는 방식은 전혀 새로울 것도 없이, 이미 우리 일상생활에서도 흔히 보는 방식이라고 할 수 있다.

예언자들

대한민국의 20대 여성을 타깃으로 한 화장품 광고를 상상해 보라. 그 광고를 보는 한국의 모든 20대 여성은 저마다 다른 개성과 가치관을 갖고 있지만, 동시에 그들이 공통적으로 바라는 특성들(예를 들어 피부색, 피부결, 선호하는 연예인 등)을 겨냥하여 높은 상품 광고 효과를 얻게 되는 것이다. 어리숙한 사람에게나 해당되는 일인 줄로만 알지만 스스로 매우 똑똑하고 사려가 깊다고 생각하는 사람들조차 속아 넘어가기 일쑤인 보이스피싱은 어떠한가. 비록 범인들이 전화를 받는 사람의 성격이나 사회적 지위, 친구관계 등을 정확히 알지 못해도 보이스피싱이 끊이지 않는 이유는 전화기 너머로 들려오는 아이의 울음소리를 듣는 순간 정상적 사고회로가 정지해 버리는 모든 부모의 공통된 특성을 이용한 전이성 공격이 시도되기 때문이라 할 수 있을 것이다.

모든 인공지능은 인간과 지구환경에 안전하게 개발되고 사용되어야 한다. 하지만 아무리 나쁜 의도 없이 개발된 인공지능이라 할지라도 암살 대상을 인식한다든가 상대의 중요 물체를 탐지한다든지 하는 용도로 얼마든지 사용될 수 있을 것이다. 따라서 적대적 공격 기술은 상대방의 인공지능에 의한 원치 않는 탐지를 막기 위한 방법으로서 사용될 것이다 (아래 그림). 대부분의 기술이 그러하듯이, 적대적 공격 기술은 누구를 대상으로 사용되는가에 따라 내가 속한 쪽에 좋은 기술이 되기도 해로운 기술이 되기도 한다. 상대가 우리 측의 인공지능을 속이려고 적대적 공격을 시도한다면, 상대의 적대적 공격에 속지 않는 방어기술이 필요한 것은 당연하다.

스프 배너