뉴스

SBS 뉴스 상단 메뉴

[취재파일] AI영상 제작기술, 어디까지 왔을까?

- 국제AI영화제 대상 출신 권한슬 영화감독에게 듣다!

[취재파일] AI영상 제작기술, 어디까지 왔을까?
sdf다이어리 섬네일
최근 딥페이크 1) 기술을 악용한 금융 사기가 급증하고 있다는 딜로이트2 ) 등 컨설팅 업체들의 경고가 이어지고 있는 가운데 일론 머스크 테슬라와 스페이스X의 최고경영자가 딥페이크 사기 영상에 가장 많이 악용되고 있다는 분석이 나왔습니다. 실제 동영상 스트리밍 서비스나 소셜미디어 등을 보면 일론 머스크 CEO가 투자 관련 언급하는 영상들을 심심치 않게 볼 수 있는데요. 

1) 딥페이크는 딥러닝(Deep Learning)과 가짜(Fake)의 합성어로, 인공지능기술을 가지고 이미지, 음성, 비디오 등을 조작하여 만든 콘텐츠를 말한다.
2) 지난 5월 컨설팅 업체 딜로이트가 생성형 AI로 인해 금융권의 딥페이크 관련 사기 위험이 높아질 것을 경고했다.
https://www2.deloitte.com/xe/en/insights/industry/financial-services/financial-services-industry-predictions.html#generative-ai-is-expected-to

딥페이크 일론 머스크
지난 14일자 뉴욕타임스 기사- '딥페이크 일론 머스크가 어떻게 인터넷 최대 사기꾼이 되었나?'
--> https://www.nytimes.com/interactive/2024/08/14/technology/elon-musk-ai-deepfake-scam.html

"일론 머스크 투자 언급 영상, 딥페이크 금융사기 의심해야" 

지난 14일 뉴욕타임스는 딥페이크 탐지 및 모니터링 업체 '센시티'의 공동창업자 프란체스코 코발리를 인용해  최근 딥페이크 영상 2000여 건을 분석한 결과 생성형AI를 활용해 제작된 투자 사기 영상의 1/4에 일론 머스크 CEO가 등장하고, 암호화폐 관련 사기 영상에는 90% 출현한다고 보도했습니다. 그러면서 일론 머스크 외에는 세계적인 투자 전문가 워런 버핏과 아마존의 창업자 제프 베이조스가 딥페이크 사기 영상에 악용되고 있다고 경고했습니다. 투자 관련 영상에 일론 머스크가 나오면 딥페이크가 아닌지 의심을 해야 하는 지경에 이르렀는데요. 그렇다면 실제 생성형 AI를 활용한 영상 제작기술의 수준은 지금 어디까지 와 있는 것일까? 
국제ai영화제
두바이에서 열린 국제AI영화제에서 대상과 관객상 2관왕을 차지한 권한슬 감독팀
(설한울 연구소장, 권한슬 감독, 구도형 프로듀서) ⓒ AIFF Dubai

올 2월, 두바이에서 열린 국제AI영화제(AIFF)에서 '원 모어 펌킨'이라는 판타지 호러 영화로 대상과 관객상을 거머 줘 화제가 된 권한슬 영화감독이라면 답을 줄 수 있지 않을까? 현재 AI영상 제작기술의 수준은 어디까지 와 있는지 들어보기 위해 만났습니다. 
SDF 인사이트
권한슬 감독 프로필
Q. 안녕하세요? 뵙게 돼서 반갑습니다. 생성형AI로 제작하는 영상 제작기술에 대한 관심이 높아지고 있는데요. 제가 감독님을 알게 된 것은 올초 두바이 영화제에서 대상을 받으신 것 때문인데 마침 오늘(지난 12일) 신작도 나왔다고 들었습니다. 지난해에 비해 올해의 AI영상 제작기술은 얼마나 발전했는지 궁금합니다. 

"신작 '포임 오브 둠(멸망의 시)'이 마침 오늘 새벽에 공개돼, 방송미디어 가운데서는 SBS에 가장 먼저 소개를 하게 되었는데요. 올초 국제AI영화제에서 대상을 받은 작품 ‘원 모어 펌킨’은 지난해 8월, 9월 정도에 만든 영화다 보니 기술은 1년 전 기술을 활용했고요. 이번에 공개한 ‘포임 오브 둠’은 지난 1년 동안 AI가 굉장히 많이 진화했거든요. 비디오 AI기술이 굉장히 많이 발전해서 몇몇 컷은 실사에 가까울 정도의 퀄리티 수준으로 저희가 제작을 해서 내놓은 것입니다. 가장 큰 차이는 ‘원 모어 펌킨’은 사실 실험영화에 가까워요. ‘AI로 이러한 것까지 할 수 있다’, AI영화라는 장르를 조금 기념비적으로 알린 작품, 어떻게 보면 그 시장을 개척한 작품이라고 볼 수 있고요."
원 모어 펌킨
권한슬 감독 제작 AI실험영화 ‘원 모어 펌킨’ 中 ⓒ스튜디오 프리윌루전

"10여 개 정도의 최신 AI기술을 조합해서 제작"

"‘포임 오브 둠’ 같은 경우는 앞으로의 미래를 보여줄 수 있는 작품이라는 생각을 해요. 현재 AI 비디오 기술 수준이 여기까지 올라왔고, 앞으로 더더욱 진보할 것이고, 그때가 돼서는 진짜 우리가 보는 상업 영화나 드라마에도 몇몇 소스들이 AI로 만들어진 것들이 쓰일 수가 있게 될 것이고요. 실사촬영과 융복합 돼서 표현할 수 있을 것이라고 생각해요. 그렇게 콘텐츠가 다각화될 것이라는 거죠. ‘포임 오브 둠’은 그러한 하나의 또 다른 방향성을 보여주는 지금 수준의 퀄리티를 볼 수 있는 영화라고 보시면 될 것 같아요. 기술적으로 10여 개 정도의 가장 최신의 AI기술을 조합해서 만들었고요. 감히 세계 최고 수준이라고 자부할 수 있습니다.

그리고 또 하나의 특징은 ‘뮤지컬’ 장르라는 것입니다. 음악과 보컬도 모두 AI가 작곡하고 AI가 부른 것입니다. 지금 비디오 AI기술과 함께 음악을 작곡하는 AI의 수준도 굉장히 높아졌어요. 그래서 이 두 가지를 조합한 ‘AI로 제작한 뮤지컬 영화다’라고 생각해 주시면 됩니다."
포임 오브 둠
지난 12일 출시된 생성형 AI 단편영화 ‘포임 오드 둠(멸망의 시)’
ⓒ스튜디오 프리윌루전 ��(클릭!)

Q. 잠깐 보니까 중세의 느낌도 있고 SF적인 느낌도 있던데요. AI로 해보시니까 기술적으로 더 특화될 수 있다 느껴지는 장점이 무엇인가요?

"일단 AI를 영상에 쓰려면 그 장점을 잘 활용해야 된다고 생각하는데 AI의 장점은 CG로 작업했을 때보다 비용과 시간이 확실히 절감이 됩니다. 일상적인 드라마나 로맨스 같은 경우에는 굳이 AI로 표현할 필요가 없습니다. 실사 촬영이 훨씬 더 효율적이니까요. 그런데 CG가 많이 들어가는 장르물이나 스케일감이 있는 작품들 같은 경우에는 AI의 장점을 극대화할 수 있는 것이죠"

"AI는 서로 다른 무엇인가를 조합하는 것을 잘해"

"또 아까 말씀하신 것처럼 약간 SF적이고 중세적인 느낌이 섞여있다 하셨는데 AI가 잘하는 것 가운데 하나가 서로 다른 무엇인가를 조합하는 것입니다. 신선하고 미묘하게 새로운 이미지를 구현하는 것이 AI가 굉장히 잘할 수 있는 부분입니다."

Q. AI의 여러 가지 기술 10여 개를 조합했다고 하셨는데요. 자세히 좀 설명해 주시겠어요?

"10개 넘죠. AI서비스 가운데 누구나 쓸 수 있게 되어 있는 툴도 있고, 오픈되어 있는 모델을 저희가 가져와서 맞춤화하는데요. 저희 회사 내에는 AI개발자 분들도 있고 AI아티스트 분들도 있다 보니 이렇게 다 조합해서 쓸 수 있는 상황입니다. 예를 들면 이미지를 비디오로 만들어주는 AI도 있고, 텍스트를 비디오로 만들어주는 AI도 있고, 보이스를 만들어주는 AI, 음악을 작곡하는 AI, 그리고 표정연기와 립싱크 즉 말을 할 수 있게 만들어주는 AI 등이 있을 수 있는데요. 한 가지를 가지고 만드는 게 아니라 되게 많은 것들을 조합해서 만들고 있습니다. 왜냐하면 AI마다 잘하는 게 다 다르고 고도화돼 있는 포인트들이 다르기 때문인데요. 저희는 하이엔드 AI 영상을 추구하고 있기 때문에, 지금 현존하는 최고치의 AI 기술로 뽑아내는 게 저희의 목표이거든요. 다양한 기술 중 최적의 기술을 조합하는 것입니다. 결국에는 한 컷, 한 컷 들어가는 AI들이 다 다르다, 한 컷을 만든다고 해도 AI 기술이 2개가 들어가기도 하고 3개가 들어가기도 하고 5개까지도 조합해서 들어간다 그렇게 봐주시면 될 거 같습니다. "
포임 오브 둠
'포임 오브 둠' 작품의 경우에는 한 가지 AI영상 기술로 제작한 게 아니라
여러 가지 AI영상 기술을 조합했다 보니
훨씬 더 실사에 가까운 영상이 구현될 수 있었다는 설명 ⓒ스튜디오 프리윌루전

Q. 이번 ‘포임 오브 둠’ 같은 경우에는 만드는데 얼마나 걸렸을까요?

"분량이 5분 30초인데요. 제작 기간이 5인이서 2주 정도 소요됐습니다."

Q. AI콘텐츠에 관심을 갖게 된 계기는 무엇이었을까요?

"AI 영상을 제가 처음 접한 게 지난해 4월 정도였는데요. 그때는 GIF라고 하죠. 움짤 같은 형태였는데 되게 프레임이랑 해상도가 낮아서 뚝뚝 끊기는 그런 수준이었어요. 그런데 두 달 뒤 보니까 옛날 저화질 클립 정도 수준까지 올라오더라고요. 그래서 머지않아 더 발전하면 실제 영상 제작에 쓰일 수 있을 정도가 될 수도 있겠다 그때부터 생각했던 것 같아요. 당시 사람들은 그거 한 10년 뒤에나 가능한 일라고 했었거든요. 그런데 그로부터 6개월, 7개월 뒤인 월 2월, 오픈AI가 ‘소라’라는 모델을 공개하면서 사람들의 시선이 완전히 바뀐 거죠."
오픈AI의 소라
오픈AI가 지난 2월 발표한 실사에 가까운 AI비디오 서비스 ‘소라’ⓒSORA  ��(클릭!)

"AI비디오 쪽에 관심이 어마어마하게 쏠리고 ‘소라’의 경우는 실사와 구분 안 되는 수준의 그런 클립들도 있고, 심지어 AI가 물리법칙을 이해한다는 느낌을 받았을 정도예요. 저도 굉장히 놀랐던 기술인데 아니나 다를까 그로부터 지금 또 6개월이 지났잖아요. 오픈AI외에도 런웨이( https://runwayml.com/), 루마( https://lumalabs.ai/dream-machine) 등 다양한 AI 기업들이 경쟁이 붙어서 거의 매주, 매달 업데이트를 하고 있거든요. 기술이 점점 좋아지는 거예요. 그러니까 저희도 발 빠르게 발전하고 있는 이 분야의 기술을 잘 팔로우해서 제작을 하게 된 것이죠."
 
Q. 기술과 관련한 특허도 갖고 계시다고요?

"한 건 있고 지금 출원 준비 중인 건들이 몇 개 있습니다. 가장 핵심적인 것은 ‘비디오 투 폴리’라고 해서 저희가 앞으로 구현할 기술의 선행기술인데요. 인공지능을 기반으로 비디오를 인식해서 거기에 걸맞은 효과음을 생성해서 싱크까지 맞춰서 배치하는 것입니다. 제가 AI로 비디오를 수십만 개의 컷을 만들어봤지만 AI는 영상보다 소리가 어려워요. 소리는 다 수작업으로 다시 넣어야 돼요." 

"AI로 비디오를 만들면 소리가 없어요. 소리는 다 수작업!"

"AI로 만든 것은 영상만 나오고 소리가 없거든요. 소리까지 같이 나오면 좋겠다는 생각을 작년부터 했습니다. 이에 대한 기술을 특허를 내서 개발을 하고 있고, 캐나다의 지사를 세워서 딥러닝의 아버지 가운데 한 분으로 불리는 요수아 벤지오 교수님이 세운 ‘밀라’라는 연구소와 파트너십을 맺어서 협력 연구하고 있습니다. 현재도 저희 연구소장님이 캐나다에 출장 가 있는 상황입니다."
요수아 벤지오 교수의 AI연구소 밀라
캐나다 몬트리올 대학 요수아 벤지오 교수가 설립한 세계최대의 딥러닝 분야 밀라 연구소��(클릭!)

Q. 방금 말씀하신 것만 들어도 음악 감독님 일자리 잃어버리는 것 아니야? 그런 생각도 들고 저작권 이슈도 또 있잖아요. 직접 해보시니까 어떻게 느끼시는지 궁금합니다.

"저작권 경우에는 지금은 무법, 그냥 법이랑 제도가 없는 상태이고요. 일자리 같은 경우는 저는 AI는 도구일 뿐이다. 창작의 주체는 인간이라고 생각해요. AI가 사실 진작에 이 정도 만들 수 있으면 감독부터 없어지지 않았겠어요? 그런데 제가 감독을 하고 있고 AI는 그것을 표현하는 방법으로 쓰고 있으니 저는 음악 쪽도 비슷할 것이라고 생각해요. 내가 직접 작곡을 할 수도 있지만 AI가 주는 시안들을 토대로 개발해 만들 수도 있는 것이죠. AI는 뭔가를 대체하는 게 아니라 인간의 보조도구로서 사용될 것이라고 생각합니다. ‘포임 오브 둠’의 경우에도 이야기는 제가 직접 만든 것입니다."

"배우의 감정선은 아직 AI가 쫓아갈 수가 없어요!"

Q. AI로 해보니까 이것은 진짜 힘들다, 아직 어렵다 하는 분야는 어느 쪽이세요?

"당장은 배우 쪽인 것 같아요. 인간의 디테일한 감정선을 따라갈 수가 없고 무엇보다도 세밀한 디렉팅을 줄 수가 없습니다. 실제 촬영이었으면 배우한테 감독이 약간 이런 뉘앙스로 이런 디렉팅을 주면 되는데 AI는 그게 좀 어렵고요. 일관성 있는 주인공 캐릭터의 얼굴을 계속해서 생성하는 것도 아직 완벽하지 않아서 차차 해결될 거라 생각합니다만 아직은 조금 그런 것들이 미약합니다."
권한슬 감독 인터뷰
지난 12일 서울AI허브 건물에서 SBS미래팀과 인터뷰 중인 권한슬 감독

Q. 지난번 작품도 그렇고 이번 작품도 그렇고 모두 영어로 만들고 계신데 언어를 영어로 하는 이유가 있나요?

"아무래도 한국어의 대사 같은 게 립싱크가 잘 안 붙습니다. 머지않아 좀 기술의 발전으로 보완이 되기는 할 텐데 최고의 하이엔드 퀄리티를 추구하다 보니 아직은 서구권 비주얼이나 영어가 조금 더 유리한 부분이 있어 전략적으로 선택하고 있습니다."

서구권의 데이터가 많아 만들기 더 유리하다는 이야기였지만 한편으로는 아시아권의 배우들이나 언어는 상대적으로 AI로 만들기가 아직은 쉽지 않다는 면에서 ‘우리는 아직 조금 더 안전할까?’ 하는 조금은 우매한 생각도 해보았습니다.

AI기술로 조작된 '딥페이크 콘텐츠들이 있다'는
사실 자체를 인지하는 데에서부터 시작!

Q. 마지막으로 가장 최신의 AI영상 제작 기술을 지속적으로 연구해오고 있는 입장에서 '딥페이크' 기술로 만들어지는 콘텐츠에 대해서는 우리가 어떻게 대응해야 할까요?

"최근에는 AI로 생성된 영상인지 아닌지 확인해 주는 기술도 개발 중인 것으로 알고 있습니다만 일단은 그렇게 AI기술을 악용해 만들어지는 콘텐츠들도 있다는 사실 자체가 알려지는 것이 중요하다고 생각하고요. 알려지는 것만으로도 대비가 되는 부분이 있다고 생각합니다. 그리고 본질적으로는 이상하다고 느끼면 의심부터 해야 하지 않을까 조심스럽게 말씀드려 봅니다. 하지만 굉장히 어려운 문제인 것은 사실입니다." 
생각하는D
30대 초반의 권한슬 감독은 지난해 6월 창업해서 AI개발자와 AI아티스트 총 14명으로 구성된 스타트업을 이끌고 있었습니다. 순수 생성형AI기술만으로 스토리가 있는 완결성 있는 콘텐츠를 만드는 곳은 국내에서 유일하다고 강조했는데요. 

‘원 모어 펌킨’을 보면서는 당시 아직은 조금 부자연스러운 AI기술의 한계를 ‘호러’라는 장르에 적용해 오히려 괴기스럽게 표현함으로써 단점을 강점으로 살린 것이 참 현명한 선택이라 생각했는데, 이번에 보니 특허까지 내가면서 실제 AI영상콘텐츠 분야의 새로운 장을 개척해가고 있었습니다. 
권한슬 영화감독
"내러티브가 있는 숏필름 AI 영상 쪽에 하나의 시장을 열었다는 자부심도 있지만 또 신중해야겠다는 생각도 하고 있습니다.
앞으로도 AI로 할 수 있는 콘텐츠들을 선보일 계획이고 저희가 얻은 노하우를 저희만 쓰는게 아니라
다른 콘텐츠 제작자분들한테도 공유할 수 있는 플랫폼 같은 것도 만들려고 하고 있습니다.
AI콘텐츠 시장이 우리 K콘텐츠 업계에 잘 스며들어서 경쟁력 있는 시장이 되기를 바라고 있습니다."

 
기존에 없던 시장을 개척해 나가고 있는 권한슬 감독처럼 AI기술의 발전이 딥페이크 같은 부정적인 방식으로 악용되지 않고, 더 이로운 방향으로 나아갈 수 있게 보다 많은 사람들의 관심이 필요한 때입니다. 

                                                                                                            (글: 이정애 기자, calee@sbs.co.kr)
 
**SDF 다이어리는 SBS 보도본부 미래팀에서 작성하는 뉴스레터입니다. 우리 사회가 관심 가져야 할 화두를 앞서 들여다보고, 의미 있는 관점이나 시도를 전합니다. 한 발 앞서 새로운 지식과 트렌드를 접하고 싶으신 분들은 매주 수요일 발송되는 SDF 다이어리를 구독해 주세요. → 구독을 원하시면 '여기'를 눌러주세요.

 
Copyright Ⓒ SBS. All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지

스브스프리미엄

스브스프리미엄이란?

    많이 본 뉴스