한 여성 주인공이 누워있는 아이언맨을 치료하는 이 장면.



시점을 1인칭으로 바꾸자, 내가 아이언맨을 치료하는 이 여성 주인공이 됩니다.



동일한 과정을 거치자, 영화 속 잔뜩 화난 헐크나 배트맨과 싸우는 악당 조커의 시점도 직접 보여줍니다.



기존 3인칭 시점의 영화 속 장면을 활용해 1인칭 시점 영상을 생성하는 인공지능 모델, 에고엑스의 결과물입니다.



화면 속 인물의 위치와 자세, 주변 공간 등을 3차원으로 이해한 뒤 이를 기반으로 1인칭 시야를 상상해 만들어 내는 겁니다.



인물들의 머리 움직임에 따라 역동적으로 바뀌는 시야도 정밀하게 구현하는 데 성공했는데, 움직임이 많은 요리와 운동 영상에 적용해도 안정적인 성능을 보였습니다.



KAIST 연구진이 에고엑스에게 6개월에 걸쳐 4천여 개의 비디오를 학습시킨 결과입니다.



[강태웅/KAIST 김재철AI대학원 박사과정 : 3인칭 시점 (영상)을 받았을 때 1인칭 시점이 어떻게 생겼을까를 잘 상상하도록 그 비디오 모델을 학습시켰다고 생각해 주시면 될 것 같습니다.]



기존에는 시점 변환을 위해 4개 이상의 카메라 영상이 필요했는데, 에고엑스를 사용하면 3인칭 시점 영상, 단 하나만으로도 순식간에 새로운 시점의 영상을 만들어낼 수 있습니다.



연구진은 AR과 VR 등 실감형 콘텐츠는 물론, 인공지능이 실제 현장에서 사물을 인지하고 이해해야 하는 피지컬 AI에도 활용가능성이 클 것으로 기대하고 있습니다.



[주재걸/KAIST 김재철AI대학원 석좌교수 : 실제 로봇이 특정 기능을 수행하는 AI 기술을 학습하는 데 사용하는 학습 데이터로서 주된 활용처가 있을 것 같습니다.]



연구팀은 현재 최대 4~5초 길이에 그치는 에고엑스 생성 영상의 길이를 늘리고 영상의 품질과 정확도를 높이기 위한 연구를 이어갈 계획입니다.



(취재 : 조형준 TJB , 영상취재 : 성낙중 TJB, 화면제공 : KAIST , 제작 : 디지털뉴스부)



TJB 조형준