텍스트·이미지·음성 동시 이해…네이버 차세대 AI '옴니모달' 개발 완료

홍영재 기자

입력 : 2025.12.19 09:16|수정 : 2025.12.19 09:16

▲ 네이버 성남 본사

네이버가 텍스트와 이미지, 음성을 처음부터 한꺼번에 이해하고 생성해 내는 차세대 AI '옴니모달'(omni-modal) 모델 개발을 사실상 마친 것으로 확인됐습니다.

네이버는 자사의 기존 AI 플랫폼 '하이퍼클로바X'의 기능을 더욱 확장한 이 모델을 조만간 일반에 공개할 것으로 예상됩니다.

19일 정보통신기술(ICT) 업계에 따르면 네이버는 이르면 이달 말 신규 생성형 AI 모델인 옴니모달을 공개할 예정입니다.

이 모델은 네이버의 자체 AI 모델인 하이퍼클로바X를 '옴니모달' 형태로 고도화한 것이 특징입니다.

네이버가 독자 기술 확보에 나선 옴니모달은 기존의 '멀티모달'(multi-modal)보다 훨씬 확장된 개념의 차세대 AI 기술로 평가받습니다.

여기서 모달은 '모달리티'(modality)의 약자로, AI가 처리하는 다양한 정보의 형태를 말합니다.

쉽게 얘기하자면 멀티모달은 글로 표기된 단어만 이해하는 AI가 이미지나 음성을 나중에 접하고 이를 단어와 연결해가면서 세상을 이해하는 방식이라면, 옴니모달은 그 이해의 속도와 폭을 대폭 향상한 개념입니다.

다시 말해 옴니모달을 적용하면 처음부터 글, 이미지, 음성을 한꺼번에 학습해 주어진 정보을 통합적으로 이해하고 추론하는 것은 물론 상황과 맥락, 환경까지 종합 판단할 수 있습니다.

특히, 옴니모달은 서로 다른 모달리티 간 입·출력이 자유롭게 변환되는 것이 특징입니다.

따라서 사용자는 상황에 따라 텍스트, 이미지, 음성 중 어떤 방식으로도 질문할 수 있고, 신규 모델은 여러 형태 정보를 자유롭게 활용해 답변을 내놓을 수 있습니다.

설령 정보 형태가 달라지더라도 현실 세계의 복잡한 맥락이나 사용자 의도를 더 일관된 정확도로 파악이 가능합니다.

이와 함께 여러 모델들을 덧붙인 구조가 아닌 하나로 통합된 구조여서 필요에 따라 모델 규모를 확대해 성능을 높이기에도 기술적으로 훨씬 용이합니다.

옴니모달이 '일반인공지능'(AGI)으로 향하는 핵심 기술이자 AI 차세대 기술로 주목받는 이유이기도 합니다.

네이버는 우선 대규모·중량화가 아닌 경량화 규모의 옴니모달 모델을 먼저 선보일 계획입니다.

옴니모달이라는 새로운 개발 방법론을 검증하는 차원으로, 신규 모델명은 아직 확정되지 않은 것으로 알려졌습니다.

네이버는 '스케일업'이 용이한 옴니모델의 특징을 활용해 상대적으로 작은 규모의 모델을 안정적으로 개발한 뒤 이를 토대로 그래픽처리장치(GPU)와 데이터를 투입해 모델 규모를 키우겠다는 전략입니다.

네이버는 그간 멀티모달 분야에서도 경쟁력을 갖춘 만큼 옴니모달에서도 우월한 기술력을 확보할 수 있을 것으로 보고 있습니다.

네이버 관계자는 "네이버만의 안정적인 개발 방법론을 확보하는 것부터 출발해 향후 서비스·산업의 필요에 따라 다양한 크기의 자체 옴니모달 모델을 빠르게 생산할 것"이라고 말했습니다.

앞서 네이버클라우드는 지난 8월 과학기술정보통신부가 추진하는 '독자 AI 파운데이션 모델' 프로젝트의 5개 주관 사업자 중 하나로 선정된 뒤 이종 데이터를 통합 이해·생성하는 '옴니 파운데이션 모델'을 개발하겠다고 밝힌 바 있습니다.

(사진=연합뉴스)

SBS 뉴스

텍스트·이미지·음성 동시 이해…네이버 차세대 AI '옴니모달' 개발 완료