뉴스

SBS 뉴스 상단 메뉴

[모닝 스브스] '녹음 파일→텍스트' 실시간 변환…아직도 몰라?

음성인식기능이 점점 더 발달하고 있습니다.

기계음이나 주변 잡음을 제거하고 한 사람의 목소리에 집중할 수 있게 되는데요, 어떤 기능인지 함께 보시죠.

대학가는 요즘 중간고사 기간일 텐데요. 학생들은 수업 내용을 다 메모하지 못할 때가 있죠.

이럴 때 강의를 녹음한 음성파일을 찾아서 교수님의 수업을 다시 듣고 정리하려고 하는데 타이핑할 글자가 너무 많아 좌절하기도 합니다.

그런데 녹음본을 빠르게 문자화하는 방법이 있다데요.

[김재훈/한양대 음성음향 오디오 신호처리 연구실 : 녹음된 음성을 빠르고 간편하게 텍스트로 옮기고 싶다면 음성인식 기능을 켜 놓은 채 녹음 파일 속 교수님 목소리를 입으로 직접 발음해보세요.]

정말 되는지 실험해봤습니다.

[안녕하세요. 스브스뉴스 인턴입니다. 어 이거 말하는 대로 진짜 되네요. 바빠죽겠는데 에디터님이 부르셔서 실험 중입니다.]

직접 말할 때 이렇게 인식이 되는데 녹음된 목소리는 인식하지 못했습니다.

왜 기계는 녹음된 목소리를 인식하지 못하는 걸까요?

[장준혁 교수/한양대 음성 음향 오디오 신호처리 연구실 : 실제 녹음한 음성과 녹음된 파일을 재생한 음성은 생각보다는 매우 다릅니다. 음성인식기술을 개발할 때 사용하는 머신러닝 알고리즘이 실제 사람의 목소리만을 가지고 학습하였기 때문에 전자화된 기계음을 사용하게 되면 음성인식기능이 지극히 저하되게 됩니다.]

인공지능이 진짜 사람 목소리로만 음성인식을 학습해서 녹음된 목소리는 인식하지 못하는 겁니다.

앞으로 인공지능이 녹음된 목소리까지 학습을 마치게 되면 녹음된 목소리도 글로 풀 수 있는 날이 오는 건데요.

목소리 패턴, 입술 모양에 따른 발음까지 학습하게 된다면 이렇게 시끄러운 공간에서도 특정 목소리만 인식할 수 있습니다.

두 사람의 목소리가 같이 들리다가 이제는 한 사람의 목소리만 들립니다.

앞으로 영상 통화 기술에 활용될 예정인데 어떻게 달라지는지 볼까요?

영상에는 뒤쪽에 통화하는 여자 음성이 들리다가 지금은 남자 목소리만 들립니다. 신기하죠.

앞으로는 주변 잡음을 알아서 제거해 통화하는 상대방의 목소리만 깨끗하게 들을 수 있는 시대가 오겠습니다.

▶ 녹음한 강의, 아직도 손으로 쳐?…중간고사 꿀팁을 전수한다
Copyright Ⓒ SBS. All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지

스브스프리미엄

스브스프리미엄이란?

    많이 본 뉴스