인공지능용 한국어 말뭉치 155억 어절 구축…5년간 175억 지원

안영인 기자 youngin@sbs.co.kr

작성 2017.10.09 14:55 조회수
프린트기사본문프린트하기 글자 크기
문화체육관광부와 국립국어원은 오늘(9일) 한국어 인공지능 기술의 발전을 위해 2018년부터 2022년까지 총 154억 7천만 어절의 말뭉치를 구축하는 국어 정보화 사업 계획을 마련했다고 밝혔습니다.

말뭉치(corpus)는 인간이 말하고 쓰는 자연언어를 컴퓨터가 제대로 이해하고 반응할 수 있도록 구축한 언어 데이터베이스를 말하는데, 음성인식 인공지능의 정확도는 말뭉치가 얼마나 풍부하고 정교하게 구축돼 있느냐에 달려 있습니다.

문화체육관광부와 국립국어원은 이를 위해 5년 동안 총 175억 원의 예산을 투입하기로 하고, 우선 내년도 예산 11억 5천700만 원을 편성했습니다.

이 계획은 기초 언어자원으로 시기·매체·장르별로 다양한 한국어 말뭉치 152억 7천만 어절과 구성·형식·분석체계 등이 정제돼 준거가 될 수 있는 표준 말뭉치 1억 3천700만 어절을 구축·보급하는 것이 골자입니다.

언어처리 성능 평가의 객관적 기준이 될 평가용 말뭉치 6천만 어절과 번역·사전편찬 등에 활용하기 위한 한국어-외국어 대역 말뭉치 4종 (몽골어·베트남어·인도네시아어·태국어) 각 10만 어절을 구축·보급하는 내용도 포함됐습니다.

아울러, 언어자원의 구축·연계·배포 전 과정을 효율적으로 지원하고 통합하기 위한 시스템도 구축하기로 했습니다.

이번 사업은 문체부와 국립국어원이 1998~2007년 10년간 추진한 '21세기 세종계획'의 후속 사업입니다.