뉴스

SBS 뉴스 상단 메뉴

인공지능용 한국어 말뭉치 155억 어절 구축…5년간 175억 지원

4차 산업혁명의 기반인 인공지능(AI)의 핵심 중 하나는 사람과 기계의 자유로운 의사소통입니다.

컴퓨터가 인간의 말이나 글을 제대로 이해하고 반응하려면 인간이 말하고 쓰는 자연언어를 처리할 수 있는 방대한 언어 데이터베이스가 필요합니다.

이러한 언어 데이터베이스를 말뭉치(corpus)라고 합니다.

최근 빠르게 보급되는 음성인식 인공지능의 정확도는 이러한 말뭉치가 얼마나 풍부하게 정교하게 구축돼 있느냐에 달려있습니다.

문화체육관광부와 국립국어원은 한국어 인공지능 기술의 발전을 위해 2018~2022년 총 154억7천만 어절의 말뭉치를 구축하는 국어 정보화사업 계획을 마련했다고 밝혔습니다.

이를 위해 5년 동안 총 175억 원의 예산을 투입하기로 했으며, 우선 내년도 예산 11억5천700만 원을 편성했습니다.

이 계획은 기초 언어자원으로 시기·매체·장르별로 다양한 한국어 말뭉치 152억7천만 어절과 구성·형식·분석체계 등이 정제돼 준거가 될 수 있는 표준 말뭉치 1억3천700만 어절을 구축·보급하는 것이 골자입니다.

언어처리 성능 평가의 객관적 기준이 될 평가용 말뭉치 6천만 어절과 번역·사전편찬 등에 활용하기 위한 한국어-외국어 대역 말뭉치 4종(몽골어·베트남어·인도네시아어·태국어) 각 10만 어절을 구축·보급하는 내용도 포함됐습니다.

아울러, 언어자원의 구축·연계·배포 전 과정을 효율적으로 지원하고 통합하기 위한 시스템도 구축하기로 했습니다.

이번 사업은 문체부와 국립국어원이 1998~2007년 10년간 추진한 '21세기 세종계획'의 후속 사업입니다.

1차 세종계획은 총 150억 원의 예산을 들여 소설 4천권 분량인 2억 어절의 말뭉치를 구축하고 60만 개 어휘를 담은 전자사전과 다양한 언어 정보화 검색 프로그램을 개발하는 성과를 남겼습니다.

국립국어원 관계자는 "이번 사업을 통해 한국어 언어처리 기술개발을 위한 기반을 다지는 것은 물론, 외국의 왜곡된 한국어 자료 활용을 차단하고 언어자원 공동 구축으로 사회적 비용도 절감할 수 있을 것으로 기대한다"고 말했습니다.
 
Copyright Ⓒ SBS. All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지

스브스프리미엄

스브스프리미엄이란?

    많이 본 뉴스