↑ 솔트룩스 CI [사진= 솔트룩스] |
인공지능에 대한 중요성은 이미 사회적으로 공감하고 있지만, 인공지능에서 필수불가결한 요소로 꼽히는 데이터에 대해선 그 중요성 인식이 상대적으로 낮은 경향이 있다. 현재 주요 국가 공공데이터세트 현황을 보면 미국 25만2952건, 캐나다 8만1949건, 영국 5만1297건에 달한다. 이에 비해 한국은 2만9934건으로 미국의 1/9 수준에 그친다.
특히 언어 데이터인 말뭉치 어절 보유량은 더욱 심각하다. 언어별 말뭉치 데이터는 영어와 중국어가 각각 2000억 어절, 800억 어절로 한국어(2억) 어절보다 약 400~1000배 많다. 그만큼 한국어가 해외 선도국보다 데이터 자산이 매우 취약한 상황이다.
이에 국립국어원은 TV, 라디오 등의 구어 원자료와 드라마, 연극 대본 등의 준구어 원자료를 수집해 말뭉치를 구축하고, 저작권 이용 계약까지 체결해 민간 활용 가치를 극대화하는 말뭉치 구축 사업을 계획했다.
앞서 솔트룩스는 지난해 자체 말뭉치 구축 전문인력을 통해 품질순도 99.9%의 국립국어원 '국어 말뭉치 연구 및 구축 사업'을 수행했다. 또 한국전자통신연구원(ETRI) '음성 DB 구축', 한국언론진흥재단 '뉴스 빅데이터 시스템 구축' 등 20년간 축적된 빅데이터 구축 경험과 4단계 품질관리 프로세스 등을 통해 전문성을 인정받고 있다.
이경일 솔트룩스
[디지털뉴스국]
[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]