[한국기술뉴스] 영어영문학부 최혜원 교수 연구팀이 외국어 사용자의 한국어 음성을 인공지능이 더 정확하게 인식할 수 있도록 하는 연구를 수행하고 있는 가운데, 본교 팀의 연구가 미래 핵심기술로 손꼽히는 인공지능을 활용해 디지털 포용 사회와 한류의 세계화에 기여할 수 있는 인문학 기반 연구라는 점에서 관심이 집중되고 있다.
최혜원 교수가 이끄는 ‘언어와 인공지능’ 연구팀은 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 2021년도 ‘인공지능 학습용 데이터 구축사업’을 수행하고 있다. 정부 ‘디지털 뉴딜’ 정책의 일환으로 진행되는 이번 사업은 국가·사회 전반의 혁신을 좌우할 인공지능 강국 도약과 지능화 혁신을 촉진하고 일자리 창출을 위해 인공지능 학습용 데이터 구축 개발을 지원하는 프로젝트로, ‘데이터 댐’의 핵심 사업으로 꼽힌다.
본교 연구팀은 국내 5개 기관과 컨소시엄을 구성하여 정부지원금 19억 원의 사업비 중 2억 원을 지원받아 올해 말까지 ‘외국인의 한국어 발화 음성 데이터’의 구축 기획, 수집 및 발음 오류분석 연구를 수행하고 있다. 인공지능 학습용 외국인 발화 데이터를 구축해 AI의 한국어 음성 인식률을 높이려는 것이 본 프로젝트의 목적이다.
스마트폰, AI스피커, 내비게이션, 자동번역기 등 인공지능 음성인식 기술은 이미 우리 생활에 깊숙이 자리 잡고 있다. 그러나 사투리나 노인과 외국인의 음성 등 비전형적인 특성을 갖는 소수 화자들의 언어는 AI의 주된 음성인식 대상에서 소외되고 있는 것이 현실이다. 연구팀에 따르면 AI 음성인식기가 외국인의 한국어 음성을 인식하는 비율은 한국인 음성 인식률에 비해 30% 가량 낮은 것으로 파악된다. 또한, AI 음성인식기 개발 과정에서 한국어 음성 데이터를 수집할 때 국내 체류 외국인 및 국내외 한국어 학습자가 사용하는 모국어의 언어학적 특성을 고려하는 정교한 방식으로 수집된 적은 없었던 것으로 확인된다.
딥러닝 기술을 이용한 최근의 인공지능은 데이터의 양에 의해 모델의 성능이 좌우되기 때문에 양적 열세의 언어는 반영되기 어렵다. 이러한 문제의식에서 출발한 본교 연구팀은 외국인의 한국어 발화라는 희소 데이터의 한계를 ‘오류분석에 기반한 데이터 수집기법’으로 보완하고자 했다. 이를 위해 화자들의 모국어 음성 및 음운 체계를 비교 연구한 결과를 바탕으로 데이터 구축 전략을 수립했으며, 현재 영어·중국어·일본어·베트남어·태국어를 포함한 총 65개국어 화자들의 한국어 발화 데이터를 수집 중에 있다.
현재 대한민국에는 인구의 5%에 달하는 250만 명의 외국인이 체류하며 한국어를 사용하고 있으며, 또한 최근 <기생충>, <오징어게임>, BTS로 대표되는 한류의 세계적인 인기로 인해 한국어에 대한 관심이 폭발적으로 증가하고 있다. 이렇게 국내 체류 외국인과 한국어를 배우는 해외 외국인이 기하급수적으로 급증하고 있는 상황에서 최혜원 교수팀의 이번 연구는 점차 늘어나는 한국어 수요 충족에 일조할 것으로 기대된다는 점에서 의의가 있다. 특히, 미래 핵심기술로 손꼽히는 인공지능을 활용해 디지털 포용 사회와 한류의 세계화에 기여할 수 있는 인문학 기반 연구라는 점에서 주목받고 있다.
연말까지 완료 예정인 본 연구 결과물은 향후 외국인의 한국어 음성 인식률 개선 연구와 모델 개발에 기여함으로써 다문화가정주민, 외국인 근로자, 외국인 관광객이 각종 AI 음성지원 서비스를 보다 편리하게 이용하는 데 도움을 줄 것으로 기대된다. 더불어, 급증하는 한국어 학습자들의 효율적인 한국어 습득을 위한 학습 앱 개발을 비롯해 무궁무진한 가능성을 가지고 다양한 학습 도구에 유용하게 사용될 것으로 기대하고 있다.
한편 본 연구팀에는 인문과학대학 대학원생 연구원들 외에도 학부생들이 연구보조원으로 참여해 관련 분야 역량을 키우고 있다. 최혜원 교수는 “본 과제로 인해 인간 지능과 사고의 핵심인 언어를 전공한 인문학도들이 앞으로 인간적인 인공지능을 만드는데 더욱 큰 관심을 가지고 많이 참여하게 되는 계기가 되길 바란다”고 전했다.