인식할 수 있는 단어 수 10~80만개, 한국어 음성 인식률 90%(249개 문장 중 224개), 한영 번역률 82.5%에 달하는 토종 자동통번역 애플리케이션(앱)이 있다. 2018 평창동계올림픽 자동통번역 소프트웨어 공식 서포터로 지정된 한컴인터프리의 ‘말랑말랑 지니톡(Genie Talk)’(이하 지니톡)이다.
- ▲ 판교 한컴타워 1층 한컴인터프리 사무실에서 만난 신소우 한컴인터프리 대표. 지니톡을 설명하고 있다./이다비 기자
신 대표는 인터뷰 내내 지니톡 원리를 칠판에 적어가며 열정적으로 설명했다. 그는 “다른 건 몰라도 한국어 중심으로 영어·중국어·일어 등 외국어를 번역하는 건 세계 최고라고 자부할 수 있다”고 단호히 말했다.
그는 “지니톡이 ‘구글 번역기’처럼 단순히 영어 텍스트를 한글로, 한글 텍스트를 영어로 바꿔주는 것에 그친다고 생각하면 큰 오산이다”라고 말했다. 지니톡은 보이고 들리는 모든 문자를 통번역 한다. 앱을 가까이 대고 한국어나 영어를 말하면, 말소리를 따라 앱 화면에 텍스트가 입력·번역된다(STT·Speech to text). 번역한 문장은 음성합성 기술을 이용해 음성으로 읽어주기도 한다.
일반 테스트와 사진 속 글자도 번역한다. 현재 한영, 한일, 한중 외에도 스페인어와 프랑스어를 제공하고 있다. 17년 말까지 러시아어, 독일어, 아랍어를 개발해 서비스할 예정이다. 지니톡은 여행·관광 분야 통역 인식률이 85%로, 구글 등 해외 통역 기술보다 정확도가 10% 정도 앞선다.
◆ 한국어를 중심으로 놓는 지니톡, 한국어 맥락에 맞게 번역
지니톡은 한국어를 중심에 놓고 외국어를 번역하는 한국어 중심 번역에 최적화 돼 있다. 구글은 영어 중심이라 언어 체계가 다른 영어→한국어 번역이 어색한 게 많다. 지니톡은 한국어→영어, 영어→한국어를 한국 문화에 맞는 의미로 전달할 수 있다.
한국어를 중심으로 두는 지니톡은 한국어 표현에 자주 등장하는 말을 매끄럽게 번역한다. 가령 ‘배고파 죽겠다’를 지니톡에 입력하면 굶어서 배고프다는 표현의 ‘아임 스탈빙’(I’m Starving)이 나타나지만, 구글에서는 문법에 맞지 않는 ‘헝그리 다이’(Hungry die)가 표시된다. 중의적인 표현인 ‘밤을 먹었다’도 지니톡에서는 먹는 밤인 ‘체스트넛’(Chestnuts)으로, 구글에서는 ‘나이트’(Night)로 번역됐다.
- ▲ ’배고파 죽겠다’를 지니톡과 구글번역 앱에 각각 입력한 모습./앱 화면 캡처
RBMT는 수많은 언어 규칙과 언어 사전을 기반으로 번역하는 방식이다. 쉽게 설명해, RBMT는 언어학자가 영어 단어와 문법이 집대성된 교과서를 모두 입력한 번역기다. 모든 문법이 프로그램에 입력돼 정확성은 높아지지만, 그만큼 시간이 오래 걸린다. 전문 번역회사가 주로 사용한다.
SMT는 구글이 사용하는 방식으로, 많은 사람이 번역한 대규모 언어 데이터베이스(DB)를 기반으로 번역해내는 방식이다. 많은 DB가 구축되면 번역의 정확도가 높아지지만, 사용빈도가 낮은 언어 패턴에서는 정확도가 떨어진다. 지니톡 하이브리드 엔진은 RMBT와 SMT의 장점을 결합했다.
신 대표는 이를 두고 “영어 문법 전공자가 외국에서도 유학해 자연스러운 영어를 익힌 것”이라고 묘사했다.
이 두 엔진을 결합한 지니톡 하이브리드 엔진에는 ‘결정(decison)’ 알고리즘이 있다. 어떤 문장을 입력했을 때, RMBT와 SMT가 각각 번역본을 내놓고 지금까지 축적한 DB와 사용자 이용 경험을 고려해 어느 것이 더 정확한지 확률을 낸다.
만약 ‘사촌이 땅을 사면 배가 아프다’를 지니톡에 입력하면 지니톡은 질투와 관련된 영어 속담(Turning green with envy)과 복통(stomachache) 중에 어떤 게 더 매끄러운 표현인지 확률을 비교해 더 높은 확률이 나온 번역 결과를 을 사용자에게 띄워주게 된다.
◆ 지니톡에 탑재된 머신러닝으로 “스스로 문법 학습”
지니톡 번역 엔진에는 하이브리드 엔진과 함께 문법을 학습하는 인공지능인 ‘지식학습기반 기계번역방식’(이하 지식기반 기계번역)도 적용됐다. 지식기반 기계번역은 ETRI가 만든 번역 방식으로, 기존 RMBT 번역 기술을 한층 더 개선한 것이다.
지식기반 기계번역을 이용하면 기계번역 규칙을 개발할 때, 언어학자의 작업부분인 형태소와 구문 분석을 기계학습(머신러닝)으로 대체할 수 있다. 이 방식으로 지속적인 언어 지식(DB) 업그레이드를 단축된 시간 안에 할 수 있다.
사용자가 지니톡을 이용해 나온 번역 결과물은 지니톡 DB에 저장된다. 이후 지니톡에 있는 지식기반 기계번역은 DB에 있는 문법을 스스로 학습하게 된다.
- ▲ 지난 7월 15일 제주시 롯데시티호텔에서 열린 한글과컴퓨터 미래전략발표회에서 한글과컴퓨터 관계자가 지니톡을 소개하고 있다./연합뉴스 제공
신 대표는 번역 부문에선 인공지능의 머신러닝이 빈번하게 사용됐지만 그동안 오류를 바로잡는 인공지능은 거의 없었다고 말했다. 그는 “구글의 SMT 방식도 크게 보면 인공지능 머신러닝의 한 종류지만 SMT는 기계가 학습한 내용의 정확성을 담보하지 않는다”면서 “이와 달리 지식기반 기계번역은 스스로 DB를 배움과 동시에 오류가 저장된 DB에 들어가 오류를 분석해 고치는 법을 익히게 된다”고 설명했다.
지니톡은 이달 내 앱에서 번역 결과를 평가하는 ‘번역 품질 평가’ 버튼을 업데이트해 사용자로부터 잘못 번역된 문장들을 데이터베이스화해 놓을 예정이다.
◆ 음성 인식이 통번역의 출발...끝점 검출 기법 동원
신 대표는 지니톡 자동통번역 서비스 개발 중 가장 중점을 뒀던 기술로 음성인식 기술을 꼽았다. 그는 “음성인식에서 오류가 난다면 음성을 받아 적는 텍스트도 오류가 나게 돼, 결국 번역이 매끄럽지 못하게 된다”고 그 이유를 설명했다. ‘컵이 더럽습니다’고 말해도 앱이 ‘커피 더럽습니다’로 인식하면 한마디로 ‘말짱 도루묵’이 되기 때문이다.
음성인식 기술은 사람 음성 표본 모델인 ‘랭귀지 모델’을 수천, 수만 가지 입력하고 분석해 완성된다. 지니톡은 매일매일 음성 표본 인식을 높이는 작업을 하고 있다. 이 과정에서 표준어와 함께 사투리도 입력해, 사투리를 구사하는 사람도 음성인식과 통번역에 지장이 없도록 만들고 있다.
신 대표는 음성인식 기술이 어려운 이유는 잡음 때문이라고 설명했다. 실제 카페나 거리 등 개방된 장소에서 지니톡을 이용하다 보면, 잡음이나 노랫소리, 차 소리, 사람 목소리가 섞여 들어간다. 이때 지니톡이 잡음을 사용자의 목소리라고 인식하면 ‘끝점 검출’이 잘 안돼 말소리가 텍스트로 원활히 옮겨지지 않는다. 끝점 검출이란 말하는 이가 말을 끝냈을 때, 어느 지점이 말소리의 끝인지를 잡아내 문장의 끝을 인식하는 기술이다.
- ▲ 지니톡은 ‘좀’과 같은 비정형 언어와, ‘얼큰하다’와 같은 한국어 단어 매끄럽게 번역한다./지니톡 캡처
지니톡은 특정 의미가 정해져 있지 않은 비정형 언어에도 집중하고 있다. 구어체 음성인식이 어려운 이유는 대화에 ‘음’, ‘아 참’, ‘그러니까’ 등 구체적인 뜻을 내포하진 않는 언어가 많이 사용되기 때문이다. 이런 비정형 언어는 문법에 맞지 않는 경우가 많아 음성인식 통번역에 걸림돌로 작용한다.
신 대표는 “타 번역기에서는 비정형 언어를 번역하지 못하는 경우가 대다수다. 그에 비해 지니톡은 어느 정도 번역하고 있다”고 말했다. 실제 지니톡에서 ‘아 참’, ‘음’ 등은 ‘오’(Oh), ‘음’(Well)으로 번역이 되고 있다.
◆ “지니톡, 해외 가는 한국인과 한국 오는 외국인의 필수품으로 키울 것”
지니톡은 현재 일상생활 관련 대화는 90% 정도 인식한다. 지니톡이 당초 일상생활·관광용 앱으로 개발됐기 때문이다. 그러나 지니톡은 2018 평창동계올림픽까지 스포츠·의료 관련 대화 영역도 전문적으로 제공할 예정이다.
신 대표는 “아직 스포츠·의료 관련해서 부족한 부분이 있지만, 동계올림픽 서포터로 지정된 만큼 기한 안에 올림픽 참가자들이 무리 없이 지니톡을 이용할 정도로 만들겠다”고 말했다.
신 대표는 지니톡을 단순 통번역 앱이 아닌 의사소통의 도구로 보고 있다. 지니톡이 ‘외국을 나가는 한국인들과 한국에 들어오는 외국인들의 필수품’으로 자리매김하기 위함이다.
한컴인터프리는 네트워크가 연결되지 않은 곳에서도 지니톡을 이용할 수 있도록 올 4분기에 지니톡과 연결하는 보조장치도 내놓을 계획이다. 번역 DB를 담은 USB와 음성 인식·번역 엔진을 집어넣은 포켓 와이파이 형 제품을 검토하고 있다.
'CEO& 리더십 > 영 중 일' 카테고리의 다른 글
1000문장으로 영어를 정복하다-최재욱 [1/2] (0) | 2017.02.14 |
---|---|
대한민국 1% 영재들이 공부하는 방법! [VJ 특공대] 845회 2017.. (0) | 2017.02.11 |
네이버, 중국어 번역도 ‘인공신경망’ 적용 (0) | 2016.12.18 |
중국어 단어장 네이버 (0) | 2016.10.07 |
아주 기초적이고 실생활에 쓸모가 많은 영어표현 100개 모음 (0) | 2016.09.19 |
전교200등을 전교2등으로 만들어준 말하며 공부하기 (0) | 2016.08.03 |
전교1등으로 만들어준 전과목 10회독 학습법 (0) | 2016.08.03 |
공부의 달인 #05 영어, 느껴라 그리고 말하라 배양진 (0) | 2016.08.03 |
영어 잘하는 방법(영어단어 그냥 외우지마라/공부 방법) (책: 영어탈피) (0) | 2016.07.19 |
세종대왕과 조선시대의 외국어(중국어) 학습법 (0) | 2016.05.15 |