에스페란토 언어로 앵무새를 의미하는 파파고(Papago) 번역 솔루션으로 네이버가 구글번역에 도전장을 던진지 1년이 지났습니다. 지난 8월 8일이 파파고가 선보인지 1주년 이였기 때문입니다.
그렇다면 대표적인 번역서비스인 구글번역과 파파고를 비교해 보면 어떨까요?
먼저 기술적인 내용을 먼저 소개해드리면 번역 기술에는 크게 2가지 방식으로 구분 됩니다. SMT (Statistical Machine Translation) 방식과 NMT (Neural Machine Translation) 방식입니다.
SMT는 통계적모델 기반 번역 이라고 하며 NMT는 인공 신경망 기계번역입니다. 간단하게 기술적인 차이를 설명하자면 NMT는 입력문장의 일부인 단어,구를 번역한후 어순등을 재조합하여 번역 결과를 보여주는 SMT와는 다르게 문장전체의 정보를 한번에 분석하는 개념이라고 하겠습니다.
구글번역의 경우 SMT 방식으로 서비스를 진행했지만 2016년 11월 15일 부터 차세대 번역 기술이라고 할수 있는 NMT 방식으로 변경했습니다.
엉터리번역으로 신뢰할수 없는 수준이라는 평가를 받던 구글 번역이 최근 단문을 중심으로 높은 수준의 번역결과를 내놓을수 있는 이유라고 하겠씁니다.
그리고 향후 이러한 번역결과의 퀄리티는 더욱 향상될 것입니다. 스스로 학습하는 딥러닝 기술을 통해서 시간이 지날수록 더욱 성장하기 때문입니다.
네이버 파파고는 시작부터 NMT 방식으로 선보였습니다. 즉 네이버 파파고와 구글 번역 모두 차세대 번역기술이라고 할수 있는 NMT 방식인 것입니다.
파파고 NMT vs 구글번역 NMT 의 번역 비교테스트
다음 사전에서 상기 예문을 찾아서 파파고와 구글번역에서 각각 번역 작업을 진행해 보았습니다. 영문을 한국어로 번역하는 테스트입니다.
구글 번역의 경우 큰 문제 없는 번역 결과를 보여주었습니다.
하지만 파파고의 경우 “인테리어 디자이너”를 “내부 디자이너”로 번역했습니다. interior라는 단어를 번역하면 파파고와 구글번역 모두 “내부”로 번역했고 interior designers 를 번역하면 역시 모두 “인테리어 디자이너” 로 번역했습니다.
하지만 파파고의 경우 문장안에 들어간 “interior designers” 에 대해서 “내부디자이너”로 구글은 “인테리어 디자이너”로 번역한 것입니다.
아직 파파고의 NMT 기술은 학습이 조금더 필요한 상황이라고 할수 있습니다.
또한 파파고의 번역기를 로딩하면 기본 상태가 자동으로 언어감지를 하도록 되어 있습니다. “interior” 라는 단어를 입력하면 스페인어로 감지합니다.
그리고 “내륙의” 라는 형용사로 번역 합니다. 실제로 스페인어 단어에 해당 단어가 있기 때문에 틀린 것은 아니지만 영어에서의 “interior” 번역 시도가 훨씬 더 많다는 점에서 역시 학습이 좀 더 필요하다는 점을 알수가 있습니다.
같은 NMT 기반 기술인데 파파고가 열세인 이유는?
2016년 8월 8월 출발한 네이버 파파고 와 2016년 11월 15일 출발한(NMT로 업그레이드한) 구글 번역이 거의 비슷한 출발을 했는데 왜 네이버 파파고가 학습이 부족할까요?
아주 간단한 테스트 이기 때문에 학습이 부족하다는 가정은 개인적인 판단 정도로 이해하시면 되겠습니다. 그리고 파파고의 학습이 부족하다는 가정에 대한 이유를 생각해 보았습니다.
설계 기술도 중요하겠지만 학습데이터가 많으면 많을수록 번역 성능은 더 좋아진다고 할수 있습니다. 네이버 파파고는 학습데이터가 부족하고 또 하드웨어적인 물량투입(비용투자)면에서 구글번역과 비교하여 적기 때문이라고 판단됩니다.
네이버가 엄청 큰 인터넷기업이기는 하지만 구글과 비교한다면 작은 기업이기 때문입니다. 양사의 규모차이는 이전글인 52조 매출 거대 공룡 구글과 싸우는 국내인터넷기업들 을 참조해보시면 되겠습니다.
네이버 파파고의 경쟁전략은 ?
그렇다면 네이버 파파고는 어떤점을 공략하고 있을 까요? 파파고 경쟁 전략은 파파고 공식블로그에서 힌트를 얻을 수 있습니다. “[유행어] 파파고 요즘 번역기 #7” 라는 포스트를 보면 “단짠” (달고 짠맛의 줄임말) 이라는 단어를 파파고가 “Sweet and salty”로 정확하게 번역한다는 내용이 등록되어 있습니다.
네이버 내부에서 쌓인 최근 유행어,약어등 한국에서만 특화된 내용들에 대한 번역서비스를 강화한다는 의미입니다.
정리하면 비교적 최신 트렌드 나 여행등 일반적으로 사용빈도가 높은 분야에서 집중하여 사용자층을 확보하겠다는 전략으로 판단됩니다.
하지만 글로벌 시장에서도 이러한 전략이 통할지는 미지수라고 하겠습니다. 한국시장에서만 네이버가 많은 데이터를 확보하고 있을 뿐 한국을 제외한 나머지국가에서는 거의 대부분 구글이 장악하고 있기 때문입니다.