KoreaWho
KoreaWho
인사이트  백우진의 자유탐구

구글과 네이버 인공지능 번역과 놀면서 공부해 보니

백우진 smitten@naver.com 2017-12-04 18:21:19
확대 축소
공유하기
페이스북 공유하기 X 공유하기 네이버 공유하기 카카오톡 공유하기 유튜브 공유하기 url 공유하기 인쇄하기

인공지능 번역의 성능이 향상됐다. 일상 생활의 언어는 물론이요, 개념적 표현을 옮기는 정확도도 높아졌다. 

다음 영어 기사 문장을 구글로 번역해봤다. 
 
구글과 네이버 인공지능 번역과 놀면서 공부해 보니
▲ 백우진 글쓰기 강사·작가

[원문] South Korea’s credit default risk has gone south despite North Korea’s latest launch of a new long-range ballistic missile, market sources said Thursday.

[구글] 북한의 최신 장거리 탄도미사일 발사에도 불구하고 남한의 신용불량 위험은 사라졌다.

구글은 ‘하락했다’는 뜻인 ‘has gone south’를 ‘사라졌다’고 오역했다. 그러나 뜻은 통하게 번역했다. 이상하게도 원문 가운데 ‘market sources said Thursday’의 번역이 누락됐다. 이 문장만 따로 번역하게 하면 ‘시장 소식통은 목요일에 말했다’고 옮긴다.
 
네이버의 인공지능 번역 서비스인 파파고는 같은 문장을 이렇게 해석했다. 

[네이버] 한국의 최근 장거리 탄도미사일 발사가 북한의 신형 장거리 탄도미사일 발사에도 불구하고 한국의 신용부도 위험은 남쪽으로 가고 있다고 어제 시장 소식통이 말했다.

원문에는 밑줄 그은 부분이 없는데 왜인지 번역문에 들어갔다. 파파고도 문장의 일부만 떼어내 맡기면 아래와 같이 정확하게 번역한다. 

South Korea’s credit default risk has gone south
→ 한국의 신용부도 위험이 남쪽으로 기울었다.
despite North Korea’s latest launch of a new long-range ballistic missile
→ 북한의 신형 장거리 탄도미사일 발사에도 불구하고.
market sources said Thursday.
→ 시장 소식통은 목요일에 말했다.

◆ 과거와 비교하면 실력 획기적으로 향상

아직 부족한 부분은 있지만 컴퓨터의 번역 실력은 30년여 전과 비교하면 초등학생에서 고등학생 수준으로 향상됐다. 당시 컴퓨터는 ‘Time flies like an arrow’를 ‘시간 파리는 화살을 좋아해’라고 해석했고, ‘He is a boy’는 ‘헬륨은 소년이다’라고 옮겼다. 

과거 컴퓨터 번역은 통계기반 자동번역(SMT, Statistical Machine Translation) 방식이었다. 특정 단어의 여러 의미를 저장해놓은 뒤 사용자가 입력한 문장을 단어나 구 단위로 나누고 통계적으로 가장 유사한 의미를 찾아서 옮겼다. 이 방식은 단어가 문맥에서 달라지는 의미 차이를 잡아내지 못했다. 

요즘 인공지능 번역은 신경망 기반 자동번역(NMT, Neural Machine Translation) 방식이다. 인공지능 분야의 하나인 인공신경망을 번역 기술에 적용한 것이다. 인공신경망은 인간이 생각을 하는 최소 단위인 뉴런의 집합체(신경망)를 소프트웨어적으로 구현한다.

즉, 뇌와 유사한 구조의 소프트웨어를 만들어 이 소프트웨어에 번역 능력을 학습시키는 방식이다. 

◆ 위노그라드 스키마 챌린지도 언젠가는 넘을 듯

인공지능 번역이 앞으로 넘어야 할 단계가 있다. ‘위노그라드 스키마 챌린지’다. 이는 간단히 말해 문장 속의 대명사를 정확하게 번역하는지 확인하는 테스트다. 

‘위노그라드’라는 이름은 스탠퍼드 대학의 테리 위노그라드 컴퓨터 과학 교수에서 따왔고, 이 테스트는 토론토 대학 컴퓨터과학자 헥토 레베스크가 제안했다. 위노그라드 스키마 챌린지 문제의 제시문은 예를 들면 이렇다. 

[원문] The city councilmen refused the demonstrators a permit because they feared violence.

이 문장에서 they가 누구를 가리키는지, the city councilmen인지 아니면 the demonstrators인지 둘 중 하나를 택하는 게 문제다. they를 정확하게 번역하는지를 보고 인공지능 번역의 수준을 테스트하는 것이다. 

테스트 결과는 다음과 같다.

[구글] 시의회 의원들은 폭력을 두려워 시위자들에게 허가를 거부했다.
[네이버] 시의회 의원들은 시위자들이 폭력을 두려워했기 때문에 허가를 거부했다.

구글이 네이버보다 원문에 가깝게 번역했다. 

제시문의 내용을 다음과 같이 바꿔서 번역을 맡겨보자. 

[원문] The city councilmen refused the demonstrators a permit because they advocated violence.
[구글] 시의회 의원들은 폭력을 주장했기 때문에 시위자들에게 허가를 거부했다.
[네이버] 시의원들은 시위자들이 폭력을 주장했기 때문에 시위자들에게 허가를 내주지 않았다.

이번에는 네이버의 번역이 원문에 가깝다. 

미국의 소프트웨어회사 뉘앙스 커뮤니케이션은 2014년에 상금 2만5천 달러를 걸고 매년 위노그라드 스키마 챌린지를 개최한다고 발표했다. 시상하는 기준은 시스템이 인간 수준의 성적을 내는 것이라고 정했다. 위노그라드 스키마 챌린지를 통과한 인공지능은 아직 나오지 않았다. 

언젠가는 인공지능 번역이 대학생 단계를 넘어 대학원생 수준으로 될 것으로 기대한다. 그렇게 되면 위노그라드 스키마 챌린지는 인공지능에게 ‘식은 죽 먹기(a piece of cake)’가 될 것이다. 

가만, a piece of cake를 우리말로 옮기라고 해볼까? 

구글은  ‘케이크 한 조각’이란다. 네이버는 ‘식은죽 먹기예요’라고 제대로 번역한다.
 
백우진은 글쓰기 강사로 활동한다. 책 『백우진의 글쓰기 도구상자』, 『글은 논리다』를 썼다. 호기심이 많다. 사물과 현상을 관련지어 궁리하곤 한다. 책읽기를 좋아한다. 글을 많이 쓴다. 경제·금융 분야 책 『그때 알았으면 좋았을 주식투자법』, 『안티이코노믹스』, 『한국경제실패학』을 썼다. 마라톤을 즐기고 책 『나는 달린다, 맨발로』를 써냈다.

최신기사

국수본 특별수사단 대통령실 압수수색 불발, 일부 자료만 임의제출로 확보
국수본·공수처·국방부 공조수사본부 출범, "중복수사 혼선과 비효율 해소"
대한항공 아시아나항공 인수 마무리, 2026년까지 자회사로 운영 뒤 통합
삼성전자 노조 윤석열 탄핵 집회에 동참, "민주주의 위해 끝까지 맞설 것"
태영건설 137억 규모 유상증자 추진, 출자전환 통한 재무구조 개선 목적
국내 3대 신용평가사, LGCNS 신용등급 전망 'AA- 긍정적' 상향 조정
현대차그룹 유럽 4위 '위태', 토요타 하이브리드 약진에 소형 전기차로 맞불
윤석열 내란 혐의로 대통령실 7년 만에 압수수색, 경호처 거부로 차질 빚어
[오늘의 주목주] '경영권 다툼 소강국면' 고려아연 8%대 내려, 신성델타테크 18% 급등
한덕수 "12·3 계엄 선포 전 정상적 국무회의 운영되지는 않았다"
koreawho

댓글 (0)

  • - 200자까지 쓰실 수 있습니다. (현재 0 byte / 최대 400byte)
  • - 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 댓글은 관련 법률에 의해 제재를 받을 수 있습니다.
  • - 타인에게 불쾌감을 주는 욕설 등 비하하는 단어가 내용에 포함되거나 인신공격성 글은 관리자의 판단에 의해 삭제 합니다.