수요일, 8월 13, 2008

[B급 프로그래머] 구글 번역 정확도를 높이려면?



HHGG를 보면 바벨피시라는 신기한 통역 도우미가 있어서, 귀에 넣기만 하면 어떤 외계인 언어도 척척 번역해줘서 히치하이커의 삶을 편하게 만들어준다. 여기에 영감을 얻은 알타비스타바벨 피쉬라는 서비스를 제공하고 있다. 그렇다면 검색의 최강자인 구글은 어떻게 번역 사업(?) 방향을 잡고 있을까?



최근 구글이 로제타 스톤 원리를 이용해서 2개 국어로 된 문서의 유사성을 분석하는 방법으로 번역 정확도를 높이려는 시도를 하고 있다는 소식을 접했다. 실제로 베타 꼬리표가 붙어 있는 구글 번역 사이트에 들어가서 FAQ를 보면 통계에 기반한 방식으로 번역한다고 밝히고 있다.



반면에 Google 시스템은 다른 접근방법을 선택했습니다. 즉, 컴퓨터에 1개의 대상 언어 텍스트와 다양한 언어에 대한 사람의 번역 사례로 구성된 텍스트를 조합하여 수백만 개의 단어 텍스트를 입력하는 방법을 사용합니다. 그 다음 통계에 근거한 학습 기술을 적용하여 번역 모델을 구축합니다. 이를 통해 연구 평가에서 매우 뛰어난 결과를 얻을 수 있었습니다.


우왕. 그럴싸한 이야기처럼 들린다(최소한 만우절 농담은 아니다. ㅋ). 하지만 이렇게 하려면 바로 인터넷 상에 놓인 로제타 스톤을 찾아야 한다는 심각한 문제점이 있다. 2개 국어로 번역된 문서가 많아야 통계적으로 의미있는 자료 처리가 가능하기 때문이다. 이런 사실을 아주 잘 알고 있는 구글은 영리하게도 집단 지성을 이용하려고 한다.



또한 품질을 개선하기 위해서는 수많은 2개 언어 텍스트 조합이 필요합니다. 2개 언어 또는 여러 언어로 된 텍스트를 제공해 주실 수 있는 분은 Google에 알려주시기 바랍니다.


그래서 갑자기 생각난 아이디어 하나! 영어판 IBM 디벨로퍼웍스한국어판 IBM 디벨로퍼웍스를 로제타 스톤으로 삼으면 어떨까 하는 생각을 잠시 해봤다. 영어판과 한국어판 atricle URL에 규칙이 있으므로(궁금하다면 직접 찾아보시라!), 경쟁사 자료를 자사 서비스 개선에 이용한다는 양심불량(?!)만 극복할 수 있다면 자동화해서 비교하기 딱 좋은 찬스가 아닐까 싶다. 물론 B급 프로그래머 번역 실력이 득이 될지 실이 될지는 아무도 모른다는 사실! 낄낄...



현재 거의 안습 수준인 번역 소프트웨어 품질은 뭔가 획기적인 돌파구를 마련하지 않는 이상 특수 분야에서만 사용이 가능하다. 구글이 시도하는 방법은 자원 봉사자(즉 번역가)의 도움을 많이 필요로 하는데, 과연 자기 밥줄을 끊어버릴 무시무시한 기술 개발 제안에 선뜻 손을 내미는 번역가가 얼마나 많을지 이게 참으로 궁금해진다.



EOB

댓글 3개:

  1. 친절한 의역과 주석까지 달아주시기 때문에 구글이 잘 구별을 못하지 않을까요.^^

    답글삭제
  2. 아예 구글코리아와 IBM dW가 공식적으로 협정을 맺는 것도 괜찮지 않을까요? 주석 등은 배제하고 원문과 번역문을 1:1로 매치한 좀 더 나은 입력을 넣을 수 있을테니까요.

    하지만... 다만 저만해도 의역을 많이하기 때문에 문장이 1:1이 아닌 경우가 다반사라서...

    답글삭제
  3. developerWorks에 올라가는 기사와 튜토리얼 문서는 모두 XML 형태로 된 파일이므로, 영어와 한글 원문만 구할 수 있다면 기계가 학습하도록 만드는 작업은 거의 환상적으로 쉽다고 볼 수 있습니다. HTML처럼 노이즈가 끼어들지 않는데다가 코드와 문단 구분이 100% 확실하기 때문입니다.

    물론 번역 자체가 얼마나 잘 되었는지가 더 중요하겠지만... ㅎㅎ

    - jrogue

    답글삭제