2008년 02월 03일
[마소 2007년 12월] 더 넓은 웹으로 번역의 세계
박지강 (jkwave@gmail.com) 개발 및 번역 프리랜서로 활동해왔으며 현재 SK 커뮤니케이션즈에서 근무 중이다. 역서로는 "프로젝트 데드라인"(한빛미디어)이 있으며, 최근 "당신은 웹 2.0 개발자입니까?"(한빛미디어)를 집필하였다..기술을 이용한 기획과 전략, 열린 전략적 제휴, 일인 기업에 관심이 많으며, 현재 목표는 스스로 기획하고 개발하고 디자인한 서비스를 대중들에게 공개하는 것이다.
사용자의 참여를 통한 컨텐츠 생산의 폭발력은 이미 웹 2.0을 통해 확실히 입증되었다. 하지만 언어적 제한으로 인해 컨텐츠 생산자와 소비자는 한글을 사용할 줄 아는 국내의 사용자로 제한되어있고, 이는 컨텐츠 생산력을 비약적으로 증가시킬 수 없는 시장적 요인이기도 하다. 국내 시장의 파이가 작다면 공략해야 할 곳은 바로 세계이다. 만약 전 세계의 사용자들이 컨텐츠 생산자와 소비자가 될 수 있다면 어떨까? 아마도 웹의 컨텐츠 생산력은 아마도 비약적으로 증가할 것이다.
웹 2.0은 기존의 비즈니스와 다를 것이 없다. 국내 기업들이 적은 인구수라는 제한된 시장적 상황을 극복하기 위해 해외로 진출하듯이 웹 2.0 역시 세계화를 시도하여 또 다른 레벨의 컨텐츠 생산력을 얻을 수 있다. 만약 세계의 모든 사람들이 자유롭게 인터넷에서 커뮤니케이션할 수 있는 기반이 마련된다면 웹 2.0이 가지고 있는 비즈니스 모델은 더욱 힘을 얻게 된다. 그것이 바로 일상에서 작은 부분을 차지하고 있는 “번역”이라는 행위가 텍스트 기반의 웹에서는 곧 “세계와의 의사소통”이라는 큰 의미로 다가오는 이유이다. 지금부터 번역의 시장적 가치와 웹에 미치는 영향을 간단히 살펴보자.
기계 번역(Machine Translation)
기계 번역은 인간이 사용하는 언어를 컴퓨터를 사용하여 다른 언어로 번역하는 일을 말한다. Machine Translation의 줄임말로 MT라고 부르기도 한다. 기계 번역은 기본적으로 특정 언어를 다른 언어로 바꾸는 일을 단어 단위로 수행한다. 그러므로 다양한 뜻을 지니는 단어나 어순을 정확히 지키지 않는 문장 등 여러 가지 언어적 특성으로 인해 그 효력을 유연성 있게 발휘하기가 힘들다. 하지만 번역에 필요한 인공지능은 시간이 지남에 따라 지속적으로 발전하고 있으며, 그로인해 기계 번역의 성능도 점점 더 높아지고 있다. 게다가 웹의 보급으로 인해 기계 번역의 경직성도 보완되고 있다. 예를 들어 웹에서 특정 문장의 틀린 번역 결과를 보고 사용자가 바로 잡아주거나 방대한 언어 데이터를 수집해 번역 결과를 반영하는 등 사용자의 참여를 통해 번역의 질을 높이려는 구체적인 노력이 시행되고 있다. 다음은 기계 번역을 수행하는 대표적인 인터넷 번역기들이다.
♦ 윈도우 라이브 번역기(http://translator.live.com) : 윈도우 라이브는 서비스의 일부분으로 번역기를 제공하고 있다. 이 번역기 역시 시스트랜의 번역 기술을 통해 서비스되고 있다.
♦ 구글 번역(http://translate.google.com) : 구글은 번역의 질을 높이기 위해서 계속 사용해오던 시스트랜의 번역 기술을 자사가 개발한 통계 기반 번역 기술로 교체했다. 이 통계 기반 번역 기술은 방대한 언어 데이터와 구글의 거대한 계산 능력을 바탕으로 한다.
위의 번역기들은 모두 한국어->영어, 영어-> 한국어를 지원한다. 물론 기계 번역의 질은 여전히 완성도가 낮다. 하지만 그럼에도 불구하고 포털들은 자사의 번역 기술을 서비스 곳곳에 심고 있다. 물론 자신들이 가진 데이터를 다양한 국적의 사람들에게 보여주고, 또한 다양한 언어의 번역 결과를 통계학적 데이터로 활용하기 위함이다. 사용자의 참여를 통해 번역의 질은 점점 높아질 것이다. 포털들은 기계 번역 기술을 다음과 같이 활용하고 있다.

마이크로소프트는 자사의 번역기를 블로그나 기타 웹 페이지에 붙일 수 있는 위젯을 배포하고 있다. 위에 나온 스크립트 태그 한 줄만 사이트에 추가하면 그 자리에 아래와 같은 번역 버튼이 생기고 그 버튼을 누르면 해당 페이지의 번역 결과를 확인할 수 있다. 좀 더 자세한 정보가 궁금하다면 http://translator.live.com을 방문하기 바란다. 
구글은 검색 결과 페이지에 “이 페이지 번역하기 BETA"라는 링크를 함께 보여주고 있다. 이 링크를 누르면 해당 페이지가 번역된 팝업이 뜬다. 이와 같이 중요한 검색 결과 공간에 미완성의 번역 기능을 추가한 것만 봐도 자신이 가진 데이터를 세계의 모든 사람에게 보여주고자 하는 구글의 의지를 엿볼 수 있다.
기계 번역의 역사는 오래되었지만 오랜 침묵을 깨는 극적인 변화와 혁명은 아직 일어나지 않았다. 그러나 포털과 검색 사이트는 자신이 가진 데이터를 좀 더 널리 알리기 위한 장치 중 하나로 번역을 선택하려는 움직임을 보이고 있다. 웹을 통한 사용자 참여형 기계 번역은 느리지만 강하게 진화하고 있다.
번역 지원(Computer Assisted Translation) 소프트웨어
일반 사람들은 번역 소프트웨어하면 기계가 전문을 자동으로 번역하는 툴을 떠올릴지도 모르겠다. 하지만 세상에는 말도 안되는 번역 결과를 자동으로 만들어주는 소프트웨어만 있는 것은 아니다. 소프트웨어를 이용한 번역은 크게 두 종류로 나눌 수 있다. MT(Machine Translation)라고 불리는 기계 번역과 CAT(Computer Assisted Translation)이라 불리는 컴퓨터를 이용한 번역 지원이다. 앞서 설명했듯이 기계 번역만으로는 사용자가 100%신뢰할 만한 결과물을 얻을 수 없다. 하지만 사람이 번역할 때 기계 번역의 도움을 받는 다면 좀 더 빠른 속도의 작업이 가능할 것이다. 그리고 기계를 사용한 번역 결과물도 사람이 수시로 모니터링하며 수정할 수 있기 때문에 번역의 질도 높아질 것이다. 이처럼 번역 지원 소프트웨어는 기계의 도움을 받아 사람이 번역하는 번역 소프트웨어를 말한다.
번역 지원 소프트웨어는 사람이 하는 번역을 실시간으로 돕기 위해 TM(Translation Memory)라고 불리는 번역 메모리를 사용한다. 번역 메모리란 원문과 번역문이 한 쌍인 텍스트 단위로 구성된 데이터베이스이다. 텍스트 단위는 블록이 될 수 있으며, 구나 절 또는 문장 등 사용자가 지정한 단위가 될 수도 있다. 번역을 자주 하는 사람이라면 번역 작업 중에 이전에 번역한 문서의 문장을 찾아보거나 현재 작업 중인 문서에서 자주 반복되는 문장을 번역하기 위해 기억을 되살리려 노력한 적이 많은 것이다. 이처럼 예전의 번역 결과물을 세부 단위로 저장하여 필요할 때 다시 꺼내어 재활용하는 것이 번역 메모리의 컨셉이다. 번역 메모리를 활용한 번역은 다음과 같은 장점을 가지고 있다.
♦ 공용 정의나, 구절, 단어를 번역 메모리에 저장하여 재활용하기 때문에 변역물의 내용이 일관성이 있다. 이런 특징은 기억력에 의존해 혼자 번역을 할 때도 도움이 되지만, 한 프로젝트에 여러 명의 번역자가 관여할 때 많은 도움이 된다.
♦ 이미 한번 번역한 구절을 번역 메모리에 저장하기 때문에 반복적 어구가 많은 문서에서 번역 속도가 더욱 빨라진다.
♦ 번역 메모리를 활용해 워드나 PDF, HTML 등 다양한 포맷의 문서로 번역 작업을 수행할 수 있다.
♦ 다양한 용어 사전을 활용해 특정 전문 분야에 대한 용어 해석을 유연히 처리할 수 있다.
♦ 번역된 문서를 이미 다수 가지고 있을 경우 이 문서로부터 문장을 추출해 번역 메모리에 입력할 수 있다. 즉 다른 사람의 경험도 번역에 반영할 수 있다.
♦ 이미 입력된 번역 메모리를 수정하거나 삭제하여 전체적인 번역의 질을 일괄적으로 높일 수 있다.
이와 같은 번역 메모리의 장점은 반복 어휘나 전문 용어가 많은 기술 문서 번역을 통해 충분히 느낄 수 있다. 특히 매뉴얼이나 소프트웨어의 로컬라이제이션(Localization)에도 큰 힘을 발휘할 것이다. 예를 들어 버전 1.0인 소프트웨어의 매뉴얼의 번역 작업을 번역 메모리에 입력했다고 가정해보자. 버전이 2.0인 소프트웨어의 매뉴얼을 번역 지원 소프트웨어로 번역할 때 훨씬 빠른 작업이 가능할 것이다. 중복되는 단어나 어휘들이 상당부분을 차지하기 때문이다. 또한 거대한 양의 번역 프로젝트를 공동 작업할 때 하나의 번역 메모리를 공유하면 정확하고 빠른 협업이 가능할 것이다. 이처럼 기계를 이용한 번역의 완성도를 높여주는 번역 지원 소프트웨어 시장은 이미 산업에 크게 형성되어 있고, 매년 성장을 하는 추세이다. 전 세계에서 가장 많이 사용되고 있는 번역 지원 소프트웨어인 트라도스(Trados)와 같은 경우는 국내의 번역 전문 회사에서 대부분 사용하고 있고, 프리랜서에게 외주를 줄때도 이 툴을 사용해줄 것을 요구한다고 한다. 하지만 이와 같은 고가의 상용 소프트웨어 외에도 누구나 사용할 수 있는 프리웨어들이 존재한다. 상용에 비해 기능이 풍부하진 않겠지만 소프트웨어를 활용한 번역에 관심을 가진 독자들은 한번 시도해 보길 바란다.
♦ 오픈 소스 소프트웨어
- OmegaT : 언어 제한이 없는 자바 기반의 번역 지원 소프트웨어로 MS 오피스 2007 포맷과 오픈 오피스(Open Office) 포맷을 바로 지원한다. (주소 : http://www.omegat.org)

- Open Language Tools : OmegaT와 같이 언어 제한이 없는 자바 기반의 번역 지원 소프트웨어이다.
(주소 : https://open-language-tools.dev.java.net)
- Transolution : Python기반의 번역 지원 소프트웨어이다.
(주소 : http://sourceforge.net/project/showfiles.php?group_id=132322)
♦ 프리웨어
- AidTrans Studio Basic : 윈도우 기반의 번역 지원 소프트웨어이다. 기능에 제한을 둔 무료 버전을 배포하고 있다.
(주소: http://www.aidtranssoft.com)
- Appletrans : 맥 기반의 번역 지원 소프트웨어이다. 한글 단어집도 제공하고 있다.
(주소 : http://developer.apple.com/internationalization/localization/tools.html)
- MemoQ 4Free : 윈도우 기반의 번역 지원 소프트웨어이다. 무료 버전을 배포하고 있지만 아직 한국->영어 번역은 지원하지 않는다.
(주소 :http://www.kilgray.com/kilgray/products/memoq/try?locale=en)
- MetaTexis for Word Lite : 마이크로소프트의 워드를 기반으로 하는 번역 지원 소프트웨어이다.
(주소 : http://www.metatexis.com)
검색 엔진을 활용한 통계 번역
구글의 수석 부사장인 앨런 유스태스(Alan Eustace)는 대전 한국정보통신대학교(ICU)에서 열린 “정보통신기술(ICT) 교육을 위한 세계 대학 총장포럼(IFUP-ICT 2006)”에서 “세계 정보의 체계화(Organizing the world’s information)”라는 주제로 기조연설에 나섰다. 유스태스 부사장은 “전 세계 정보를 누구나 사용할 수 있게 만든다”라는 구글의 목표를 구체적으로 실현하기 위한 방법으로 번역 기술의 중요성을 재차 강조하였다. 구글은 현재 전문 연구 기관들과 함께 번역 서비스 구현에 매진하고 있으며, “웹 데이터 통계 비법”을 통한 문서 번역 기술을 개발하고 있다고 한다. 그는 아랍어-영어 번역의 경우 48.5%정도의 번역 정확도에 불과했지만 구글이 인덱싱한 웹 페이지 정보가 늘어남에 따라 정확도가 53%까지 증가했다고 주장했다. 시간이 흐름에 따라 웹 페이지 정보는 늘어나고 그에 따라 번역 품질이 높아지는 결과를 낳게 되는 것이다.
이러한 주장은 필자에게 매우 흥미롭게 다가왔다. 필자는 예전에 원서를 번역하여 책을 내는 역자로 활동한 경험이 있고, 한글을 영작하는 일도 잠시 한 적이 있다. 그때마다 가장 큰 도움을 준 것은 사전이 아닌 검색 엔진이었다. 원서를 번역하다 보면 사전에 나와 있지 않은 속어나 속담, 전문 용어, 신조어 등 다양한 영어 관용구와 마주치게 된다. 그때마다 필자는 영문 관용구를 따옴표로 감싼 채 구글에 검색어로 입력하여 한글 페이지 검색을 실행하였다.(따옴표로 감싼 문장은 문장을 구성한 단어가 아닌 정확히 그 문장을 포함한 웹 페이지만 찾게 만든다.) 그리고 검색 결과에서 영문 관용구와 함께 한글 해석이 담긴 웹 페이지를 찾을 수 있었다. 검색 대상을 한글 페이지로 제한하였기 때문에 가능한 일이다. 또한 영작 시에는 동사나 전치사를 어떻게 구사해야 하는지 많은 고민을 하게 된다. 영어는 비슷한 뜻을 가진 여러 단어가 존재하지만 경우에 따라서 사용해야 하는 단어가 관습적으로 구분되어 있기 때문에 영어권 문화를 모른 채 영작을 하다가는 봉변을 당할 수가 있다. 이런 경우에 비슷한 단어로 구성한 여러 후보 문장들을 역시 따옴표로 감싼 채 구글에 검색어로 입력해보자. 그 중 가장 높은 숫자의 검색 결과를 가진 문장을 선택하면 옳은 영작을 한 것이다. 왜냐하면 사람들이 가장 많이 사용하는 문장이 문법적으로 옳은 문장일 확률이 가장 높기 때문이다.
<그림4> 구글을 이용한 영작의 한 예

<그림5> 구글을 이용한 번역의 한 예
언어의 장벽을 넘어 더 넓은 웹으로
지난 연말 뉴욕타임즈는 EU가 회원국들을 위해 협정과 조약을 번역하는 데만 1조억원을 넘게 사용한 사실을 기사화했다. 정말 어마어마한 비용이 아닌가! 더군다나 매 해마다 그 비용이 증가하고 있다고 한다. 물론 번역은 단지 EU만의 문제만은 아니다. FTA를 보면 알 수 있듯이 세계화를 통해 국제 관계의 개방은 점점 가속화되고 있으며, 우리의 실생활이나 생업에도 많은 영향을 미치고 있다. 이처럼 세계화 시대에 글로벌 커뮤니케이션의 가치는 아무리 강조해도 지나침이 없다. 웹을 들여다보면 그 중요성은 더욱 커진다. 웹에 존재하는 한국어 정보는 전 세계의 웹 정보량의 수 퍼센트에 불가하다. 즉 전체 정보의 90% 이상을 활용하지 못하고 있다는 말이다. 비약적이지만 웹은 곧 데이터라는 가정을 할 때 우리는 웹을 겨우 수 퍼센트만 이용하고 있는 격이다. 하지만 그 말을 거꾸로 뒤집어보면, 우리나라와 같이 세계적 범용어인 영어를 사용하지 않고 고유 언어를 사용하는 소수 국가는 언어의 장벽을 허물었을 때의 효과가 어마어마해진다는 뜻도 된다.
사용자의 참여를 기반으로 하는 웹은 폭발적인 성장세를 지속해 오고 있다. 유투브와 같은 UCC 동영상 서비스가 급격히 성장할 수 있는 이유는 바로 동영상 플레이어의 글로벌함이다. 플레이 버튼과 스톱 버튼, 프로그레스 바는 굳이 언어로 부연설명을 달지 않아도 세계에 통용될 수 있는 인터페이스이다. 국내의 커뮤니티에서도 유투브 동영상을 게시한 글을 쉽게 찾아볼 수 있는 것이 바로 그러한 이유에서이다. 하지만 텍스트는 그렇지 못하다. 언어는 나라마다 천차만별이기 때문이다. 이처럼 텍스트 기반의 웹에서 번역은 글로벌 커뮤니케이션의 강력한 수단이다. 그렇기 때문에 포털들은 자신들이 가진 데이터를 어떻게 좀 더 많은 사용자에게 보여줄지 고민하고 있고 그에 대한 기술을 꾸준히 연구하고 있는 것이다. 하지만 언제 완성될지 모르는 웹의 세계화를 무작정 기다리는 것은 바보 같은 짓이다. 국내에서 해결할 수 없는 문제가 있다면 검색 엔진을 이용해 영작을 해서 해외 커뮤니티에 질문을 올려보자. 그리고 피드백을 받아보자. 인터넷이 연결되어있는 한 세계는 바로 당신 컴퓨터 앞에 있다.
# by | 2008/02/03 22:49 | 컬럼 | 트랙백 | 덧글(1)










☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
무료로 보내드립니다
비용전혀없습니다!
아래주소를 클릭해서 무료신청하세요
http://english.redirectme.net