|
|
Совместимость языков и другие ограничения в статистическом переводе Google Translate
Read an abridged translation of this article into English Введение Порой мы задаемся вопросом, может ли машина заменить человека в определенной сфере. Развитие информационных технологий приводит к тому, что все меньше расчетов нужно проводить вручную, а некоторые задачи компьютер может взять на себя полностью и не требует контроля человека. В области машинного перевода на данный момент программы служат инструментом, подспорьем для специалиста, без доработки их продукция обычно не используется. Google предлагают новую технологию на базе статистического метода машинного перевода и ранее утверждали, что она может самостоятельно переводить сайты «одним нажатием кнопки» и обеспечивать достаточное понимание оригинала. Целью данного обзора является выяснить степень адекватности этой продукции в различных языковых направлениях и для разного рода информации, а также проверить заявление разработчиков Google Translate о значительном улучшении работы сервиса со временем. Тестирование онлайн-переводчика проводилось в марте-апреле 2011 года на английском, русском, украинском, французском и немецком языках. Работа над обзором была продолжена и окончена в октябре-декабре 2011 года, когда для уточнения результатов в круг рассматриваемых языков был включен польский и на тех же текстах были протестированы все языковые пары. О технологии онлайн-переводчика GoogleВторой из десяти принципов работы Google гласит: «Лучше делать что-то одно, но делать это очень и очень хорошо. ...Мы руководствуемся стремлением усовершенствовать поиск». Технология Google Translate – прямое продолжение поисковика, ключевого сервиса Google, который завоевал им популярность. Переводчик Google так же, как и поисковик, а) создает базу текстов из сети (вариантов соответствия слов и фраз на разных языках) и б) разрабатывает алгоритмы отбора наилучшего соответствия запросу (словам и фразам исходного текста). Это статистический подход в машинном переводе. Для справки: как работает Google Translate словами его создателей
Лабораторная. Результаты анализа переводовДля тестирования сервиса было найдено несколько текстов из следующих областей: новости науки, спорта и культуры, популярная психология, популярная лингвистика, здоровье, информационные технологии, авторские права в сети. Тексты были подобраны с минимумом сленга, сложной терминологии и запутанных грамматических конструкций – образцы литературного языка, доступного для понимания среднестатистическим пользователем, то есть средней сложности для переводчика. Далее оценки даны в сравнении с профессиональным переводом, а не продукцией других машинных переводчиков. Образцы результатов перевода см. в Приложении 1. Отобранные тексты были переведены в Google Translate в следующих направлениях:
Итого 15 языковых пар, 30 направлений перевода, 6 языков, из которых 4 синтетических и 2 аналитических, 3 славянских, 2 германских, 1 романский. Изначальный замысел статьи предполагал сравнение достоинств и недостатков работы Google Translate в отдельных направлениях перевода и с разного рода текстами, с выявлением лингвистических характеристик, обеспечивающих лучшее качество перевода, и итоговым «награждением победителей». В процессе сопоставления результатов перевода Google Translate были сделаны некоторые любопытные наблюдения, которые показали бессмысленность применения этой распространенной методики анализа к значительной части данного материала. На первый план вышел «дедуктивный метод расследования», позволяющий по отдельным признакам в текстах перевода реконструировать схему работы машинного переводчика, предположить приоритеты и реальный потенциал его развития и применения. Первым по списку предложу довольно неожиданное для пользователя заключение о том, как осуществляется многоязычность сервиса. А. Перевод во многих языковых парах идет через промежуточный перевод на английский с эффектом «сломанного телефона» В проанализированных образцах переводы одного и того же текста на ряд языков имеют одинаковые ошибки, повторяющиеся из перевода в перевод. Если рассматривать такой результат и оригинал отдельно от других переводов, то недочеты в переводе не объясняются строем исходного и целевого языков и невозможны в прямом переводе между этими языками. Таких искажений не допустит ни другой машинный переводчик, ни неопытный «человекопереводчик». Это следующие направления из протестированных: с немецкого, французского, польского на русский и украинский и наоборот, а также с немецкого, французского на польский и наоборот, с немецкого на французский и наоборот. Если же сверить эти тексты перевода не с самим оригиналом, а с его английским переводом, то станет заметно, что первые повторяют и дополнительно искажают структуру английских фраз (а вовсе не оригинала). Выводы. При переводе в указанных направлениях английский язык выступает «посредником»: текст сначала переводится на английский и лишь потом на выбранный язык перевода. На целевой язык переводится искаженный английский вариант, с неизбежными при машинном переводе неточными фрагментами. Так на «первичную деформацию» накладывается второй слой. В результате один и тот же текст получает большее искажение при переводе на немецкий, французский и др. языки, чем на английский. Примеры Сведения о том, что устройства компании Apple могут следить за своими владельцами, появились летом прошлого года… - Information that the Apple device can monitor its owners appeared last summer… - Informationen, die der Apple-Geraet koennen die Besitzer Monitor erschien im letzten Sommer… любят поговорить - love to talk - die Liebe zu sprechen - l’amour
de parler Mimant une diva replette sur le retour… - Replete mimicking a diva on the back… - Vollgestopft Nachahmung einer Diva auf dem Ruecken… - Реплт подражая дива на спине… - Реплт наслідуючи діва на спині… Die Kratzmuster, die an fossilen Zahnen zu sehen sind, stehen in direktem Zusammenhang mit der Rechts - oder Linkshaendigkeit individueller prahistorischer Menschen... The scratch patterns that can be seen in fossil teeth, are directly related to the handedness of individual prehistoric people… нуля шаблоны, которые можно увидеть в ископаемых зубов, которые непосредственно связаны с беспристрастности отдельных доисторических людей… (перевод немецкой фразы на русский) нуля шаблоны, которые можно увидеть в ископаемых зубов, которые непосредственно связаны с беспристрастности отдельных доисторическихлюдей… (перевод английского перевода). …in der Fachzeitschrift "Laterality". Als Nachweis dienten ihnen Schrammspuren an bis zu 500.000 Jahre alten fossilen Zahnen. …in the journal Laterality. Schramm served them as proof traces of up to 500,000 year old fossil teeth. …в журнале латерализации. Шрамм служили им в качестве доказательства следов до 500.000 летний зубы ископаемого (перевод немецкой фразы на русский). …в журнале латерализации. Шраммслужили им в качестве доказательства следов до 500.000 летний зубыископаемого (перевод английского перевода). Еще одно косвенное свидетельство: изредка встречаются случаи, когда при переводе с русского на немецкий или французский и наоборот слово переводится на английский, а не на целевой язык.
Б. Статистический перевод оптимален между родственными языками Перевод Google с русского на украинский и наоборот наиболее «интуитивно» верный из всех рассмотренных, самый близкий к готовому продукту, в нем меньше искажения смысла или правил языка, меньше дословного перевода. Среди других проанализированных переводов это направление отличается отсутствием привязки к английскому языку. Тексты переводятся напрямую, без посредничества английского и это скорее исключение в работе сервиса, чем правило. Грамматика украинского и русского языков является настолько близкой, что нет смысла переводить через третий язык и затраты на развитие этого прямого направления перевода оправданы. Когда Google Translate переводит на русский и украинский с других языков, то такие переводы «копируют» английский, как описано в п. А. Единственное, что обращает на себя внимание, это то, что в них полностью совпадает выбор формы слов и при возможности других толкований в английском переводе – значения слов. Русские и украинские переводы отличаются только лексикой (то есть соответственно русским и украинским словарями), а грамматика у них как будто одна, по одному шаблону.
В повседневной жизни перевод между близкими по строю языками дается проще: помогает сходство шаблонов словообразования, словоизменения, синтаксиса, а также культурного опыта. При статистическом переводе общность грамматики может обеспечивать большую точность перевода: снижать количество синтаксических ошибок и неправильных интерпретаций строения фраз. Однако и в родственных языках грамматические конструкции могут не совпадать. Так, в тестовых переводах между русским и украинским падежи были неправильными, если управление не было одинаковым, а иногда даже если было. Это говорит о недостаточной обученности (или в принципе обучаемости?) по шаблонам. Правильная «конвертация» грамматических конструкций одного языка средствами другого это предел для статистического машинного перевода. Это ограничение не упраздняется даже на базе родственных языков и создает тем больше «шума» в интерпретации, чем меньше грамматическое сходство языков в паре. В Google могут и дальше анализировать веб-документы, пополнять базы соответствий, однако только «оптимизацией результатов поиска» перевод они не улучшат. Нельзя создать базу переводов на все возможные варианты фраз. Это значит, что некий значительный процент предложений, словосочетаний машине необходимо составлять самостоятельно, а не брать готовыми, а это значит, что разработчику требуется обучать машину грамматике другими, «нестатистическими» способами. Google не афишируют эти методы и, возможно, не придают им решающего значения. Известно только, что до 2007 года в Google Translate использовался движок Systran http://www.washingtonpost.com/.../AR2011022102191_2.html, однако нынче разработчики Google Translate всячески противопоставляют свои методы машинного перевода «старинным». В. Английский – «стержневой» язык в Google Translate Перевод с английского и на английский в Google Translate – прямой, без посредничества другого языка. Это обеспечивает неплохое качество, при котором особенно заметны достоинства работы сервиса: часто правильный перевод имен и названий, терминов, фразеологизмов, использование живых оборотов речи в отличие от дословного перевода, нередко правильный выбор лексического значения в зависимости от контекста. В переводе в других языковых направлениях «англоцентричность» является самым большим минусом работы Google Translate. Перевод не на английский или не с английского пока не самый удачный: текст претерпевает двойное искажение из-за того, что оригинал переводится на целевой язык не напрямую, а с «промежуточного», ломаного перевода на английский. Одним из вариантов повышения качества перевода в сервисе может быть «разгрузка» английского и создание «гнезд» вокруг других ключевых языков: одного из славянских, тюркских, романских и др. Есть и плюс в существующем техническом решении: сервис может быстро расширять количество поддерживаемых языков. Новые языки нужно «подключать» только к английскому, нет необходимости прорабатывать соответствия во всех языковых парах. Неслучайность доминирования английского в американском сервисе может объясняться не только внешними, культурно-экономическими, но и внутренними, математико-лингвистическими причинами. С одной стороны, английский – язык международного общения, разработчиков ПО, разработчиков и руководства Google, огромной платежеспособной аудитории, значительной части информации в сети. С другой стороны, приоритетность английского языка может быть связана
и с тем, что он обладает «выигрышной» в статистическом переводе грамматикой:
программа может брать из баз данных целые куски текста и комбинировать
как есть, не меняя в большинстве случаев «словарной формы». Это что касается
генерации текста по определенному шаблону. С точки же зрения
машинного анализа текста, относительно строгий порядок слов в английском
может быть для программ более однозначным указателем на функцию слова
в предложении, грамматические связи, чем окончания в синтетических языках. Английский – «идеальный» язык для ЭВМ Рассмотрим особенности грамматики английского языка (АЯ), выделяющие его в ряду других языков с точки зрения машинного перевода. 1. Особенности грамматики АЯ отразились в языках программирования. Это не значит, что машина «читает» по-английски «без языковых барьеров». Скорее есть основания предположить, что некоторые особенности АЯ упрощают машинный анализ и генерацию текстов на нем. Какие качества АЯ могли найти отражение в языках программирования? 1.1. Слово АЯ – как универсальная деталь конструкции.
1.2. Этот грамматический минимум можно еще уменьшить, не нарушая стилевых требований АЯ, как принято в еще «докомпьютерном» стиле заголовков и кратких информационных сообщений:
Указанные особенности АЯ позволяют сконцентрироваться не на структуре и форме слов, а на правилах, алгоритмах создания последовательностей и сочетаемости слов. Это создает условия для работы с комбинациями слов не как с лингвистическими объектами, а как с математическими. Внимание! Некоторые перечисленные качества АЯ иллюстрируют также потребности разработчика при генерации информационных сообщений и пунктов меню в ПО. Только первые три особенности из п. 1.1 имеют отношение к ситуации машинного перевода. 2. С учетом вышесказанного, средствами программ гораздо легче компилировать тексты на английском, чем на русском. Пример Ср. лаконичность переменной «gram» и множественные ограничения в использовании переменных с числительными в русском: 1/ 5/ 120 gram(s) В русском сложнее создавать универсальные шаблоны текста, где любое слово легко заменить другим из аналогичного класса. Как следствие, на английском проще писать файлы языковых ресурсов (которые содержат шаблоны информационных сообщений и названий элементов интерфейса) за счет широкого использования переменных. В русском же подстановка переменных возможна в меньшем количестве случаев и требует значительного сужения используемых грамматических средств:
3. С учетом указанных в п. 1.1 особенностей грамматики АЯ статистический машинный перевод на английский и с английского – наиболее удачный и перспективный. На английском и, как логично предположить, других аналитических языках машинная компиляция связных текстов «из словарика» требует наименьших трудовых затрат в плане связности текста.
Г. Совместимость со стержневым языком и лучшие направления перевода Формально Google Translate переводит с немецкого, французского, польского, финского, русского и т.д. Фактически, как мы увидели в п. А выше, во многих случаях перевод на целевой язык осуществляется с английского. Эта техническая особенность исключает из рассмотрения все направления перевода, где английский выступает неявным посредником: качество продукции в них заведомо низкое из-за двойного искажения. Для оценки возможностей статистического перевода возьмем только «чистые», прямые направления. Для всех языков из выборки это переводы на английский и с английского, за редким исключением прямого перевода между русским и украинским (см. п. Б). Подобная «англоцентричность» Google Translate делает важной грамматическую совместимость языков со стержневым языком, английским. Английский – аналитический язык, в нем грамматические значения выражаются больше через порядок слов и служебные слова, чем через словоизменение. В нашей выборке во всех языках черты синтетизма выражены сильнее, чем в английском. Одновременно английский и французский – языки аналитические, а английский и немецкий – родственные, из германской ветви. Как могут повлиять эти свойства на точность перевода в определенной языковой паре? Ниже дана попытка охарактеризовать недочеты проанализированных переводов лишь в общих чертах, а углубить, уточнить или опровергнуть эти положения мог бы специалист в каждом конкретном направлении перевода. Типичные синтаксические ошибки Google Translate 1. Перевод с английского.
Примеры (Из переводов, выполненных в декабре 2011 года. См. также Приложение 1.) FTP is built on a client-server architecture and utilizes separate control
and data connections between the client and server. FTP построена на клиент-серверную архитектуру и использует отдельные
управления и передачи данных между клиентом и сервером. FTP побудована на клієнт-серверну архітектуру і використовує окремі
управління і передачі даних між клієнтом і сервером. FTP basiert auf einer Client-Server-Architektur aufgebaut und nutzt separate
Steuer-und Datenverbindungen zwischen dem Client und
Server. FTP est construit sur une architecture client-serveur et utilise le contrôle séparé
et les connexions de données entre le client et le serveur. FTP jest oparty na architekturze klient-serwer i używa oddzielnych
kontroli i transmisji danych miedzy klientem a serwerem. Аналитические черты английского языка как помогали интерпретации, так и создавали трудности:
2. Перевод на английский. С русского, украинского, польского:
С немецкого:
С французского:
Сравнив для каждого из направлений перевода количество типичных слабых мест, можно подытожить, что наиболее точными, связными являются переводы на английский с французского и немецкого и наоборот. Эти выводы подтверждаются аналогичным примером большей совместимости для статистического перевода двух близких по грамматическому строю языков (см. п. Б). Точность этих переводов между русским и украинским, наиболее грамматически похожими языками из выборки, выше, чем в указанных лучших направлениях с английским языком. Д. В Google Translate лучше переводить не с русского, а с английского Как уже упоминалось выше, по причине специфической организации работы
сервиса перевод с английского в нем в большинстве случаев лучше.
Е. Значительного улучшения качества переводов со временем не происходит Переводы одного и того же текста в разное время (март, октябрь, декабрь
2011 года) продемонстрировали закономерность развития статистического
перевода Google. В более поздних переводах было заметно большее разнообразие
лексики, но в целом по точности, понятности они оказались не намного лучше,
даже местами хуже. К примеру, октябрьские переводы с русского на французский
и немецкий по-прежнему отражали ошибки английского перевода-посредника,
но не мартовского, а тоже октябрьского. Итак, мы оценили возможности Google Translate в различных языковых направлениях и рассмотрели некоторые неочевидные причины подобных показателей. С опорой на результаты «лабораторной» мы можем предположить, что исключительно статистический подход в машинном переводе не даст со временем значительного повышения качества, что разработчики сервиса Google пока не ставят во главе угла задачу грамматической связности, стилистического соответствия текста перевода. В заключение хотелось бы рассмотреть сферы применения столь несовершенного, но востребованного продукта перевода. Преимущества Google Translate – для пользователей ИнтернетаВслед за разбором особенностей перевода Google я бы хотела привести пример использования этого сервиса, где грамматические несостыковки проявлялись бы в наименьшей степени. Пример использования, ради которого этот сервис, вероятно, и разрабатывался. Более удачное применение статистическому машинному переводу, по сравнению с переводом связного текста, документа, перевод сайтов. Во-первых, на коммерческих сайтах часть текстов информационно-справочного характера более-менее шаблонна, поэтому для них легче создать базу соответствий целых фраз. Следовательно, перевод таких текстов будет более точным. Во-вторых, на любых сайтах есть и более стандартизированная, одинаковая для большинства сайтов и важная для пользователя часть навигация: названия кнопочек, меню, блоков текста. Здесь переводчик Google будет блистать. В области перевода сайтов у Google пока нет конкурентов, а перед сходными технологиями (программами унификации и локализации языковых ресурсов в ПО, другими машинными переводчиками, программами переводческой памяти) у Google Translate есть значительный перевес в доступности, количестве языков, «необъятных», «самообновляющихся» словарных базах широкой тематики, а также в привязке к материалам в сети и самим сайтам. Все это делает Google Translate предпочтительнее для рядового пользователя Интернета. Пользователь прилагает минимум усилий, не имеет и не выполняет никакой подготовки – и «одним нажатием кнопки» получает моментальный более-менее читабельный результат. Напоминает фотоаппараты Polaroid. Для выполнения переводов на профессиональном уровне может быть более
полезной разработка Translator Toolkit, в которой технологии
поисковика и переводчика Google сочетаются с технологиями Translation
Memory. Это та самая возможность обучать сервис, чтобы улучшать качество
дальнейших переводов, которой не хватает в более демократичном Google
Translate.
В сфере развлечения, услуг, покупок и продаж, неформального общения доступность и понятность фактов и переживаний может быть важнее «литературности» и «высокой культуры». Эти же условия делают приемлемым и достаточным низкое качество переводов. Возможно, машинные переводчики недалекого будущего займут в первую очередь именно эту нишу рынка переводов, не дожидаясь того, чтобы их продукт стал «безупречным», «стилистически выверенным», «соответствующим литературной норме» или как минимум был без ошибок. Так же конвейер в свое время потеснил и изменил ручной труд в производстве. На данный момент в Google Translate «масштабность» имеет приоритет перед «дотошностью». Широкий охват языков, вероятно, – одна из главных задач развития сервиса, но одновременно это и главный ограничитель технологии, понижающий качество продукции. Во-первых, почти все переводы выполняются через промежуточный перевод на английский и отдельные языковые направления не дорабатываются несмотря на то, что прямой статистический перевод был бы точнее, чем через ломаный английский, а между родственными языками он мог бы почти полностью заменить труд профессионала. Во-вторых, смысловая и грамматическая точность перевода не может быть обеспечена на должном уровне, когда варианты перевода подбираются по критерию «статистически самый вероятный/ популярный» и когда по сходному принципу поддерживается грамматическая связность. Смотрите также Приложение 1. See also: Compatibility of Languages and Other Restrictions in the Statistical Translation by Google Translate Published - May 2012
E-mail this article to your colleague! Need more translation jobs? Click here! Translation agencies are welcome to register here - Free! Freelance translators are welcome to register here - Free! |
|
|
Legal Disclaimer Site Map |