Совместимость языков и другие ограничения в статистическом переводе Google Translate Russian translation jobs
Home More Articles Join as a Member! Post Your Job - Free! All Translation Agencies
Advertisements

Совместимость языков и другие ограничения в статистическом переводе Google Translate


Become a member of TranslationDirectory.com at just $8 per month (paid per year)




Read an abridged translation of this article into English

Введение

Порой мы задаемся вопросом, может ли машина заменить человека в определенной сфере. Развитие информационных технологий приводит к тому, что все меньше расчетов нужно проводить вручную, а некоторые задачи компьютер может взять на себя полностью и не требует контроля человека. В области машинного перевода на данный момент программы служат инструментом, подспорьем для специалиста, без доработки их продукция обычно не используется. Google предлагают новую технологию на базе статистического метода машинного перевода и ранее утверждали, что она может самостоятельно переводить сайты «одним нажатием кнопки» и обеспечивать достаточное понимание оригинала. Целью данного обзора является выяснить степень адекватности этой продукции в различных языковых направлениях и для разного рода информации, а также проверить заявление разработчиков Google Translate о значительном улучшении работы сервиса со временем.

Тестирование онлайн-переводчика проводилось в марте-апреле 2011 года на английском, русском, украинском, французском и немецком языках. Работа над обзором была продолжена и окончена в октябре-декабре 2011 года, когда для уточнения результатов в круг рассматриваемых языков был включен польский и на тех же текстах были протестированы все языковые пары.

О технологии онлайн-переводчика Google

Второй из десяти принципов работы Google гласит: «Лучше делать что-то одно, но делать это очень и очень хорошо. ...Мы руководствуемся стремлением усовершенствовать поиск».

Технология Google Translate – прямое продолжение поисковика, ключевого сервиса Google, который завоевал им популярность. Переводчик Google так же, как и поисковик, а) создает базу текстов из сети (вариантов соответствия слов и фраз на разных языках) и б) разрабатывает алгоритмы отбора наилучшего соответствия запросу (словам и фразам исходного текста). Это статистический подход в машинном переводе.

Для справки: как работает Google Translate словами его создателей
(По материалам блогов Google Translate на английском и русском языке)

Google Translate может делать разумные, логичные предположения при выборе перевода, он ищет шаблоны в больших объемах текста (это, собственно, и есть «статистический машинный перевод»). Выполненный компьютером перевод не будет совершенным, но он будет улучшаться! Чем больше текстов на данном языке проанализирует Google Translate, тем лучше будет качество перевода на данном языке – поэтому перевод от Google более точный на одних языках и (пока) менее точный на других. (Перевод мой – Т. Е., далее выдержки из блогов компании на русском.)

Обычные машинные переводчики, как правило, преобразуют грамматические конструкции из одного языка в другой исходя из жестко прописанных правил.

Примером такого правила может быть "если в оригинале использовалась временная форма Present Perfect, то в русском переводе нужно использовать соответствующую форму для этого глагола".

Эти правила могут быть сложнее или проще. Могут использоваться правила, распознающие сложные конструкции и меняющие порядок слов в конечном тексте. Но в любом случае в традиционных переводчиках их пишут вручную. У такого подхода есть свои преимущества и недостатки, к которым, в частности, можно отнести нечеловеческую сложность работы, требующейся для того, чтобы покрыть такими правилами все разнообразие языка.
Переводчик Google устроен принципиально иначе. У нас есть набор статистических эвристик, например, "эта последовательность слов обычно переводится так", который дополнен рядом вспомогательных правил, обобщающих группы слов. Этих правил больше, чем можно найти в традиционных словарях, поэтому они не проходят ручную обработку, а генерируются автоматически.

Изначально для обучения Переводчика Google мы взяли набор текстов, переведенных максимально близко к оригиналу. В дальнейшем для усовершенствования правил мы дали пользователям возможность присылать нам переводы тех фраз, которые Переводчик перевел некорректно.

Они [разработчики Google Translate – Т. Е.] продолжают работать над извлечением информации из веб-страниц, ее структурированием, нахождением контекста, классификацией данных вообще и сайтов в частности. Их работа способствует улучшению качества поиска, созданию новых продуктов, основанных на лучшем понимании структуры интернета.

Лабораторная. Результаты анализа переводов

Для тестирования сервиса было найдено несколько текстов из следующих областей: новости науки, спорта и культуры, популярная психология, популярная лингвистика, здоровье, информационные технологии, авторские права в сети. Тексты были подобраны с минимумом сленга, сложной терминологии и запутанных грамматических конструкций – образцы литературного языка, доступного для понимания среднестатистическим пользователем, то есть средней сложности для переводчика. Далее оценки даны в сравнении с профессиональным переводом, а не продукцией других машинных переводчиков.

Образцы результатов перевода см. в Приложении 1.

Отобранные тексты были переведены в Google Translate в следующих направлениях:

- с русского на английский, а затем полученный результат на русский (чтобы убедиться, что на выходе получаем не копию оригинала, а значительно искаженный текст),
- с русского на английский, украинский, немецкий, французский, польский,
- с украинского на английский, русский, немецкий, французский, польский,
- с польского на английский, русский, украинский, немецкий, французский,
- с немецкого на английский и русский, а также украинский, французский, польский; затем перевод полученного английского текста на русский,
- с французского на английский, русский, украинский, немецкий, польский.

Итого 15 языковых пар, 30 направлений перевода, 6 языков, из которых 4 синтетических и 2 аналитических, 3 славянских, 2 германских, 1 романский.

Изначальный замысел статьи предполагал сравнение достоинств и недостатков работы Google Translate в отдельных направлениях перевода и с разного рода текстами, с выявлением лингвистических характеристик, обеспечивающих лучшее качество перевода, и итоговым «награждением победителей». В процессе сопоставления результатов перевода Google Translate были сделаны некоторые любопытные наблюдения, которые показали бессмысленность применения этой распространенной методики анализа к значительной части данного материала. На первый план вышел «дедуктивный метод расследования», позволяющий по отдельным признакам в текстах перевода реконструировать схему работы машинного переводчика, предположить приоритеты и реальный потенциал его развития и применения. Первым по списку предложу довольно неожиданное для пользователя заключение о том, как осуществляется многоязычность сервиса.

А. Перевод во многих языковых парах идет через промежуточный перевод на английский с эффектом «сломанного телефона»

В проанализированных образцах переводы одного и того же текста на ряд языков имеют одинаковые ошибки, повторяющиеся из перевода в перевод. Если рассматривать такой результат и оригинал отдельно от других переводов, то недочеты в переводе не объясняются строем исходного и целевого языков и невозможны в прямом переводе между этими языками. Таких искажений не допустит ни другой машинный переводчик, ни неопытный «человекопереводчик». Это следующие направления из протестированных: с немецкого, французского, польского на русский и украинский и наоборот, а также с немецкого, французского на польский и наоборот, с немецкого на французский и наоборот.

Если же сверить эти тексты перевода не с самим оригиналом, а с его английским переводом, то станет заметно, что первые повторяют и дополнительно искажают структуру английских фраз (а вовсе не оригинала).

Выводы. При переводе в указанных направлениях английский язык выступает «посредником»: текст сначала переводится на английский и лишь потом на выбранный язык перевода. На целевой язык переводится искаженный английский вариант, с неизбежными при машинном переводе неточными фрагментами. Так на «первичную деформацию» накладывается второй слой. В результате один и тот же текст получает большее искажение при переводе на немецкий, французский и др. языки, чем на английский.

Примеры
(Из переводов, выполненных в марте 2011 года. См. также Приложение 1.)

Сведения о том, что устройства компании Apple могут следить за своими владельцами, появились летом прошлого года… - Information that the Apple device can monitor its owners appeared last summer… - Informationen, die der Apple-Geraet koennen die Besitzer Monitor erschien im letzten Sommer…

любят поговорить - love to talk - die Liebe zu sprechen - l’amour de parler
не любят - do not like - mag sie nicht - je n’aime pas

Mimant une diva replette sur le retour… - Replete mimicking a diva on the back… - Vollgestopft Nachahmung einer Diva auf dem Ruecken… - Реплт подражая дива на спине… - Реплт наслідуючи діва на спині

Die Kratzmuster, die an fossilen Zahnen zu sehen sind, stehen in direktem Zusammenhang mit der Rechts - oder Linkshaendigkeit individueller prahistorischer Menschen...

The scratch patterns that can be seen in fossil teeth, are directly related to the handedness of individual prehistoric people…

нуля шаблоны, которые можно увидеть в ископаемых зубов, которые непосредственно связаны с беспристрастности отдельных доисторических людей… (перевод немецкой фразы на русский)

нуля шаблоны, которые можно увидеть в ископаемых зубов, которые непосредственно связаны с беспристрастности отдельных доисторическихлюдей… (перевод английского перевода).

…in der Fachzeitschrift "Laterality". Als Nachweis dienten ihnen Schrammspuren an bis zu 500.000 Jahre alten fossilen Zahnen.

…in the journal Laterality. Schramm served them as proof traces of up to 500,000 year old fossil teeth.

…в журнале латерализации. Шрамм служили им в качестве доказательства следов до 500.000 летний зубы ископаемого (перевод немецкой фразы на русский).

…в журнале латерализации. Шраммслужили им в качестве доказательства следов до 500.000 летний зубыископаемого (перевод английского перевода).

Еще одно косвенное свидетельство: изредка встречаются случаи, когда при переводе с русского на немецкий или французский и наоборот слово переводится на английский, а не на целевой язык.

ЭКСПЕРИМЕНТ С ГРАММАТИЧЕСКОЙ НЕПРОЗРАЧНОСТЬЮ

Рассмотрим следующие переводы русской фразы.

ENTP выше всего ценят собственное вдохновение.
ENTP above all value their own inspiration.
ENTP vor allem Wert ihrer eigenen Inspiration.
ENTP surtout la valeur leur propre inspiration.

Берем полученную английскую фразу и переводим в сервисе на немецкий и французский. Результат на 100% совпадает с приведенным в третьей и четвертой строках переводом якобы с русского. Ошибки немецкого и французского перевода коррелируют с неточностями и структурой английской фразы, но никак не русского оригинала.
Поэкспериментируем с английским текстом-посредником. «Above all» находится не на своем месте, повторяя порядок слов в русском тексте. В дальнейшем переводе на целевые языки эта ошибка мешает интерпретации. Если «above all» убрать и дать Google Translate перевести эту фразу на немецкий и французский, ничего не меняется, глагол «value» на эти языки все равно переводится неверно, как и было «напрямую» с русского. Если же дополнительно заменить в английском варианте подлежащее на грамматически прозрачное «they», перевод на немецкий и французский становится правильным. Если поставить «above all» на прежнее (неверное) место, опять возникает ошибка с интерпретацией глагола, как и вначале.
Когда порядок слов в английском тексте нарушен, формы слов и их последовательность не являются надежным индикатором роли этих слов в предложении. Это приводит к специфическим ошибкам при машинном переводе такого искаженного английского текста, как видно из примеров выше и в Приложении 1.

ЗАМЕТКИ НА ПОЛЯХ

Google объясняет худшее качество перевода на некоторых языках исключительно тем, что на этом языке в сети мало качественных текстов в паре с их переводами на другие языки, то есть движку Google временно не на чем тренироваться. Но только в этом ли дело? Нет ли оснований считать, что некоторые языки для Google Translate более приоритетные? Или более совместимые с приоритетными языками?

Б. Статистический перевод оптимален между родственными языками

Перевод Google с русского на украинский и наоборот наиболее «интуитивно» верный из всех рассмотренных, самый близкий к готовому продукту, в нем меньше искажения смысла или правил языка, меньше дословного перевода.

Среди других проанализированных переводов это направление отличается отсутствием привязки к английскому языку. Тексты переводятся напрямую, без посредничества английского и это скорее исключение в работе сервиса, чем правило. Грамматика украинского и русского языков является настолько близкой, что нет смысла переводить через третий язык и затраты на развитие этого прямого направления перевода оправданы.

Когда Google Translate переводит на русский и украинский с других языков, то такие переводы «копируют» английский, как описано в п. А. Единственное, что обращает на себя внимание, это то, что в них полностью совпадает выбор формы слов и при возможности других толкований в английском переводе – значения слов. Русские и украинские переводы отличаются только лексикой (то есть соответственно русским и украинским словарями), а грамматика у них как будто одна, по одному шаблону.

ЗАМЕТКИ НА ПОЛЯХ

При переводе украинского текста на английский указала его как русский перевел большинство слов, остальные (которых нет в русском словаре сервиса) транслитерировал латиницей. Латинизирует «темные места».

Было бы интересно найти другие языковые пары, в которых Google Translate переводит напрямую, без посредничества английского. Вопреки ожиданиям, с русского и украинского на польский и наоборот перевод идет через английский, с искажениями и «англицизмами». Google Translate не использует преимущества родства этих языков, и качество перевода хуже, чем могло бы быть. К сожалению, то же можно сказать про большинство переводов Google не на английский и не с английского.

Могу предположить, что статистический перевод Google был бы очень неплох между тюркскими языками. С другой стороны, это языки совершенно другого строя, чем рассмотренные в обзоре, и в статистическом переводе между ними могут быть свои сложности.

В повседневной жизни перевод между близкими по строю языками дается проще: помогает сходство шаблонов словообразования, словоизменения, синтаксиса, а также культурного опыта. При статистическом переводе общность грамматики может обеспечивать большую точность перевода: снижать количество синтаксических ошибок и неправильных интерпретаций строения фраз. Однако и в родственных языках грамматические конструкции могут не совпадать. Так, в тестовых переводах между русским и украинским падежи были неправильными, если управление не было одинаковым, а иногда даже если было. Это говорит о недостаточной обученности (или в принципе обучаемости?) по шаблонам. Правильная «конвертация» грамматических конструкций одного языка средствами другого это предел для статистического машинного перевода. Это ограничение не упраздняется даже на базе родственных языков и создает тем больше «шума» в интерпретации, чем меньше грамматическое сходство языков в паре.

В Google могут и дальше анализировать веб-документы, пополнять базы соответствий, однако только «оптимизацией результатов поиска» перевод они не улучшат. Нельзя создать базу переводов на все возможные варианты фраз. Это значит, что некий значительный процент предложений, словосочетаний машине необходимо составлять самостоятельно, а не брать готовыми, а это значит, что разработчику требуется обучать машину грамматике другими, «нестатистическими» способами. Google не афишируют эти методы и, возможно, не придают им решающего значения. Известно только, что до 2007 года в Google Translate использовался движок Systran http://www.washingtonpost.com/.../AR2011022102191_2.html, однако нынче разработчики Google Translate всячески противопоставляют свои методы машинного перевода «старинным».

В. Английский – «стержневой» язык в Google Translate

Перевод с английского и на английский в Google Translate – прямой, без посредничества другого языка. Это обеспечивает неплохое качество, при котором особенно заметны достоинства работы сервиса: часто правильный перевод имен и названий, терминов, фразеологизмов, использование живых оборотов речи в отличие от дословного перевода, нередко правильный выбор лексического значения в зависимости от контекста.

В переводе в других языковых направлениях «англоцентричность» является самым большим минусом работы Google Translate. Перевод не на английский или не с английского пока не самый удачный: текст претерпевает двойное искажение из-за того, что оригинал переводится на целевой язык не напрямую, а с «промежуточного», ломаного перевода на английский. Одним из вариантов повышения качества перевода в сервисе может быть «разгрузка» английского и создание «гнезд» вокруг других ключевых языков: одного из славянских, тюркских, романских и др.

Есть и плюс в существующем техническом решении: сервис может быстро расширять количество поддерживаемых языков. Новые языки нужно «подключать» только к английскому, нет необходимости прорабатывать соответствия во всех языковых парах.

Неслучайность доминирования английского в американском сервисе может объясняться не только внешними, культурно-экономическими, но и внутренними, математико-лингвистическими причинами. С одной стороны, английский – язык международного общения, разработчиков ПО, разработчиков и руководства Google, огромной платежеспособной аудитории, значительной части информации в сети.

С другой стороны, приоритетность английского языка может быть связана и с тем, что он обладает «выигрышной» в статистическом переводе грамматикой: программа может брать из баз данных целые куски текста и комбинировать как есть, не меняя в большинстве случаев «словарной формы». Это что касается генерации текста по определенному шаблону. С точки же зрения машинного анализа текста, относительно строгий порядок слов в английском может быть для программ более однозначным указателем на функцию слова в предложении, грамматические связи, чем окончания в синтетических языках.
Каковы бы ни были причины и цели использования английского в качестве лингва-франка, он во многом определяет качество работы сервиса.

Английский – «идеальный» язык для ЭВМ

Рассмотрим особенности грамматики английского языка (АЯ), выделяющие его в ряду других языков с точки зрения машинного перевода.

1. Особенности грамматики АЯ отразились в языках программирования. Это не значит, что машина «читает» по-английски «без языковых барьеров». Скорее есть основания предположить, что некоторые особенности АЯ упрощают машинный анализ и генерацию текстов на нем.

Какие качества АЯ могли найти отражение в языках программирования?

1.1. Слово АЯ – как универсальная деталь конструкции.

- В АЯ изначально малая по сравнению с синтетическими языками грамматическая изменяемость слов (особенно важно отсутствие формально выраженного падежного управления, согласования прилагательных).
- Создание комбинаций слов требует минимума грамматических средств внутри слова, то есть флексий.
- В определенной последовательности слово легко заменить другим из того же класса, не требуется подстановка и изменение флексий и т.п.
- Новые слова могут образовываться неморфологическим переходом из одной части речи в другую; одно и то же слово нередко может относиться к нескольким частям речи.
- Теоретически возможно ограничить словарь короткими словами, в которых основа слова равна корню, что акцентирует лексическое значение, одно из них, и «абстрагирует» от морфологической структуры.
- Теоретически возможно использовать только такие синтаксические конструкции, большинство слов в которых – в словарной форме.

1.2. Этот грамматический минимум можно еще уменьшить, не нарушая стилевых требований АЯ, как принято в еще «докомпьютерном» стиле заголовков и кратких информационных сообщений:

- использовать простые короткие предложения,
- отбирать простые глагольные формы,
- опускать служебные слова.

Указанные особенности АЯ позволяют сконцентрироваться не на структуре и форме слов, а на правилах, алгоритмах создания последовательностей и сочетаемости слов. Это создает условия для работы с комбинациями слов не как с лингвистическими объектами, а как с математическими.

Внимание! Некоторые перечисленные качества АЯ иллюстрируют также потребности разработчика при генерации информационных сообщений и пунктов меню в ПО. Только первые три особенности из п. 1.1 имеют отношение к ситуации машинного перевода.

2. С учетом вышесказанного, средствами программ гораздо легче компилировать тексты на английском, чем на русском.

Пример

Ср. лаконичность переменной «gram» и множественные ограничения в использовании переменных с числительными в русском:

1/ 5/ 120 gram(s)
1 грамм, 2, 3, 4 грамма, 5 граммов (теперь разрешено и «грамм»)

В русском сложнее создавать универсальные шаблоны текста, где любое слово легко заменить другим из аналогичного класса. Как следствие, на английском проще писать файлы языковых ресурсов (которые содержат шаблоны информационных сообщений и названий элементов интерфейса) за счет широкого использования переменных. В русском же подстановка переменных возможна в меньшем количестве случаев и требует значительного сужения используемых грамматических средств:

- предложения желательно строить таким образом, чтобы подставляемые переменные были в одной и той же форме, то есть все переменные для существительных требуются в именительном падеже, для глаголов – желательны словосочетания (а не одиночные глаголы) или только глаголы с одинаковым управлением,
- для существительных в переменных необходимо использовать определители, чтобы избежать необходимости склонения (например, писать «в программе Счетчик посещений», где слово «программа» определитель, а «Счетчик посещений» переменная из базы наряду с другими возможными: «Планировщик», «Установщик» и др.),
- рядом с переменными желательно избегать прилагательных и любых указаний на род,
- прилагательные могут использоваться в качестве переменных очень ограниченно
- и т.п.

3. С учетом указанных в п. 1.1 особенностей грамматики АЯ статистический машинный перевод на английский и с английского – наиболее удачный и перспективный.

На английском и, как логично предположить, других аналитических языках машинная компиляция связных текстов «из словарика» требует наименьших трудовых затрат в плане связности текста.

ЗАМЕТКИ НА ПОЛЯХ

Сведения о том, что испанский обладает «чрезвычайно простой грамматикой», позволяют предположить, что этот язык – благодарный материал для статистического перевода (как английский, но не русский и немецкий). А такие показатели, как мировая распространенность и использование как демонстрационного в аудиопереводчике Google, дают основания заочно отметить вероятно высокое качество англо-испанских переводов в Google Translate.

Г. Совместимость со стержневым языком и лучшие направления перевода

Формально Google Translate переводит с немецкого, французского, польского, финского, русского и т.д. Фактически, как мы увидели в п. А выше, во многих случаях перевод на целевой язык осуществляется с английского. Эта техническая особенность исключает из рассмотрения все направления перевода, где английский выступает неявным посредником: качество продукции в них заведомо низкое из-за двойного искажения. Для оценки возможностей статистического перевода возьмем только «чистые», прямые направления. Для всех языков из выборки это переводы на английский и с английского, за редким исключением прямого перевода между русским и украинским (см. п. Б). Подобная «англоцентричность» Google Translate делает важной грамматическую совместимость языков со стержневым языком, английским.

Английский – аналитический язык, в нем грамматические значения выражаются больше через порядок слов и служебные слова, чем через словоизменение. В нашей выборке во всех языках черты синтетизма выражены сильнее, чем в английском. Одновременно английский и французский – языки аналитические, а английский и немецкий – родственные, из германской ветви.

Как могут повлиять эти свойства на точность перевода в определенной языковой паре? Ниже дана попытка охарактеризовать недочеты проанализированных переводов лишь в общих чертах, а углубить, уточнить или опровергнуть эти положения мог бы специалист в каждом конкретном направлении перевода.

Типичные синтаксические ошибки Google Translate

1. Перевод с английского.

- В русском, украинском, польском и в меньшей степени немецком неправильные падежи и управление (редко, большей частью в «темных местах», при неправильной дешифровке грамматической конструкции),
- в тех же языках отсутствие согласования прилагательных (редко),
- во всех языках неправильное число (и лицо) глаголов и личных местоимений (редко),
- в немецком неверный порядок слов, несмотря на попытки выстраивать его по правилам (большей частью в «темных местах», в длинных запутанных предложениях),
- во всех языках, кроме немецкого, – самая большая и нередкая сложность разбивка типичных для английского языка длинных цепочек существительных: неясно, где передать прилагательным, где предложно-падежной конструкцией, как увязать этот конструкт с другими членами предложения; ошибок почти не было в случае устойчивых выражений (а не окказиональных словосочетаний), что говорит о хороших словарных базах сервиса, а не механизмах обеспечения грамматической связности.

Примеры

(Из переводов, выполненных в декабре 2011 года. См. также Приложение 1.)

FTP is built on a client-server architecture and utilizes separate control and data connections between the client and server.
The first FTP client applications were interactive command-line tools.

FTP построена на клиент-серверную архитектуру и использует отдельные управления и передачи данных между клиентом и сервером.
Первый клиент FTP-приложения были интерактивные инструменты командной строки.

FTP побудована на клієнт-серверну архітектуру і використовує окремі управління і передачі даних між клієнтом і сервером.
Перший клієнт FTP-програми були інтерактивні інструменти командного рядка.

FTP basiert auf einer Client-Server-Architektur aufgebaut und nutzt separate Steuer-und Datenverbindungen zwischen dem Client und Server.
Die erste FTP-Client-Anwendungen wurden interaktive Kommandozeilen-Tools.

FTP est construit sur une architecture client-serveur et utilise le contrôle séparé et les connexions de données entre le client et le serveur.
Les premières applications client FTP étaient interactives outils ligne de commande.

FTP jest oparty na architekturze klient-serwer i używa oddzielnych kontroli i transmisji danych miedzy klientem a serwerem.
Pierwsze aplikacje klient FTP były interaktywnych narzedzi wiersza polecenia.

Аналитические черты английского языка как помогали интерпретации, так и создавали трудности:

- выражение грамматических значений через служебные слова, порядок слов давало достаточно информации, чтобы правильно определить члены предложения и связь между ними, за исключением указанного выше нанизывания существительных,
- нулевые окончания затрудняли перевод в сложных или искаженных конструкциях, например, в цепочках существительных, в случае одиночных глаголов и других вариантах, когда в ближайшем контексте нет указания на часть речи (см. также пример в п. А в «Эксперименте с грамматической непрозрачностью»),
- в немецком и французском артикли и служебные глаголы в большинстве случаев были поставлены верно.

2. Перевод на английский.

С русского, украинского, польского:

- пропуск глаголов-связок, артиклей и вставка неверных артиклей и неверных форм глагола (редко, большей частью в «темных местах», при запутанном порядке слов),
- неправильный порядок слов, копирующий структуру оригинала (часто),
- некорректная интерпретация словосочетаний, иногда ошибочная трансформация в другие части речи (редко, большей частью в «темных местах»),
- неверная передача безличных предложений и других случаев, когда нет формально выраженного подлежащего или оно «неявно».

С немецкого:

- неправильный порядок слов, копирующий структуру оригинала (сильно выражен, но редко затрудняет понимание),
- неверная интерпретация длинных предложений со сложным подчинением,
- неправильное определение подлежащего при непрямом порядке слов (редко).

С французского:

- неверная интерпретация глагольных форм (редко),
- неправильный порядок слов, копирующий структуру оригинала (слабо выражен).

Сравнив для каждого из направлений перевода количество типичных слабых мест, можно подытожить, что наиболее точными, связными являются переводы на английский с французского и немецкого и наоборот. Эти выводы подтверждаются аналогичным примером большей совместимости для статистического перевода двух близких по грамматическому строю языков (см. п. Б). Точность этих переводов между русским и украинским, наиболее грамматически похожими языками из выборки, выше, чем в указанных лучших направлениях с английским языком.

Д. В Google Translate лучше переводить не с русского, а с английского

Как уже упоминалось выше, по причине специфической организации работы сервиса перевод с английского в нем в большинстве случаев лучше.
Что делать, если английского текста нет? Сделать его:

- перевести в Google Translate с русского на английский,
- отшлифовать самому перевод,
- потом дать Google Translate перевести полученный текст на немецкий, французский и др. перевод Google с английского будет лучше, чем с русского,
- далее поручить доработать перевод специалисту в этом языке.

ЗАМЕТКИ НА ПОЛЯХ

При локализации ПО, переводе фильмов или массы текстов на большое количество языков поступают сходным образом. Например, японская компания составляет документацию на японском, заказывает перевод на английский, а с английского (как самого распространенного) – на другие. Возможно и продолжение цепочки: дальнейший перевод осуществляется не с оригинала и не с английского, а с третьего языка на родственные ему, например, с русского на украинский и белорусский. Не без потери смысла во всех звеньях цепочки, конечно.

Е. Значительного улучшения качества переводов со временем не происходит

Переводы одного и того же текста в разное время (март, октябрь, декабрь 2011 года) продемонстрировали закономерность развития статистического перевода Google. В более поздних переводах было заметно большее разнообразие лексики, но в целом по точности, понятности они оказались не намного лучше, даже местами хуже. К примеру, октябрьские переводы с русского на французский и немецкий по-прежнему отражали ошибки английского перевода-посредника, но не мартовского, а тоже октябрьского.
Как я и предполагала, у качества статистического машинного перевода есть предел, который пока невозможно «перепрыгнуть» лишь за счет сбора и анализа шаблонов соответствий. Руководитель проекта Google Translate еще в июле 2010 заявил о том же на страницах «Forbes»: http://www.forbes.ru/../53489-trudnosti-perevoda-u-google (русская версия).

Итак, мы оценили возможности Google Translate в различных языковых направлениях и рассмотрели некоторые неочевидные причины подобных показателей. С опорой на результаты «лабораторной» мы можем предположить, что исключительно статистический подход в машинном переводе не даст со временем значительного повышения качества, что разработчики сервиса Google пока не ставят во главе угла задачу грамматической связности, стилистического соответствия текста перевода. В заключение хотелось бы рассмотреть сферы применения столь несовершенного, но востребованного продукта перевода.

Преимущества Google Translate – для пользователей Интернета

Вслед за разбором особенностей перевода Google я бы хотела привести пример использования этого сервиса, где грамматические несостыковки проявлялись бы в наименьшей степени. Пример использования, ради которого этот сервис, вероятно, и разрабатывался.

Более удачное применение статистическому машинному переводу, по сравнению с переводом связного текста, документа, перевод сайтов. Во-первых, на коммерческих сайтах часть текстов информационно-справочного характера более-менее шаблонна, поэтому для них легче создать базу соответствий целых фраз. Следовательно, перевод таких текстов будет более точным. Во-вторых, на любых сайтах есть и более стандартизированная, одинаковая для большинства сайтов и важная для пользователя часть навигация: названия кнопочек, меню, блоков текста. Здесь переводчик Google будет блистать.

В области перевода сайтов у Google пока нет конкурентов, а перед сходными технологиями (программами унификации и локализации языковых ресурсов в ПО, другими машинными переводчиками, программами переводческой памяти) у Google Translate есть значительный перевес в доступности, количестве языков, «необъятных», «самообновляющихся» словарных базах широкой тематики, а также в привязке к материалам в сети и самим сайтам. Все это делает Google Translate предпочтительнее для рядового пользователя Интернета. Пользователь прилагает минимум усилий, не имеет и не выполняет никакой подготовки – и «одним нажатием кнопки» получает моментальный более-менее читабельный результат. Напоминает фотоаппараты Polaroid.

Для выполнения переводов на профессиональном уровне может быть более полезной разработка Translator Toolkit, в которой технологии поисковика и переводчика Google сочетаются с технологиями Translation Memory. Это та самая возможность обучать сервис, чтобы улучшать качество дальнейших переводов, которой не хватает в более демократичном Google Translate.
У любого инструмента есть своя сфера применения, для которой он создан и/или в которой его качества проявляются лучше всего. Google Translate может дать достаточно высокие результаты в следующих областях:

- перевод на английский язык или с английского языка,
- перевод с украинского на русский и наоборот,
- навигация по иноязычным сайтам, в частности покупки и другие трансакции через Интернет, использование онлайн-сервисов, игры, переписка, чтение справочной информации, новостей, блогов, описаний продуктов, записей фан-клубов и т.п.,
- использование специалистом в данном направлении перевода для экономии времени и сил благодаря набору текста, правильной орфографии, попыткам правильно строить порядок слов, а также, главное, удачным находкам перевода имен, терминов и фраз,
- ознакомление с текстами справочно-информационного характера (а не художественный перевод, не готовый перевод документации),
- перевод текста, написанного ясным литературным языком, состоящего из простых коротких предложений, в которых порядок слов прямой или совпадает с правилами в языке перевода, нет вставных конструкций, опущенных членов предложения и пр., нет сленга, слов в переносном значении, фразеологизмов (особенно переиначенных, аллюзий, иронии и любого подтекста).

В сфере развлечения, услуг, покупок и продаж, неформального общения доступность и понятность фактов и переживаний может быть важнее «литературности» и «высокой культуры». Эти же условия делают приемлемым и достаточным низкое качество переводов. Возможно, машинные переводчики недалекого будущего займут в первую очередь именно эту нишу рынка переводов, не дожидаясь того, чтобы их продукт стал «безупречным», «стилистически выверенным», «соответствующим литературной норме» или как минимум был без ошибок. Так же конвейер в свое время потеснил и изменил ручной труд в производстве.

На данный момент в Google Translate «масштабность» имеет приоритет перед «дотошностью». Широкий охват языков, вероятно, – одна из главных задач развития сервиса, но одновременно это и главный ограничитель технологии, понижающий качество продукции. Во-первых, почти все переводы выполняются через промежуточный перевод на английский и отдельные языковые направления не дорабатываются несмотря на то, что прямой статистический перевод был бы точнее, чем через ломаный английский, а между родственными языками он мог бы почти полностью заменить труд профессионала. Во-вторых, смысловая и грамматическая точность перевода не может быть обеспечена на должном уровне, когда варианты перевода подбираются по критерию «статистически самый вероятный/ популярный» и когда по сходному принципу поддерживается грамматическая связность.

Смотрите также Приложение 1.

See also: Compatibility of Languages and Other Restrictions in the Statistical Translation by Google Translate




Published - May 2012












Submit your article!

Read more articles - free!

Read sense of life articles!

E-mail this article to your colleague!

Need more translation jobs? Click here!

Translation agencies are welcome to register here - Free!

Freelance translators are welcome to register here - Free!








Please see some ads as well as other content from TranslationDirectory.com:


Free Newsletter

Subscribe to our free newsletter to receive news from us:

 
Menu
Recommend This Article
Read More Articles
Search Article Index
Read Sense of Life Articles
Submit Your Article
Obtain Translation Jobs
Visit Language Job Board
Post Your Translation Job!
Register Translation Agency
Submit Your Resume
Find Freelance Translators
Buy Database of Translators
Buy Database of Agencies
Obtain Blacklisted Agencies
Advertise Here
Use Free Translators
Use Free Dictionaries
Use Free Glossaries
Use Free Software
Vote in Polls for Translators
Read Testimonials
Read More Testimonials
Read Even More Testimonials
Read Yet More Testimonials
And More Testimonials!
Admire God's Creations

christianity portal
translation jobs


 

 
Copyright © 2003-2020 by TranslationDirectory.com
Legal Disclaimer
Site Map