Онлайн-переводчики стали лучше, но все еще делают нелепые ошибки. Почему?
27.09.2018
Эмма Вулкотт, BBC

Онлайн-переводчики стали лучше, но все еще делают нелепые ошибки. Почему?

Приложения для перевода становятся все лучше, но до идеала еще далеко. В особенности это касается редких языков. Могут ли искусственный интеллект и нейросети исправить ситуацию?

Этим летом во время чемпионата мира по футболу в России был зафиксирован резкий рост обращений к сервису Google Translate, показывают данные компании. Болельщики пытались установить контакт с местными жителями и с фанатами из других стран.

Особенно часто они искали перевод слов «стадион» и «пиво».

Традиционные разговорники уже уходят в прошлое. Недавнее исследование Британского совета показало, что в возрастной категории «16-34» две трети респондентов, находясь в чужой языковой среде, пользуются мобильными приложениями для перевода.

Хотя такие приложения несомненно становятся совершеннее, целиком полагаться на них пока нельзя. Каждый пятый из опрошенных рассказал, что сталкивался с трудностями из-за некорректного автоматического перевода.

Особенно это актуально для носителей локальных языков. Например, валлийцы обращали внимание на то, что»"взрывные работы» приложение переводит как «gweithwyr yn ffrwydro» или «рабочие взрываются».

В этом году один из пользователей Google Translate обнаружил, что если ввести в поле для перевода слово «dog» 18 раз и попросить перевести его с языка маори, то сервис выдает следующий текст: «На часах Судного дня без трех минут двенадцать. Знаки и трагические события, во времена которых мы живем, указывают, что мы приближаемся к концу света и второму пришествию Иисуса».

Почему же нелепые ошибки в переводах до сих пор встречаются, хотя на дворе эпоха суперкомпьютеров и машинного обучения?

Главная проблема заключается в том, что у слова зачастую бывает несколько значений. Омографы — слова, которые совпадают в написании, но различаются в произношении - ставят в неловкое положение не только отдыхающих на курортах, но и правительства.

Так, британский кабинет министров в прошедшем июле подготовил «белую книгу» по «брекситу» на немецком языке, в которой «отправление демократических процедур» перевели как «demokratische Übung». Дословно это можно перевести как «демократическую гимнастику».

Чтобы исключить такие ошибки, алгоритмы машинного обучения в приложениях для перевода постоянно дорабатываются. Они сверяются с предыдущими запросами, принимают во внимание контекст, в котором то или иное слово ранее использовалось, и подбирают наиболее уместное его значение.

В этом году компания Microsoft объявила, что создала искусственный интеллект, который способен переводить не хуже человека. Робот перевел серию публикаций из китайской прессы на английский, и группа независимых экспертов пришла к выводу, что качество перевода было сравнимо с переводом тех же текстов, выполненным двумя профессиональными переводчиками.

В компании говорили, что добиться этого удалось за счет глубоких нейронных сетей и статистического машинного обучения.

Сначала происходит грубый перевод, который затем шлифуется путем повторения разных вариантов, их сравнения и, в конечном итоге, обучения. Схожим образом переводу учатся и люди.

Разработанный компанией инструмент для перевода имеет четкое представление о грамматической структуре предложения в каждом языке, которое сложилось из массива выполненных ранее переводов.

Машинный перевод, качество которого сравнимо с качеством перевода, выполненным человеком, кажется довольно впечатляющим достижением. Но даже в Microsoft признают, что перевод новостных статей — не то же самое, что перевод живого разговора, которому свойственны идиомы, акценты и диалектические особенности.

В прошлом году Google выпустила наушники-вкладыши Pixel Buds, которые умеют в режиме реального времени переводить 40 языков. Качество их переводов при этом вызывает вопросы. Похожий продукт — Pilot Translating Earpiece — с поддержкой 15 языков разрабатывает нью-йоркский стартап Waverly Labs.

Но когда приходится осуществлять перевод между двумя языками, у которых нет большой базы взаимных переводов, к которой можно было бы обращаться (например, с сингальского на пушту), задача становится особенно сложной.

Можно сначала перевести с сингальского на английский, а полученный результат - на пушту, но очевидно, что при таком подходе будут появляться ошибки и неточности.

Описанный выше случай с языком маори и апокалиптическими предсказаниями объясняется в том числе избыточной зависимостью машинных переводов от текстов, которые существуют на обоих интересующих пользователя языках. В случае с английским и маори это была Библия.

«Если вы закладываете в модель для перевода предложения из древнего манускрипта и пытаетесь перевести разговор двух современных людей, модель столкнется со сложностями, потому что и содержание, и стилистика современной разговорной речи очень сильно отличается от того, что можно найти в древних манускриптах», — объясняет разработчик искусственного интеллекта из Facebook Гийом Лампл.

Проект, над которым Лампл сейчас работает вместе с командой исследователей из Facebook и Сорбонны, может предложить решение этой проблемы.

Он использует в качестве текстовой базы по несколько сотен тысяч предложений на каждом языке, но не использует предложения, переведенные напрямую.

Эта система принимает во внимание то, как одни слова сочетаются с другими. Например, в английском слова «кот» и «пушистый» используются вместе так же, как в испанском. Система обучается подобным подстановкам слов, и это позволяет ей делать более точные переводы. Затем используются те же техники, что и в случае с переводчиком Microsoft.

По словам Лампла, при помощи такой методики можно не только переводить живые языки, но и расшифровывать мертвые и потерянные.

«Но есть серьезная проблема — недостаток предложений, составленных на этих языках. Например, Манускрипт Войнича (документ XV века, написанный неизвестным алфавитом на неизвестном языке. - Би-би-си) состоит всего лишь из нескольких сотен страниц. Этого слишком мало для нашей модели»,— говорит он.

При наличии достаточного объема текста система должна справиться с расшифровкой мертвого языка, полагает Лампл.

Эта перспектива открывает и многие другие удивительные возможности. «Мы можем научиться общаться с инопланетянами,—- рассуждает Лампл.—- Но для начала им придется много говорить, причем на темы, схожие с теми, на которые обычно говорим мы».

Последнее в рубрике