ЗАДАТЬ ВОПРОС ЗАКАЗАТЬ ПЕРЕВОД

ОДА МАШИННОМУ ПЕРЕВОДУ

26 Фев 2016

Для многих, работающих в мире перевода, машинный перевод или MT (Machine Translation) и постредактирование неразрывно взаимосвязаны. Как бы ни был хорош результат машинного перевода, тексты, переведенные с его помощью, нельзя использовать для публикации без обработки человеком – пост-редактором, который оценит точность и качество перевода и внесет необходимые исправления.

Конечно, существуют и исключения, например база знаний Microsoft, но даже она подвергается пост-редактированию, хотя и при помощи процесса трех П: (Пост-редактирование После Публикации) – форма пост-редактирования конечным пользователем, активно пропагандируемая Крисом Уэндтом (Chris Wendt), руководителем группы управления Microsoft по разработке программ машинного перевода.

Возможно, в «лагере сторонников машинного перевода» этого практически не заметили, но реальное использование машинного перевода профессиональными переводчиками все больше и больше интегрируется в существующие процессы. Правда, все еще есть «традиционные» пост-редакторы, которые работают, в основном, с «сырым» машинным переводом, но их очень трудно найти, и это вам подтвердит любой поставщик услуг письменного перевода, который пытался привлечь таковых к работе. Почему? Потому что обычного переводчика этому не учат, да и в целом, такая работа не соответствует ожиданиям переводчиков. Признавая существование и этой ситуации, и значительных баз данных даже в общедоступных системах машинного перевода, поставщики программ автоматизированного перевода (Computer-Aided Translation — CAT) рассмотрели возможность внедрения этих данных в рабочий процесс (помимо простого отображения предлагаемых вариантов перевода полного сегмента из систем MT, которые часто оказываются бесполезными). Вот несколько примеров.

Некоторые программы CAT, включая программы Wordfast Classic и Anywhere, Trados Studio, Déjà Vu и CafeTran, используют функцию авто-заполнения, предлагающую варианты перевода субсегментов из MT (от которых уж точно больше пользы, чем от целого сегмента). В некоторых программах, например, Wordfast и Déjà Vu, эти варианты поступают из нескольких разных систем MT.

Программа Déjà Vu использует фрагменты MT для «ремонта» частичных совпадений в памяти или базе данных переводов (Translation Memory – TM).

Программа Star Transit использует процесс, который называется «машинный перевод на базе подтвержденной памяти TM». Коммуникация в нем происходит наоборот: содержание памяти TM используется для оценки предлагаемых вариантов машинного перевода. В данное время идет разработка аналогичного процесса для программы OmegaT.

Программа Lift использует машинный перевод для выявления совпадений субсегментов в базах данных TM таким образом, чтобы даже память TM малого объема могла предложить правильные варианты перевода субсегмента. Программа Lift была разработана фриланс-переводчиком Кевином Фланаганом (Kevin Flanagan) в качестве проекта его диссертации в Университете Суонси (Swansea University). Сейчас Кевин работает на компанию SDL, и его технологии скоро появятся в различных продуктах SDL.

Еще одна программа, Lilt, использует систему, которая обновляет программу машинного перевода с каждым законченным сегментом и меняет предлагаемый вариант машинного перевода в интерактивном режиме с каждым словом, вводимым в систему. Программа Lilt также использует машинный перевод для автоматического определения форматирования целевого сегмента.

Совершенно очевидно, что в будущем появится еще много чего интересного для креативного использования машинного перевода, что будет способствовать росту производительности профессионального переводчика.

С учетом всего этого становится ясно, что старая и, можно сказать, отжившая система оплаты «за слово» скоро прекратит свое существование на большей территории переводческого мира. Почему? Впервые мы попробовали использовать ТМ на начальной стадии ее развития – в 1990-х годах. Тогда мы не предупредили  наших клиентов о внедрении новых способов повторного использования содержания ТМ и реально смогли значительно увеличить свои доходы по некоторым проектам. Больше это не сработает. В 21 веке все процессы становятся более прозрачными, и поэтому нет смысла прибегать к таким закулисным сделкам ни с этической, ни с общей точки зрения.

Благодаря использованию памяти TM для перевода, стало относительно легко (хотя и болезненно для некоторых) делиться сэкономленными средствами с клиентами (поставщиками переводческих услуг или прямыми заказчиками). Все программы автоматизированного перевода позволяют выполнять анализ повторов и полных/частичных совпадений. И решение этих вопросов было (и остается) предметом переговоров между переводчиками и их заказчиками.

Примерно пять лет назад пост-редактирование машинного перевода стало играть более заметную роль, и сразу же возникла необходимость разработки новых подходов в системе вознаграждения. Некоторые пользовались системой оплаты с учетом критерия времени, некоторые допускали, что машинный перевод в целом зависит от качества определенного процента совпадений в памяти TM. Но возможно наиболее прозрачной оценкой был расчет дистанции редактирования (т.е., оценка того, сколько исправлений было сделано в каком-либо одном сегменте, который затем можно было бы использовать в виде схемы, аналогичной частичному совпадению, для предложения справедливого вознаграждения).

Новые технологии, в частности, способ использования машинного перевода эволюционировали в вид деятельности, который, по-моему, практически невозможно измерить. Машинный перевод больше не требуется пост-редактировать, но он глубоко интегрирован в существующие процессы и со временем эта интеграция будет углубляться еще больше; кроме того, можно использовать не один, а много разных источников машинного перевода, предоставляющих нам ресурсы для работы. Позволит ли это повысить производительность переводчиков? Надеюсь, что да. Иначе, какой смысл пользоваться машинным переводом в принципе. Будет ли эта дополнительная производительность достаточно последовательной, чтобы ее можно было использовать в качестве механизма оценки? Я абсолютно уверен, что нет.

Так что же делать?

На недавней конференции в Рейкьявике предположили, что эта развивающаяся технология потребует от нас полного отказа от расценок за слово, строку или страницу. Мы должны будем научиться оценивать свою работу за проект в целом и (или) с учетом критерия времени. В этом есть смысл. В конце концов, практически все поставщики профессиональных услуг (за исключением перевода) работают именно так. Естественно, что самая первая реакция была следующая: «Мой клиент никогда на это не пойдет!»

Возможно, и не пойдет. Но именно мы научили клиентов оценивать свою работу, исходя из количества слов. Теперь, когда мы двигаемся в сторону «маловероятных» с сегодняшней точки зрения изменений, нам, наверное, придется снова приучать клиентов к мысли о том, что теперь мы будем оценивать свою работу другим способом.

Используя сравнительное ценообразование для любого конкретного проекта, можно объяснить клиентам основные преимущества нового метода расчета для их итоговых расходов.

Мне не терпится как можно скорее отказаться от расчетов по количеству слов и начать работать как все прочие специалисты, которые могут подсчитать, во сколько оценить тот или иной проект, как, например, любой электрик или юрист. И по иронии судьбы, я думаю, что это произойдет благодаря развитию технологий. Ведь, чему быть, того не миновать!

Джост Цецше (Jost Zetzsche),

соавтор