ЗАДАТЬ ВОПРОС ЗАКАЗАТЬ ПЕРЕВОД

Упрямые цифры

12 Ноя 2014

Йост Цецше (Jost Zetzsche)

В недавнем разговоре Дэвид Канек (David Canek), основатель компании Memsource, поделился со мной несколькими любопытными наблюдениями, которые я хотел бы донести и до вас. Для несведущих: Memsource - это инструмент организации среды перевода, основанный на "облачных" технологиях, внедряемый на рынке примерно с 2010 г. и в настоящее время насчитывающий около 30 000 зарегистрированных пользователей. Это число немного вводит в заблуждение, поскольку включает в себя всех, кто когда-либо прошел регистрацию, пусть даже и ради опробования инструмента в действии, но эта программа все же продолжает расширять свою базу пользователей. И тому есть веские причины. Поскольку все ресурсы хранятся в Сети (потому и "облачные" технологии), переводческий редактор можно выбрать либо как веб-интерфейс, либо как устанавливаемую на компьютер программу, при практически идентичной функциональности. И действительно, когда на днях я показывал веб-интерфейс переводчикам Европарламента в качестве примера дружественного пользователю интерфейса, можно было чуть ли не воочию увидеть несчастных призраков прошлого с корявыми веб-интерфейсами, выдуваемых из их мозгов.

Но мне хочется поговорить не столько о Memsource как инструменте для перевода, сколько о том, как пользователи его используют. Поскольку это облачный сервис, пражской компании не составляет труда собрать воедино статистику по всему "облаку". Дэвид со своей командой недавно изучил в процентах степень использования таких функций как память переводов (ПП), терминологическая база, степень задействования машинного перевода (МП), а также тип используемого программного ядра ("движка") машинного перевода. И вот каковы результаты:

Память переводов: 28,8% пользователей не используют функцию памяти переводов (в отличие от 71,2% тех, кто пользуется ею).

Терминологическая база: 61,6% не используют функцию терминологической базы (в отличие от 38,4% тех, кто пользуется ею.).

Машинный перевод: 53,8% не используют функцию машинного перевода (в отличие от 46,2% тех, кто пользуется ею).

Тип используемого "движка" машинного перевода: Из числа всех пользователей машинного перевода (МП) свыше 98% пользуются "движком" Google Translate или различными вариантами Microsoft Bing Translator (в сопоставлении с менее чем 2% пользователей, использующих коммерческие "движки", даже несмотря на то, что существуют инструменты с заданной конфигурацией, подключающие к следующим "движкам" машинного перевода: Apertium, Asia Online, KantanMT, LetsMT, MoraviaMT, NICT, PangeaMT, Systran и Tauyou).

Эти цифры имеют очень высокую значимость. Хотя я уверен, что они в некоторой степени будут отличаться в отношении других программных инструментов, бьюсь об заклад, что и там сходная общая тенденция.  

Изучим данные цифры поподробнее. Статистика по функции памяти переводов, наверное, самая удивительная. Почти треть всех пользователей в действительности не пользуется памятью переводов (ПП). В некотором смысле я как давний противник термина "инструмент для работы с памятью переводов" порадовался бы этому, однако, все же представляется странным, что так много пользователей недооценивает ПП. Могу лишь предположить, что большинство этих пользователей переводит лишь время от времени (для таких имеется бесплатная версия Memsource) и не вполне понимает концепцию ПП, либо им интересна лишь возможность использования машинного перевода ради множества форматов файлов, поддерживаемых программой Memsource. Если это так, пометим для себя ради оставшейся статистики.

Статистика по функции терминологической базы не столь удивляет, хотя я бы ожидал даже меньший процент использования терминологических баз. В этой колонке (и везде) я часто высказывал мнение о плачевном недооценивании терминологических компонентов в программных средах перевода. В этом смысле действительно позитивным сдвигом становится факт, что терминологическую базу задействует более трети пользователей, особенно если считать верным наше предположение о сегменте непрофессиональных переводчиков.

Теперь о машинном переводе. Последние несколько лет раздается хор голосов, особенно в сообществе сторонников МП, утверждающих, что несмотря на то, что множество переводчиков жалуются в адрес МП, достаточно большой их процент "тайно" им пользуется. Учитывая, что почти половина всех пользователей Memsource точно пользуется МП, полагаю, в таком утверждении есть своя правда. Разумеется, нужно сделать некоторую поправку на непрофессиональных переводчиков, но с уверенностью можно сказать, что значительно более трети всех профессиональных пользователей Memsource использует МП (больше, чем тех, кто пользуется терминологическими базами). Конечно, было бы любопытно проанализировать эту статистику и далее, чтобы установить, к примеру, какие языковые пары задействуются и в какой степени, а также каким образом результаты, выдаваемые машинным переводом, в действительности используются.  Однако, Дэвид со своей командой предпочел сосредоточиться лишь на обобщенной статистике использования программы.

Пожалуй, больший интерес вызывают типы используемых "движков" машинного перевода. Почти все пользуются общедоступными универсальными "движками" (Google, Microsoft), отсылающими сегменты оригинала поставщикам сервиса МП для их последующей обработки. Фактически, в конкретном случае c Memsource, значительная доля пользователей даже предпочитает отсылать переведенные сегменты в Microsoft. Такая функция называется "Microsoft и обратная связь" (“Microsoft with Feedback”)1 и проистекает из соглашения между компаниями Memsource и Microsoft, согласно которому пользователи ничего не платят при использовании данной функции.  Взамен пользователи отсылают в адрес Microsoft и переведенные сегменты. Учтите, что с Memsource можно также использовать обычный "движок" Microsoft.

И это любопытно в отношении ответов на два вопроса. Первый: изменилось ли наше представление о совместном использовании данных настолько, что нам вполне комфортно, когда большая часть наших данных находится в доступе у крупных корпораций вроде Google и Microsoft? Полагаю, многие наши клиенты ответили бы на этот вопрос громогласным "нет". Я бы не хотел здесь ворошить осиное гнездо, однако, ответил бы этим клиентам так: "Значит, вы не хотите, чтобы я использовал Gmail и иные веб-сервисы, также анализирующие данные?". В какой-то степени это бы разрешило первый вопрос.

Однако, все это подводит нас ко второму вопросу. Если столь многие используют машинный перевод, почему бы не пользоваться индивидуально сконфигурированными "движками"? В конце концов, сообщество сторонников МП настаивает, что именно в использовании таких "движков" наблюдается реальный прогресс. Подозреваю, что хотя многие разработчики технологий МП и утверждают, что (теоретически) создание индивидуально сконфигурированных "движков" и использование сервисов МП не составляет труда, на практике это совсем не так. Похоже, у этих разработчиков еще много работы - либо в том, чтобы сделать пользование сервисами удобнее, либо в демонстрации того, что результаты действительно превосходны. Это еще предстоит увидеть, но вероятно, результат будет сочетанием обоих аспектов. 

 

Ссылки.

1. Более подробно о функции Microsoft with Feedback здесь: http://wiki.memsource. com/wiki/Machine_Translation.

 

The ATA Chronicle

ноябрь/декабрь 2014 г.