ЗАДАТЬ ВОПРОС ЗАКАЗАТЬ ПЕРЕВОД

Вавилонская башня

22 Июн 2015

ПРЕДИСЛОВИЕ:

2014 года (http://www.techinput.ru/news/chelovek-protiv-machiny), а также перепечатка 15 мая этого года  публикации, появившейся в блоге Coaching for Translators http://coachingfortranslators.com) и посвященной анализу возможностей машинного перевода, сделанному Экспертом журнала Tech Comm Штефан Гентц (Stefan Gentz), вызвала резонанс в переводческой среде. К сожалению, уровень дискуссии изобиловал  такими высказываниями как «Дядя штефан, занимайся своими делами, на что ты учился, мы, переводчики, сами разберемся (нормы русского языка оставлены без изменения – прим. редактора), какими ресурсами нам пользоваться - машинным переводом или исключительно собственной головой» и заключениями типа «Машинный перевод без редактуры живого переводчика - полная фигня»

В то же время современное состояние машинного перевода и его взаимодействие с переводом «человеческим» - проблема глубокая и многогранная, являющаяся лишь одной из граней общей проблемы «человек и машина». О том, что взаимоотношение машинного и «человеческого» перевода есть своего рода взаимоотношение и баланс «содержания» и «формы» - наша следующая публикация.

ВАВИЛОНСКАЯ БАШНЯ

Перевод: искусство или задача для машины?

Компания Google другие «техномечтатели» думают, что машины сделают ЯЗЫКИ ненужными.

ГИДЕОН ЛЬЮИС-КРАУС, НЬЮ-ЙОРК ТАЙМС МЭГЭЗИН, 4 ИЮНЯ 2015 г.

Одним из чаяний эпохи просвещения, долгое время принимавшимся за должное индустрией научной фантастики, был универсальный переводчик в качестве необходимого интергалактического коммуникатора. В эпизоде сериала «Стар Трэк» 1967 года мистер Спок собирает такой коммуникатор из запасных частей, в обилии валяющихся на космической станции. Вытянутый хромированный цилиндр с мерцающими красными и зелеными индикаторами, напоминающий занесенный над вами световой меч. Объяснение принципа его работы Капитаном Кирком, которое является импровизацией на тему исследования «универсальной языковых норм" профессора Хомского (Аврам Ноам Хомский (часто транскрибируется как Хомски или Чомски), англ. Avram Noam Chomsky [ˈnoʊm ˈtʃɒmski] — американский лингвист, политический публицист, философ и теоретик. Институтский профессор лингвистики Массачусетского технологического института, автор классификации формальных языков, называемой иерархией Хомского – прим. переводчика), дается перед космическим путешествием к Гамме Канарис Н - планете пустынных островов, где они попадут в заложники к инопланетянам. Одна из них, названная ими Компаньоншей, материализуется в виде мерцающего облачка, похожего на оранжевое рождественское дерево, сделанного из перешедшей в парообразное состояние мортаделлы. Кирк выхватывает коммуникатор и обращается к своему похитителю, медленно выговаривая слова тоном учителя, приказывающего ученику положить игрушку на место и заняться делом. Могущественная Компаньонша потрясена. «Ты можешь слышать мои мысли!» - восклицает она в смятении.

Этот эпизод высвечивает утопическое устремление, долгое время служившего мотивацией универсального коммуникатора. Компаньонша может быть облаком ионизированных частиц, совокупностью сверкающих глобул материализованного сознания, скоплением желеобразных интеллектуальных потрохов, но как только Кирку удается наладить с ней общение, он первым делом начинает учить ее понимать любовь. Универсальный язык в качестве идеального средства доставки мыслей в окружающей мир всегда являлся мечтой, уходящей своими корнями в книгу Бытия. В Священном Писании такой язык был принадлежностью человечества, так хорошо координировавшего свои усилия и обладавшего такой однородностью в понимании общих задач, что все субподрядчики мира оказались способными, не теряя времени, согласовать детали строительства Вавилонской башни, достававшей своей верхушкой до небесного рая. С тех пор, однако, даже небольшие строительные проекты реализовывались с ужасными задержками.

Перевод с одного языка на другой, хоть не является невыполнимой задачей, однако, все еще процессом, осложненным внутренним противоречием, которое часто является следствием неудовлетворительной работы переводчиков. Это неудовлетворительное состояние перевода наиболее лаконично описывается итальянским выражением “traduttore, traditore”, своего рода диагнозом, замаскированным под поговорку и означающим в прямом смысле «переводчик, предатель». Тем не менее, перевод даже этой фразы, правильный с семантической точки зрения, не передает силлабическую гармонию оригинала  и, таким образом, доказывает неправомочность самого утверждения.

Перевод обещает достижение некоей языковой общности и при этом несет в себе грех предательства.  В прекрасном обзоре истории и практики перевода под названием «У Вас что, рыба в ушах?»  переводчик Дэвид Беллос объясняет саму концепцию «неверности», уходящую своими корнями в историю Оттоманской империи. Султаны и их придворные отказывались  изучать языки неверных и, таким образом, задача общения с европейским странами ложилась на плечи потомственной касты переводчиков, так называемых фанариотов. Фанариоты были греками по происхождению, имели венецианское гражданство и постоянно проживали в Стамбуле. Европейским дипломатам нравилось работать с ними, поскольку их лояльность определялась не столько смыслом иноязычного оригинала, сколько предпочтениями султана (В оттоманском турецком нет идиоматического выражения, аналогичного «не убивайте гонца, принесшего плохие вести», и поэтому работа фанариотов в буквальном смысле находилась на грани жизни и смерти.) С тех пор и существует неразрывная связь между переводом и предательством.    

Британская империя породила новый класс фанариотов, которые изобретают хромированные световые мечи-приложения утопического близкого будущего. Они -  носители языка программирования C++ и живут среди нас на полупостоянные займы, получаемые от интернета. Их большим преимуществом является отсутствие верности ни одному из султанов, а недостатком – отсутствие верности ни одному из языков.

Машинный переводчик Google Translate несомненно является коммуникатором, который сделал больше кого-либо для реализации  древней мечты из области научной фантастики в отношении исполненного спокойствия и ничем не затрудненного общения. Поисковый гигант буквально наводнил сайты интернета и интерфейсы электронной почты крохотными кнопками, нажатие на которые осуществляет мгновенный перевод в различных языковых парах. Компания  Google заявляет, что этой услугой пользуются более миллиарда раз в сутки по всему миру  более чем полу-миллиард пользователей в месяц. Мобильное приложение компании делает эти кнопки принадлежностью нашего физического мира: видеокамера предоставляет нам перевод знаков или ресторанных меню на семи языках в режиме дополненной реальности и реального времени, а разговорный режим позволяет вести свободный диалог, модерируемый машинным голосом, на 32 языках. С помощью Google Translate женщина из Конго получала инструкции в ирландской больнице во время родов, а приемные родители в штате Миссисипи растили ребенка, привезенного из сельских районов Китая.

Начиная с 2009 года, политика Белого дома в области инноваций включает в список неотложных приоритетов «автоматизированный, высокоточный перевод в режиме реального времени» для устранения всевозможных барьеров в области международной коммерческой деятельности и сотрудничества. Если это станет возможным, значительное количество местных коммерческих предприятий потеряет преимущество, полученное ими на базе их «естественного окраса», а централизация – в социальных сетях, медиапространстве, научных исследованиях -  будет ускоряться в геометрической прогрессии. Никто из разработчиков машинного перевода не считает, что мы и близко подошли к этой цели – в настоящее время  усилия в этой области направлены на добросовестную загрузку «грузового транспорта» для перемещения информации через лингвистические барьеры. Разработчики надеются на то, что машины смогут эффективнее и дешевле выполнять работу по производству текстов, информационная важность которых является задачей номер один: «Этот металл горяч», «В этом разрушенном доме находится моя мать», «Не подходи к этой змее». За рамками своего применения в Google Translate машинный перевод наиболее успешно и широко применяется в сфере составления межконтинентальных прогнозов погоды или выпуска руководств пользователя электрических бытовых устройств на 27 языках. Один из разработчиков рассказывал мне: «У нас получается прекрасный результат, если Вы эстонец, и у Вас сломался тостер».

Уоррен Вивер, основоположник в области разработок машинного перевода как-то признался: «Ни один разумный человек не может себе представить, что машинный перевод когда-нибудь сможет стать  по-настоящему стильным и элегантным. Так что Пушкин может быть спокоен». В настоящее время машинный перевод подает себя в очень скромном лабораторном одеянии. Однако, за общей целью машинного перевода скрывается более амбициозное предположение о возможности разделения информационного и стилистического компонентов переводимого предложения. Переводчики, как и поэты, тем не менее, представляют собой породу людей, для которых различия между информационными и стилистическими функциями речи никогда не были ясными или очевидными. В то же время современные переводчики практически не имеют ничего общего с разработками в области машинного перевода. А большинство ведущих разработчиков машинного перевода имеют весьма ограниченный лингвистический опыт и еще меньший – в области иностранных языков или литературы.  Подавляющее большинство из них является специалистами в области программирования. Их отношение к языку может быть описано работой ученых-атомщиков, манипулирующих радиоактивными материалами в перчатках через толстую стеклянную стену.

Большая часть алгоритмов, применяемая в поисковике Google и машинном переводчике Skype Translator, была разработана и отшлифована университетскими исследователями. В мае этого года  лингвист-информатик Лейн Шварц, преподающий в Университете штата Иллинойс в Урбана-Шампейн организовал первый панамериканский Марафон в области машинного перевода – недельный «мозговой штурм» в целях дальнейшей отработки общедоступного программного инструментария для пользователей, не обладающих ресурсной базой компании Google. Урбана-Шампейн  широко известен за пределами штата Иллинойс благодаря Дэвиду Фостеру Уоллесу, выросшему в этом городе, и Марку Андреессену, который, будучи студентом местного университета,  изобрел первый широко применявшийся графический интернетовский поисковик. (Шварц предложил также третьего: HAL 9000). (HAL 9000 (в официальных русских переводах — ЭАЛ) — вымышленный компьютер из цикла произведений «Космическая одиссея» Артура Кларка, обладающий способностью к самообучению и являющийся примером искусственного интеллекта в научной фантастике – прим. переводчика.) так и подмывает представить их в качестве двух противоположных полюсов: Уоллеса – поборника неологизмов, аллюзий и глубины и Андреессена – приверженца распространения, доступа и охвата.

По крайней мере, на этой конференции восторжествовал дух Андреессена. Несмотря на то, что на конференцию приехали участники из таких стран как Греция, Индия, Израиль, Суринам и Тайвань, практически все были привержены языку как таковому, Понимая, что язык бездонен и переменчив, они, тем не менее, собрались здесь ради математики.

Марафон проходил в конференц-холле, к которому примыкало нечто под названием iHotel. Конференц-холл представлял собой холл в форме латинской буквы U с залами для заседаний по бокам, названными в честь добродетелей технократической эры  - Лидерство, Верность, Просвещенность, Инновационность и Совершенство. Во время презентаций программисты с серьезными лицами давали такие комментарии как «Параграфы, возможно, должны быть когерентны с тематической точки зрения» или «Грамматическая структура предложения также может иметь значение». Один из выступающих сообщил, что во французском языке  иногда прилагательное ставится перед существительным, а иногда – после, «однако, - заключил он, пожав плечами, - это происходит неизвестно когда и почему».

Один из участников Марафона из США в течении двух последовательных дней носил две потрепанные «грамматические» майки. На одной было написано «Хорошая грамматика ничего не стоит!», а на другой – «Я молча поправляю вашу грамматику», и я решил, что, может быть, он видит свою алгоритмическую задачу в более широком лингвистическом контексте.  Я спросил его, знает ли он какие-либо иностранные языки, и он ответил: «Немного французского на уровне средней школы, что означает – никакой. Однако, Вы не поверите, как мало помогает знание еще одного языка в нашей работе. Когда вы работаете с таким количеством языков, знание еще одного языка только мешает». (На одной из его маек было написано: «Не следуйте за мной, я тоже потерялся».) 

Возможности машинного перевода, как объяснил Шварц, начали реализовываться после Второй мировой войны. Уоррен Вивер, ученый и государственный чиновник, узнал о работе британских криптографов, которые расшифровали немецкий код Энигма. Виверу пришло в голову, что криптографические исследования смогут разрешить одну из послевоенных задач: постоянное знакомство с публикациями на русском языке. Для решения этой задачи просто не было в достаточном количестве русскоязычных переводчиков, и даже, если бы их и было достаточно, для поддержания постоянного научного уровня, необходимого для перевода такой литературы, их потребовалась бы целая армия.  «Когда я смотрел на статью на русском языке, - писал Вивер, - я говорил себе: «Это в действительности написано на английском, однако закодировано некоторыми странными символами, которые я сейчас начну расшифровывать». В этом смысле русский язык представлялся мне всего лишь английским, одетым, однако, в вычурный костюм из кириллицы, в одном шаге от  «поросячей латыни» (форма жаргона, когда первая и вторая половина слова меняются местами, после чего к образовавшемуся слову присоединяется суффикс «-ау». например, fag=f ag=ag f ay=agfay – прим. переводчика)

В течение года-двух эта идея была отброшена как абсурдная, однако более широкий контекст алгоритмического процессинга выдержал проверку временем. В 1954 году американской общественности продемонстрировали первое применение компьютера не для вычислительных целей.  Секретарь набивал на перфокартах предложение на русском языке, компьютер гудел и «выплевывал» англоязычный эквивалент. Газета «Крисчен сайенс монитор» писала, что «электронный мозг» на этой демонстрации «даже не достиг высшей точки своих возможностей и выдавал перевод с напускной небрежностью записного интеллектуала».

Следует, однако, отметить, что та демонстрация не была чистой – компьютер был снабжен словарем пиджин (Пи́джин (англ. pidgin) — упрощённый язык, который развивается как средство общения между двумя или более группами, не имеющими общего языка – прим. переводчика.) из 250 слов, и его посадили на «диету» из простых декларативных предложений. В 1960 году один из первооткрывателей этого направления, философ и математик Иегошуа Бар-Хиллель писал, что машинный перевод никогда не сможет существовать без человеческого «постредактирования». Он обращал внимание на такие предложения как «Ручка находится в коробке» и «Коробка находится в ручке».  Машинному переводчику для успешного перевода в ситуации такой семантической двойственности необходимо будет воспользоваться не только словарем, но и «универсальной энциклопедией». По его мнению, успешная реализация машинного перевода будет возможной при условии координированных усилий трудолюбивой машины и специально обученного человека.  Научное сообщество в большинстве своем пришло к выводу, что машинному переводчику потребуется помощь специально обученных лингвистов, которые разработают все более и более абстрактные грамматические правила для «дистилляции» естественных языков с получением из них наборов формальных символов для последующей машинной манипуляции.

Эта парадигма превалировала до 1988 года (который можно считать точкой отсчета современного машинного перевода), когда группа исследователей в области распознавания речи компании IBM представила новый подход. В соответствии с этим подходом представления Уоррена Вивера о криптографии объявлялись в основном правильными, просто мощность компьютеров того времени была совершенно недостаточной для выполнения поставленной задачи. «Наш подход, - писали исследователи, – заключается в том, чтобы избегать промежуточного механизма (языка), который кодировал бы «смысл» оригинального текста». Все, что надо было сделать, это пропустить через машину большое количество параллельного текста с последующим расчетом статистической вероятности языковых совпадений. Если вы «натренируете» компьютер на достаточно большом количестве материала, он в 99,9 процентах случаев станет понимать, что слово “the butterfly” «бабочка») в англоязычном тексте соответствует слову  “le papillon” в параллельном французском тексте. Один из исследователей язвительно заметил, что с тех пор как он уволил лингвиста, система постоянно улучшала качество работы. От переводчиков, слишком озабоченных оттенками «смысла», можно было, таким образом, отказаться совсем.

Хотя некоторые исследователи до сих пор «натаскивают» свои компьютеры в целях перевода Данте с особым, человеческим изяществом, похоже, что подход, основанный на грубой силе, все еще набирает обороты. Эта базирующаяся на статистике стратегия, положенная в основу  Google Translate, Skype Translator и любой другой современной системы, прошла почти тридцатилетний период постоянного шлифования. Из уроков семантической противоречивости были сделаны выводы путем простого ее (семантики) игнорирования. Например, английское слово “bank” («банк») означает «финансовый институт» или «границу реки», во французском языке эти два значения обозначаются двумя различными словами. И когда же применять “banque”, а когда “rive”? Вероятностная модель должна диктовать компьютеру необходимость исследовать некоторые окружающие слова. Если другое предложение содержит слова “money” («деньги») или “robbery” («ограбление»), правильным переводом будет, вероятно,  “banque.” (Конечно, этот подход работает не во всех случаях – машина все равно окажется в затруднительном положении при необходимости перевода относительно простого предложения «Парижанин должен иметь достаточное количество денег для того, чтобы жить на Левом берегу»). Более того, если у вас имеется хорошая вероятностная модель того, что могут и не могут означать стандартные предложения, вы поймете, что французский эквивалент предложения “The box is in the ink-­filled writing implement” («Коробка находится в заполненном чернилами пишущем механизме») практически никогда не встречается.

Таим образом, упор в настоящее время сделан не на поиске возможностей отразить все богатства и хитросплетения исходного текста, а на использовании лингвистических моделей для сглаживания огрехов перевода. Перевод хорошей метафоры аналогичен попытке ответить на вопрос: «Какой из игроков-баскетболистов соответствует нападающему?». Современные исследователи полагают, что для ответа на этот вопрос вам не надо знать всех тонкостей американского футбола – вы просто должны озаботиться тем, чтобы отобранные игроки хорошо знали правила баскетбола. Иными словами, знание какого-либо иностранного языка и закодированной в нем универсальной культурологической энциклопедии, становится как никогда не нужным.

Многие лингвисты-информатики продолжают заявлять, что они, прежде всего, заинтересованы в «содержании», и их задачей является найти экономичные и быстрые способы передачи его при переводе. При этом они довольно напористо присвоили себе право решать, где кончается «содержание» и начинается «форма». Переводчики же не считают это такой простой задачей. Операторы машинного перевода не считают имеющим большого значения факт того, что находящийся под развалинами дома человек является чьей-то матерью.  Напротив, они видят всю избыточность и аллюзивность естественных языков не как источник их естественной тонкости, а как источник путаницы и неэффективности. И если такое отношение к языку делает их непопулярными в среде поэтов и любителей и знатоков языка, значит, так тому и быть. «Посетите конференцию Американской переводческой ассоциации, - предложил мне один из участников Марафона, - и Вы сами увидите, как они нас ненавидят».

Это, до некоторой степени, справедливо. Как объяснила мне переводчик Сьюзан Бернофски: «Они создают впечатление, что перевод – это не искусство». (Широко признаваемый литературный переводчик, пожелавший остаться анонимным, признала, что, хотя ее и беспокоит «забалтывание проблемы» специалистами машинного перевода,  она считает Google Translate прекрасным инструментам для написания памяток своей уборщице.)

Что больше всего возмущает переводчиков, так это не высокомерие машин, а присвоение ими работы забытых и анонимных людей. Машинный перевод не может не базироваться на предыдущих усилиях людей – в противном случае у машин не было бы такого параллельного языкового корпуса, так необходимого в их работе. В разговоре с израильским аспирантом я упомянул о том, что, читая страницу Википедии, посвященную Иегошуа Бар-Хиллелю, я наткнулся на информацию о том, что его внучка, Джили, знаменита в определенных кругах  своими переводами книг о Гарри Поттере. Мой собеседник этого не знал и ему, как мне показалось, было даже не интересно узнать, каким образом издатель заплатил за импорт детских книг о магии. Тем не менее, у нас бы не было того инструментария, как Google Translate для языковой пары иврит-английский, если бы Бар-Хиллель тщательно и вручную не перевел бы более 4 000 страниц чрезвычайно полезного языкового корпуса. В этом смысле, машинные переводчики, строго говоря, не переводят, а просто осуществляют скоростной поиск в созданных другими языковых корпусах. В этом и заключается «первородный грех» машинного перевода: эта сфера деятельности не существовала бы без переводчиков, которых машины, хотя и без значительного пока успеха, пытаются превзойти.

Может быть, для того, чтобы скрыть свой собственный ассоциированный комплекс вины группа специалистов машинного перевода в университете Урбана-Шампейн культивирует некоторое раздражение в отношении переводчиков. Мне неоднократно приходилось слышать от участников Марафона, что переводчики капризны, непоследовательны и вечно склонны к недовольству. И это при том, что контроль качества их переводов невозможен. Как сказал мне один из участников Марафона: «Если вы покажете переводчику анонимную версию его собственного перевода текста годичной давности, он оценит качество перевода как ужасное».

Один из лингвистов-информатиков с многозначительным видом объяснил мне причину существования более 20 английских переводов «Дон-Кихота» - просто ни один из них не правилен. Если переводчики не могут договориться между собой, что означает быть «верным» или «точным», какой смысл вообще беспокоиться об этих понятиях? Все Санчо Пансы, все переводчики и все лингвисты-информатики вместе взятые находятся в одной дырявой лодке, только операторы машинного перевода вычерпывают из нее воду, а переводчики вышивают на парусах монограммы.

Однако, как и многие инженеры, лингвисты-информатики настолько уверены в могуществе и мастерстве своих инструментариев, что склонны к потере перспективы в отношении того, чью работу они совершенствуют. Проблемой же переводчиков со времен фанариотов является вероятность того, что они могут служить интересам своих боссов, а не замыслу переводимых текстов. Тем не менее, именно переводчик задается следующими вопросами  — Какой цели служит переводимый текст? и Что закодировано в этом языке? — которые, по мнению машины, абсолютно не имеют значения.

Проблема также заключается в том, что все тексты имеют некое целеполагание, и задачей хорошего переводчика является уделить внимание языковому оформлению этого целеполагания – то есть взаимоотношению «содержания» и «формы». Странно, однако, что вера в существование «содержания», которое существует само по себе, часто заслоняет сердцевинную сущность перевода. В конце Марафона я спросил одного из его участников, почему он решил поставить свой опыт программиста на службу переводу. Он ответил (аналогично многим другим), что причиной этому было желание разработать инструментарий, который мог бы быть полезен при землетрясениях или войнах. Кроме того, он питает надежду сократить временной лаг при распространении международных новостей. Тогда я спросил его, что он имеет под этим в виду.

«Например, значительная задержка в распространении новостей о крушении самолета авиакомпании German wings».

Я не ожидал такого примера: «Но ведь задержка была продолжительностью всего 10-15 минут?»

Он резко дернул головой: «Это огромная задержка, если вы являетесь трейдером».

Я не предоставил ему никакой словесной информации, однако, моя поза или выражение лица, видимо, что-то сказали ему такого, что он расценил как невежество: «Это называется межлингвистическим арбитражом. Если в Испании произошел обвал в шахте, скорость трейдинга ценных бумаг  должна быть максимальной».

Автор статьи приводит два примера работы Google Translate:

Первый пример – это пример «испорченного телефона, показывающего, что происходит при переводе заголовка с английского языка через пять языков обратно на английский.

 

 

 

 

 

 

 

 

 

Второй пример представляет собой перевод знаменитого экзистенциального вопроса, который приводит к более точному результату 

Перевод с английского Бориса Аронштейна