ЗАДАТЬ ВОПРОС ЗАКАЗАТЬ ПЕРЕВОД

Почему "живой перевод" Гугла такой некачественный? Мнения экспертов

30 Ноя 2018

Живой перевод изначально предоставлялся только с наушниками Pixel Buds, а теперь доступен на всех наушниках с поддержкой Assistant.

Гугл

На прошлой неделе Гугл тихо изменил одну строчку на своей странице поддержки Pixel Buds. Эта строчка теперь гласит: "Гугл-переводчик доступен на всех наушниках с поддержкой Assistant и телефонах Android". Ранее эта услуга была доступна лишь владельцам Pixel Buds и телефонов Pixel. Несмотря на то, что компания не приложила ни малейшего усилия к официальному объявлению этого небольшого изменения, оно заслуживает внимания.

Для разъяснения, почему именно, сначала немного из истории наушников. В прошлом году Гугл, в обстановке нетерпеливого ожидания со стороны потребителей, запустил новый продукт - пару блестящих беспроводных наушников-вкладышей с широко разрекламированной революционной функцией живого перевода. Достаточно щелкнуть по наушнику и сказать "помоги мне говорить по-..." и назвать язык. На телефоне (до недавнего времени на Pixel) откроется приложение Google Translate. Говорите фразу, она будет переведена на необходимый язык, напечатана на экране телефона и прочитана вслух. На бумаге все выглядит, как будто новая технология Гугла заставит переводчиков опасаться за свои рабочие места.

Демонстрация инструмента для "живого" перевода на презентации прошла под бурные аплодисменты, однако когда устройства поступили в продажу, реакция была более скептической - качество перевода не соответствовало ожиданиям потребителя.

 

TechInsider проверил переводчик на десяти языках. Устройство успешно перевело простые вопросы вроде "где ближайшая больница", но как только предложение усложнялось или если у говорящего был акцент, часть информации стала "теряться в переводе". Наш штатный критик пришел к выводу, что живой перевод оказался "в некоторой степени мистификацией" судя по тому как Google Assistant с трудом понимал, что ему говорят.

 

"Правильно распознавать разговорный язык - невероятно сложно. Решение этой задачи явилось бы для Гугла масштабнейшим достижением и, когда это им удастся, они будут кричать об этом на всех углах" - утверждает старший аналитик по потребительским технологическим услугам Даниэль Глиисон. Возможно поэтому исправление страницы PixelBuds прошло так незаметно.

 

Проблема Гугла проистекает не из самого процесса перевода - в последние годы компания вполне повышает его качество. В 2016 г. Гугл перевел Переводчик на систему искусственного интеллекта с глубоким обучением. До тех пор инструмент переводил слова по отдельности и применял лингвистические правила чтобы сделать предложение грамматически правильным, что приводило к так хорошо знакомым нам отчасти "рваным" переводам. Нейронные же сети, напротив оценивают предложение целиком и "угадывают" возможный правильный вариант на выходе, используя большой объем текстов, по которым их обучали. Используя машинное обучение, эти системы могут оценить контекст предложения и предоставить намного более точный перевод.

Интеграция машинного обучения была одной из задач Google Brain, отдела компании, занимающегося глубоким обучением. Google Brain также использовал нейронные сети в другом важнейшем для живого перевода инструменте - распознавателе речи - и в этой области дела пошли плохо. Google Assistant действительно тренируют на огромном материале человеческой речи, к которой он применяет инструменты машинного обучения для выявления устойчивых структур, чтобы в дальнейшем правильно распознать, что вы говорите, когда попросите его о переводе.

Только это не срабатывает. Итак, если Гугл сумел в некоторой степени внедрить нейронные сети в процесс текстового перевода, почему Assistant до сих пор не может надежно распознавать речь, используя ту же технологию? Матик Хорват, исследователь в области распознавания языка в Кембриджском университете утверждает, что дело в данных, используемых для обучения нейронной сети.

"Системы адаптируются к выданному им обучающему материалу" - говорит он - "Качество распознавания падает когда система слышит что-либо ей незнакомое. Например, если обучать программу на обычных диалогах, она плохо справится с распознаванием в шумной обстановке.

Посторонний шум - главный противник любого ученого, стремящегося улучшить технологию распознавания речи. В прошлом году Гугл выделил 300 тыс. евро из своего инновационного фонда Цифровых новостей фирме "Тринт", стартапу из Лондона, являющемуся сегодня лидером в распознавании речи и использующему иной алгоритм. Однако и он пока не лучше справляется с проблемой шума.

 

На сайте "Тринт" присутствует целый раздел, посвященный рекомендациям по записи звука в условиях отсутствия шума. Также там утверждается, что процент ошибок составляет от пяти до десяти, но также недвусмысленно поясняется, что речь идет о качественных записях. По записям, содержащим наложение речи или шум, официальной статистики нет. "Самое трудное для нас," - утверждает глава "Тринт" Джефф Кофман, - "объяснить нашим пользователям, что качество ограничено качеством получаемой записи. С эхом, шумами, даже при сильном акценте алгоритм будет ошибаться."

Трудности распознавания речи в обычных условиях означают, что обучение нейронной сети - самый дорогой и продолжительный этап ее создания. А предоставление услуги перевода только на одном устройстве, как сделал это Гугл с Buds, определенно не помогает системе обучаться. В самом деле, чем больше речи она обработает, тем больше данных будет добавлено в ее алгоритмы - и тем лучше машина сможет научиться распознавать незнакомые стили. Гугл не предоставил нам для интервью сотрудника пресс-службы, но порекомендовал ознакомиться с публикацией в блоге, посвященном Google Assistant.

 

Глиисон считает эту ситуацию одной из причин того, что Гугл распространил сервис на большее количество устройств. "Один из наиболее сложных аспектов распознавания речи - сбор достаточного количества информации об акцентах, просторечиях, идиомах, которые сильно разнятся от региона к региону" - говорит он. "Оставив этот сервис доступным только для Pixel, Гугл никогда не смог бы охватить эти регионы в объеме, достаточном для обработки необходимого количества информации."

Сбор данных, однако, имеет и оборотную сторону. Чем больше данных, тем более успешно работает нейронная сеть - но эта информация хранится в процессорах, размер которых растет соответственно накопленному объему информации. Эти процессоры еще не скоро будут встроены в мобильные устройства, так что в настоящий момент обработка речи в реальном времени невозможна. Всякий раз, когда Вы используете Google Assistant, сказанное Вами пересылается в центр обработки информации, а затем обратно на Ваш телефон. Никаких вычислений на месте не производится, так как существующие телефоны не могут вместить объем данных, необходимых нейронной сети для обработки речи.

В то время как Google Assistant справляется с задачей вполне расторопно, замечает Хорват, системе еще далеко до распознавания в реальном времени. Одна из задач, стоящих сегодня перед компанией - разработать способ интеграции обработки нейронных сетей в мобильные телефоны.

Разработчики уже готовят выпуск маленьких внешних чипов, способных эффективно работать с нейронными сетями, которые, возможно, будут встраиваться в телефоны. Например, ранее в октябре компания Huawei объявила о выходе чипа со встроенным ИИ, который, по её утверждениям, способен обучать алгоритмы нейронных сетей за считанные минуты.

Хотя у Гугла есть собственный подобный чип, Edge TPU, он предназначен для коммерческого использования и пока не используется в смартфонах. Хорват считает это ахиллесовой пятой Гугла - являясь компанией, производящей программное обеспечение, Гугл не обладает достаточным влиянием на производителей, чтобы гарантировать разработку продукта, обеспечившего бы все устройства Android возможностью обработки нейронных сетей - в отличие от Apple, например.

В ближайшем будущем Гугл, возможно, будет вынужден несколько сбавить темп и тщательнее заняться улучшением своей технологии распознавания речи. И, несмотря на широкую критику "живого перевода", считает Нейл Шах, промышленный аналитик, партнер и научный директор в институте технологий, мобильных технологий и экосистем в Каунтерпойнте, расширение круга пользователей этой технологии является для Гугла способом выхода на лидирующую позицию. "Гугл обладает аудиторией в два миллиарда людей, использующих Android." - заявляет он - "Он находится в лучших условия для более быстрого расширения, чем его конкуренты, и для того чтобы удержать лидерство, по мере того как все больше владельцев Android начнут пользоваться новыми голосовыми возможностями телефонов, и на Гугл обрушится волна информации для обучения.

Даниэль Глиисон согласен с такой точкой зрения. Вне зависимости от того, превалирует ли в критических оценках легкая издевка или нет, маневр Гугла в конечном счете приведет к значительным улучшениям. Как и всегда с ИИ, он должен обучиться - и, по определению, всегда выходит на рынок недоработанным. "Вы рискуете, что люди скажут, что продукт не работает, как заявлено," - говорит он, - "но это единственный способ доводки продукта". Переводчикам еще ох как рано опасаться за свои рабочие места!