Мы будем рады, если вы поддержите портал



Вконтакте Одноклассники Твиттер Фейсбук

красный зелёный голубой

Google сделал рекордно точную систему машинного перевода на основе нейросетей

Google сделал рекордно точную систему машинного перевода на основе нейросетей
ПОЛНЫЙ АНТИПАРАЗИТАРНЫЙ КОМПЛЕКТ (НА 10 ДНЕЙ ЧИСТКИ). ЛИМОННО ЭВКАЛИПТОВАЯ ЧИСТКА

Специалистыпо искусственному интеллекту из Googleпредставили новую системумашинного перевода, которая основанана принципах глубинного обучения. Поформальным оценкам и по мнению опрошенныхдобровольцев, точность перевода системойсущественно выше, чем у существующиханалогов, хотя и не достигает покаточности живых переводчиков. Описаниесистемы выложено в виде препринта вбазе arXive.org.

Точный машинныйперевод с одного языка на другой являетсяодной из классических задач в областиискусственного интеллекта. Покасуществующие системы не способныконкурировать с живыми переводчиками,однако быстро их догоняют. За последниегоды точность перевода существенновыросла за счет применения продвинутыхметодов машинного обучения, развитияпараллельного вычисления на графическихпроцессорах и появления большогоколичества баз данных с текстами на разных языках, которые могут служить вкачестве обучающей выборки.

Популярныесистемы машинного перевода можно груборазделить на традиционные, основанныена переводе отдельных фраз, и на болееновые, основанные на нейронных сетях,учитывающих не только типичное значениефразы, но и ее контекст. Нейронные сети,которые используются в этом последнемслучае, чаще всего относятся к классурекуррентных, их основным отличиемявляется то, что их ответ зависит нетолько от поступающих на вход данных,но и от предыдущего состояния сети. Этопозволяет системам «помнить» о том, чтоони «видели» раньше, и учитывать это привыборе того или иного ответа. Грубоговоря, именно это позволяет системепонимать, что при переводе фразы «тугойлук» второе слово не следует трактоватькак onion — наэто намекает первое слово исходнойфразы, которое должно изменить состояниенейросети. Приэтом программисты не обязаны заранееуказывать или даже знать правила сочетаемости слов друг с другом,этому нейросеть учится самостоятельнона базе готовых текстов.

Следуетотметить, что элементарными единицамиданных в нейросети GMNT, вотличие от аналогов, являются не слова,а их фрагменты (wordpieces), которых в даннойработе используется 32 тысячи штук. Пословам создателей, это позволяет добитьсякомпромисса между универсальностью иточностью с одной стороны, и скоростьювычислений и обучения — с другой. Делов том, что рекуррентные нейросети могутработать не только на уровне слов, но ина уровне букв. Так работают, например,нейросети в развлекательных проектах,где идет генерация текстов или музыки«в стиле» некоторого образца. В областимашинного обучения это, теоретически,может позволить добиться перевода дажетаких понятий, которых нет в обычныхсловарях (позволит делать транслитерацию,«кальку» с одного языка на другой ит.д.). Однако работа на уровне букв в случае машинного перевода технически существенно сложнее из-завычислительных проблем и необходимостидлительного обучения. В свою очередь,работа на уровне целых слов приводит кпроблемам с суффиксами, окончаниями ипрочими флексиями, что для перевода очень нежелательно.

Другие пары дали сравнимыерезультаты, однако в каждом из них«человеческие» переводы пока все-такинемного точнее, чем нейросетевые. Следует, однако, отметить, что авторы всвоей работе не пытались добитьсямаксимально точного результата, а скореестремились к балансу между правильностьюперевода и вычислительной сложностью.Для этого использовалось множествоэвристик, которые упрощают и ускоряют работу системы, номогут вести к ошибкам. Поэтому увеличениевремени обучения и доступностьвычислительных ресурсов могут ещебольше увеличить точность переводадаже без существенной переработкиархитектуры новой системы.

Ранее нейросети (другого типа) уже использовались в системе Google Translate. Однако тогда их роль в перевода ограничивалась лишь распознаванием текста на изображении. Сам перевод надписей «на ходу» проводился традиционным путем. Подобные системы перевода дополненной реальности создают несколько компаний, в некоторых случаях они даже обходятся без подключения к интернету.

АлександрЕршов

N+1

Поставьте оценку:
Рейтинг 0 (Проголосовало: 0)
Понравилось? Поделитесь с друзьями через кнопки социальных сетей!

Добавить страницу в закладки

0
06:40
29
Популярные видео каналы