Кoмпaния Google сoздaлa продвинутый синтезатор речи нового поколения Tacotron 2, который основан на нейросети и может говорить с тембром, ритмом и произношением, не отличающимися от человеческой речи. Об этом сообщает TechCrunch.
Алгоритм Tacotron 2, работающий на основе двух нейронных сетей, представила команда разработчиков Google с участием Джонатана Шена. Печатная версия конвертируется в Tacotron-спектрограмму, где распределяются ритм и ударения. Слова генерируются в аналоге WaveNet. Также была добавлена система сбора данных для обучения нейросети.
Отмечается, что аудиозапись на самом деле похожа на язык живого человека. Темп речи звучит достаточно убедительно, а основные задержки происходят на словах с необычным произношением. Однако часть слушателей заявили, что система все же произносит некоторые слова "ломано".
Образцы работы Tacorton 2 уже можно послушать на официальном сайте Google. Вероятно, данную технологию сразу начнут использовать в продуктах компании.
В то же время одной из основных проблем нового алгоритма называют отсутствие регулирования тона речи. Из-за этого невозможно предсказать, какая фраза прозвучит возвышенно, а какая — грубо.
Как сообщал MIGnews.com.ua ранее, американская корпорация Google разработала персонализированную ленту новостей, наполнение которой формируется на основе интересов каждого из пользователей.