Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
Кратко рассмотрим некоторые из важных работ, написанных в этот период.
В 2013 г. на Международной конференции по акустике, обработке речи и сигналов (International Conference on Acoustics, Speech, and Signal Processing, ICASSP) Хейга Дзэн и его коллеги из Google представили доклад под названием «Статистический параметрический синтез речи на основе глубоких нейронных сетей» (Statistical parametric speech synthesis using deep neural networks) [2373] . В нём в качестве замены комбинации деревьев решений со скрытыми марковскими моделями исследуются полносвязные нейронные сети (вплоть до пятислойных) с сигмоидальными функциями активации. Для оценки результатов использовались парные сравнения 173 предложений, синтезированных с применением старого и нового подходов. Каждая пара предложений оценивалась пятью оценщиками, при этом каждый из оценщиков, участвовавших в эксперименте, выполнял не более 30 сравнений. Хотя число параметров старой и новой модели было равным, новая модель уверенно обошла старую.
2373
Zen H., Senior A., Schuster M. (2013). Statistical parametric speech synthesis using deep neural networks / Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2013 // https://doi.org/10.1109/ICASSP.2013.6639215
На той же конференции Шийин Кан и его коллеги из Лаборатории человеко-компьютерных коммуникаций (Human Computer Communications Laboratory) Китайского университета Гонконга представили собственное исследование [2374] , в котором использовали в параметрической системе синтеза комбинацию глубоких сетей доверия со скрытыми марковскими моделями. Для оценки качества синтеза применялась усреднённая субъективная оценка (MOS, мы упоминали эту метрику в главе, посвящённой машинному переводу) по пятибалльной шкале. По сравнению с базовым подходом, основанным на использовании только скрытых марковских моделей, удалось добиться улучшения метрики с 2,86 до 3,09 балла (правда, оценка производилась лишь по десяти образцам речи от каждой из моделей десятью оценщиками).
2374
Kang S., Qian X., Meng H. (2013). Multi-distribution deep belief network for speech synthesis / Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2013 // https://doi.org/10.1109/ICASSP.2013.6639225
В том же году в журнале IEEE Transactions on Audio, Speech, and Language Processing была опубликована совместная работа [2375] исследователей из Microsoft и Национальной инженерной лаборатории по обработке языковой и речевой информации (National Engineering Laboratory of Speech and Language Information Processing) Университета науки и технологий Китая (University of Science and Technology of China, USTC), в которой также исследовались возможности комбинации скрытых марковских моделей с глубокими сетями доверия и ограниченными машинами Больцмана. Здесь авторы использовали попарные сравнения (50 предложений от каждой из оценивавшихся моделей и пять оценщиков) и продемонстрировали статистически значимое превосходство новых подходов (ограниченные машины Больцмана показали несколько лучший результат, чем глубокие сети доверия, однако разница между ними не была статистически значимой).
2375
Ling Z.-H., Deng L., Yu D. (2013). Modeling Spectral Envelopes Using Restricted Boltzmann Machines and Deep Belief Networks for Statistical Parametric Speech Synthesis / IEEE Transactions on Audio, Speech, and Language Processing, Vol. 21(10), pp. 2129—2139 // https://doi.org/10.1109/tasl.2013.2269291
Далее, отталкиваясь от результатов, полученных Хейгой Дзэном и его коллегами, учёные из Центра исследования речевых технологий (Centre for Speech Technology Research) Эдинбургского университета изучили [2376] различные виды представлений параметров на входе модели, предсказывающей входные параметры вокодера в SPSS-системе. Это была обобщающая работа, где авторы опробовали разные подходы и методы, в результате им удалось улучшить системы, основанные на скрытых марковских моделях. Хотя авторы и не смогли создать нейросетевую систему синтеза, которая оказалась бы лучше системы, основанной на скрытых марковских моделях, тем не менее их работа указала верное направление для дальнейших исследований в области нейросетевого синтеза речи.
2376
Lu H., King S., Watts O. (2013). Combining a vector space representation of linguistic context with a deep neural network for text-to-speech synthesis / Proceedings of the 8th ISCASpeech Synthesis Workshop (SSW), 2013 // http://ssw8.talp.cat/papers/ssw8_PS3-3_Lu.pdf
В 2014 г. группа исследователей из Microsoft повторила успех Хейги Дзэна и его коллег из Google, применив в качестве классификатора полносвязную сеть с тремя обучаемыми слоями по 1024 нейрона в каждом. Они использовали небольшой обучающий корпус размером около пяти часов речи (на корпусах подобного или меньшего размера методы статистического параметрического синтеза в то время могли продемонстрировать превосходство над системами синтеза, основанными на unit selection). При этом авторы показали, что при применении сети меньшего размера (три обучаемых слоя по 512 нейронов) система нейросетевого синтеза речи не в состоянии статистически достоверно превзойти использованную в качестве эталона систему синтеза, основанную на скрытых марковских моделях [2377] . В том же году этот же коллектив авторов представил на конференции Interspeech-2014 работу [2378] , в которой было показано, что комбинированная архитектура, сочетающая полносвязную и рекуррентную двунаправленную LSTM-сеть, позволяет получить ещё более качественные результаты синтеза.
2377
Qian Y., Fan Y., Hu W., Soong F. K. (2014). On the training aspects of deep neural network (DNN) for parametric TTS synthesis / Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2014 // https://doi.org/10.1109/ICASSP.2014.6854318
2378
Fan Y., Qian Y., Xie F., Soong F. K. (2014). TTS synthesis with bidirectional LSTM based recurrent neural networks / Interspeech 2014, 15th Annual Conference of the International Speech Communication Association, Singapore, September 14—18, 2014 // https://www.isca-speech.org/archive/archive_papers/interspeech_2014/i14_1964.pdf
На конференции Interspeech-2015 Рауль Фернандес и его коллеги из компании IBM продемонстрировали, что при использовании метода unit selection двунаправленная LSTM-сеть лучше справляется с выбором элементов в фонетической базе, чем «донейронный» алгоритм (в качестве базы для сравнения применялись «леса случайных деревьев» [random forest]). Фернандесу и его коллегам удалось добиться улучшения величины этой метрики на 0,29 пункта (с 3,18 до 3,47; для автоматизированной слепой оценки было использовано 40 фраз и 19 оценщиков) [2379] .
2379
Fernandez R., Rendel A., Ramabhadran B., Hoory R. (2015). Using Deep Bidirectional Recurrent Neural Networks for Prosodic-Target Prediction in a Unit-Selection Text-to-Speech System / Interspeech 2015, 16th Annual Conference of the International Speech Communication Association, 2015 // https://www.isca-speech.org/archive/interspeech_2015/i15_1606.html
В 2015 г. на конференции ICASSP-2015 исследователи из уже знакомого нам Центра исследования речевых технологий Эдинбургского университета представили собственную систему нейросетевого параметрического синтеза речи, которая на этот раз смогла уверенно обойти эталонную скрытую марковскую модель. При этом авторы изобрели своеобразную нейросетевую архитектуру, в которой полносвязная сеть имела в числе своих слоёв один слой с меньшим числом нейронов, представляющий собой своеобразное «бутылочное горлышко». Значения сигналов, возникшие в этом слое на шаге x, передавались на специально выделенные для этой цели нейроны входного слоя сети на шаге x + 1. В некотором роде авторы, таким образом, переизобрели рекуррентные нейронные сети. Также авторы, стремясь уйти от трудоёмких попарных сравнений образцов синтезированной речи, изобрели собственную методику оценки качества синтеза, получившую название MUSHRA (MUltiple Stimuli with Hidden Reference and Anchor, Множественные стимулы со скрытой точкой отсчёта и якорем).
В тесте приняли участие 15 оценщиков — носителей английского языка без диагностированных нарушений слуха. Каждому из них было предложено оценить 20 наборов, которые были случайно отобраны из 72 синтезированных фраз. Каждый набор включал десять образцов синтеза одного и того же предложения, девять из них были синтезированы одной из девяти оцениваемых систем, а одна была записью естественной речи, используемой в качестве скрытой точки отсчёта. Участников попросили оценить каждый образец по шкале от 0 (крайне плохо) до 100 (абсолютно естественно звучащая речь). Им также было дано указание дать ровно одному из десяти образцов в каждом наборе оценку 100. В результате теста исследователи получили 300 наборов оценок. В одном из них скрытая точка отсчёта не была оценена в 100 баллов, поэтому этот набор был исключён из дальнейшего анализа.
Авторы также пытались расширить выходной слой сети, чтобы поручить ей выполнение дополнительных вторичных задач (например, предсказание центральных частот формант F1—F4) в надежде, что это улучшит внутренние представления, выучиваемые сетью, что, в свою очередь, положительно повлияет на точность решения основной задачи. Однако здесь авторам не удалось добиться статистически значимых улучшений [2380] . Вообще, публикация исследователями из Эдинбурга отрицательных результатов наряду с положительными, на мой взгляд, свидетельствует об их исключительной добросовестности.
2380
Wu Z., Valentini-Botinhao C., Watts O., King S. (2015). Deep neural networks employing multi-task learning and stacked bottleneck features for speech synthesis / Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2015 // https://doi.org/10.1109/ICASSP.2015.7178814
В том же 2015 г. в Японии на Первом международном симпозиуме по машинному обучению в области обработки устной речи (First International Workshop on Machine Learning in Spoken Language Processing, MLSLP) Хейга Дзэн представил обзор прогресса в области систем статистического параметрического синтеза (от скрытых марковских моделей до LSTM-сетей). Обзор завершался следующим выводом: «Одной из основных причин, по которой HMM стали доминирующей акустической моделью в SPSS, является наличие программного обеспечения с открытым исходным кодом для создания полностью функциональных, „сквозных“ систем. Поскольку существует ряд пакетов программного обеспечения с открытым исходным кодом для глубокого обучения, автор ожидает, что искусственные нейронные сети станут следующей доминирующей акустической моделью в ближайшем будущем» [2381] (сквозная, end-to-end система — система, которая реализует весь функционал от начала до конца; в данном случае система, которая преобразовывала бы текстовое представление в звуковой сигнал).
2381
Zen H. (2015). Acoustic Modeling in Statistical Parametric Speech Synthesis — From HMM to LSTM-RNN / Proceedings of the First International Workshop on Machine Learning in Spoken Language Processing (MLSLP2015), Aizu, Japan, 19–20 September 2015 // https://research.google/pubs/pub43893/
В 2016 г. совместная британо-японская группа исследователей из Эдинбургского университета и Национального института информатики Японии продемонстрировала превосходство глубоких моделей над скрытыми марковскими моделями как в традиционном статистическом параметрическом синтезе, так и в «гибридном синтезе» (этот термин авторы использовали для обозначения модели, в которой выбор элементов речевого сигнала производится при помощи модели статистического параметрического синтеза, но сами элементы могут не только извлекаться из базы данных, но и генерироваться при помощи вокодера) [2382] .
2382
Merritt T., Clark R. A. J., Wu Z., Yamagishi J., King S. (2016). Deep neural network-guided unit selection synthesis / 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) // https://doi.org/10.1109/ICASSP.2016.7472658