Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
2. Ударения. Если текстовые метки в корпусе, используемом для обучения модели, не содержат в явном виде проставленных ударений, модель научится их ставить на собственное усмотрение. Проблема заключается в том, что в этой части она будет неуправляема. В случае если модель поставит при произнесении ударение в неправильном месте, у вас просто не будет инструмента для исправления этой ошибки. К счастью, эта проблема решается относительно просто — необходимо расставить ударения в тексте и обучить отдельную модель для расстановки ударений в случае их отсутствия.
3. Смысловые ударения. «Ты пойдёшь завтра со мной в кафе?», «Ты пойдёшь завтра со мной в кафе?», «Ты пойдёшь завтра со мной в кафе?», «Ты пойдёшь завтра со мной в кафе?», «Ты пойдёшь завтра со мной в кафе?» — эти вопросы не только имеют разные оттенки смысла, они различаются при произнесении вслух. Чтобы решить эту проблему, также необходима дополнительная разметка текстов.
4. Вопросительные и восклицательные интонации. В целом модели неплохо «понимают», как наличие восклицательного или вопросительного знака в конце предложения влияет на интонацию, с которой это предложение произносится. Однако для того, чтобы они выработали такое «понимание», в обучающей выборке должно быть достаточное количество вопросительных и восклицательных предложений. Кроме того, интонация в вопросительном предложении сильно зависит от смыслового ударения.
5. Протяжённость слогов и пение. Добавив к фонемам их длительность и тон, можно получить модель, способную не только разговаривать, но и петь. Поющие модели — одно из весьма популярных направлений исследований в наши дни. К числу таких моделей относятся, например, XiaoiceSing [2407] и Mellotron [2408] .
2407
Lu P., Wu J., Luan J., Tan X., Zhou L. (2020). XiaoiceSing: A High-Quality and Integrated Singing Voice Synthesis System // https://arxiv.org/abs/2006.06261
2408
Valle R., Li J., Prenger R., Catanzaro B. (2019). Mellotron: Multispeaker expressive voice synthesis by conditioning on rhythm, pitch and global style tokens // https://arxiv.org/abs/1910.11997
6. Эмоциональная окраска речи. Эта задача также может [2409] быть решена при помощи специализированной разметки. Однако, в отличие от упомянутых выше параметров, здесь разметка осложнена тем, что оценка эмоциональной окраски слов довольно субъективна.
Чтобы избавиться от субъективного характера стилистической разметки, были предложены модели, способные в режиме обучения без учителя выучивать для каждой фразы некоторые стилистические векторы. К их числу относятся такие модели, как Tacotron TP-GST (Text-Predicted Global Style Tokens, Глобальные стилевые токены, предсказанные на основе текста) [2410] и GMVAE-Tacotron (Gaussian Mixture Variational AutoEncoder, Вариационный автокодировщик на основе гауссовых смесей распределений) [2411] . Используя векторы, выученные моделью для фраз обучающей выборки, в качестве библиотеки стилей, можно добиться неплохой управляемости стилистикой синтеза. При этом отдельная модель может быть использована для того, чтобы построить стилистический вектор фразы на основе семантической информации, то есть, проще говоря, обучить модель, которая будет, исходя из смысла фразы, выбирать для неё правильную интонацию. Ещё один подход — использование моделей, подобных Parrotron. Эта модель управляется не текстовым представлением, вместо этого она получает на вход речь другого человека, чтобы затем произнести ту же самую фразу другим голосом. Меняя интонацию входной речи, можно управлять речью, производимой системой. Подобные модели могут быть очень полезны в ситуациях, когда необходимо компенсировать дефекты речи или нежелательный акцент [2412] . Создатели некоторых моделей пошли ещё дальше. Translatotron получает на вход фразу, сказанную на одном языке, чтобы затем произнести её перевод на другом языке [2413] . Система перевода, не использующая текст в качестве промежуточного представления, обладает целым рядом преимуществ: она может извлечь дополнительную смысловую информацию из интонаций речи и пауз, а также воспроизвести в переводе эмоциональную окраску исходной речи. Не исключено, что в будущем системы перевода будут основаны именно на таком подходе.
2409
Lee Y., Rabiee A., Lee S.-Y. (2017). Emotional End-to-End Neural Speech synthesizer // https://arxiv.org/abs/1711.05447
2410
Stanton D., Wang Y., Skerry-Ryan RJ. (2018). Predicting expressive speaking style from text in end-to-end speech synthesis // https://arxiv.org/abs/1808.01410
2411
Hsu W.-N., Zhang Y., Weiss R. J., Zen H., Wu Y., Wang Y., Cao Y., Jia Y., Chen Z., Shen J., Nguyen P., Pang R. (2018). Hierarchical generative modeling for controllable speech synthesis / International Conference on Learning Representations (ICLR-2019) // https://arxiv.org/abs/1810.07217
2412
Biadsy F., Weiss R. J., Moreno P. J., Kanevsky D., Jia Y. (2019). Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation // https://arxiv.org/abs/1904.04169
2413
Jia Y., Weiss R. J., Biadsy F., Macherey W., Johnson M., Chen Z., Wu Y. (2019). Direct speech-to-speech translation with a sequence-to-sequence model // https://arxiv.org/abs/1904.06037
Ещё одной немаловажной задачей является уменьшение объёмов данных, необходимых для эффективного выучивания человеческого голоса, а также снижение требований к их качеству. Конечно, современные технологии клонирования [2414] голоса могут скопировать тембр речи человека, основываясь на образцах общей длиной всего в несколько минут. Например, в начале 2023 г. компания Microsoft рассказала публике о новой модели под названием VALL-E. Она способна подражать голосу конкретного человека, основываясь на образце его речи длиной всего три секунды (публике были даже продемонстрированы примеры работы новой модели, хотя ни в виде набора весов, ни в виде онлайн-сервиса модель пока что не опубликована) [2415] . Однако для полноценного копирования голоса со всеми особенностями интонаций, присущих конкретному человеку, обычно необходимо гораздо больше речевого материала. При обучении моделей на записях, выполненных в различных помещениях, при помощи различной аппаратуры, также возникают определённые трудности, для решения которых в настоящее время предпринимаются серьёзные усилия. В снижении требований к количеству и качеству используемых датасетов могут помочь и специализированные системы для фильтрации и нормализации звукозаписей, и методы переноса обучения, и многоголосые модели, и так называемые генеративно-состязательные сети, о которых мы поговорим немного позже.
2414
Jia Y., Zhang Y., Weiss R. J., Wang Q., Shen J., Ren F., Chen Z., Nguyen P., Pang R., Moreno I. L., Wu Y. (2019). Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis // https://arxiv.org/abs/1806.04558
2415
Wang C., Chen S., Wu Y., Zhang Z., Zhou L., Liu S., Chen Z., Liu Y., Wang H., Li J., He L., Zhao S., Wei F. (2023). Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers // https://arxiv.org/abs/2301.02111
Активно изучается возможность применения систем распознавания речи для автоматизированной разметки речевых корпусов, предназначенных для последующего обучения TTS-моделей, что позволит снизить затраты на создание новых голосов.
Словом, в области синтеза речи ещё существует множество интересных задач, которые ждут своих исследователей.
6.5 Эмоциональные вычисления и социальный ИИ
Кроваво-чёрное ничто пустилось вить систему клеток, связанных внутри, клеток, связанных внутри, клеток в едином стебле и явственно, до жути на фоне тьмы ввысь белым бил фонтан.
2416
* Пер. Веры Набоковой.
6.5.1 Как насчёт эмоций и сознания у машин?
Сюжеты многих фильмов и книг, посвящённых роботам и разного рода «мыслящим» машинам, нередко вращаются вокруг темы эмоций и чувств. «Добрые» роботы учатся у людей любви и самопожертвованию, а «злые» оказываются повержены из-за неспособности любить, жертвовать собой, предугадывать иррациональные поступки людей или вести себя иррационально (хотя не совсем понятно, как можно считать иррациональными поступки, которые приводят в конечном счёте к достижению цели). Робот Вертер из фильма «Гостья из будущего» мучается из-за любви к Полине; Электроник из фильма «Приключения Электроника» плачет, а затем улыбается, из чего профессор Громов делает вывод, что Электроник стал человеком.
Впрочем, роботы в искусстве обычно являются лишь средством для иллюстрации противоречий в человеческом обществе, а роботы в советской литературе и кино нередко служили средством разборок лириков с физиками. «Приключения Электроника» решают проблему в духе лирического технооптимизма, а, скажем, в фильме «Его звали Роберт» ответ ближе к лирическому технопессимизму. Поскольку искусство контролируется главным образом лириками, точка зрения физиков в нём часто либо не представлена, либо представлена в карикатурном виде.
Давайте попробуем взглянуть на отношения машин и эмоций в сугубо технологическом ключе, воздерживаясь по возможности от традиционных ловушек в духе очеловечивания всего подряд, а также от чрезмерного упрощения предмета.
Для начала рассмотрим такой интересный вопрос, как эмоции самих машин. Можно ли сказать, что машины испытывают или могут испытывать эмоции? На первый взгляд, это звучит фантастично — ведь машинам пока что не под силу многое из того, что по плечу даже трёхлетнему ребёнку. Мы привыкли считать эмоциональную сферу чем-то мистическим, едва ли не высшим проявлением развития живых существ. Разве можно у современных машин найти что-то, что может быть хотя бы отдалённым аналогом человеческих чувств? Однако более внимательное изучение вопроса показывает, что даже в поведении примитивных организмов наблюдаются явления, которые могут быть интерпретированы как наличие у них чувств. У некоторых моллюсков в результате обучения формируются условные рефлексы, которые заставляют их избегать определённых стимулов. Можно ли это интерпретировать как наличие у них чувства страха? Поиск полового партнёра или пищи, стремление избегать опасностей — что это, если не отдалённые аналоги человеческих чувств и эмоций? Кто-то может сказать, что человеческие чувства не столь прямолинейны, что человек может принести себя в жертву, но разве не приносит себя в жертву самец богомола? Разве много прямолинейности в строительстве птицей шалашником совершенно нефункциональных шалашей, украшенных цветами и ракушками? Конечно, люди имеют куда более сложную нервную систему, чем богомолы, и куда более развитую культуру, чем шалашники, с этим трудно поспорить. Однако что касается чувств, эмоций, то они, по всей видимости, всё-таки довольно базовое явление в животном мире. Способность живых организмов учиться на своём опыте основана на наличии положительного и отрицательного подкрепления. Досада от допущенной ошибки, радость победы, страх перед опасностью, предвкушение удовольствия — все эти явления непосредственно связаны с поведенческими адаптациями. В этом смысле модель машинного обучения, основанная на обучении с учителем (и тем более в случае использования обучения с подкреплением в мультиагентных средах), подобна пусть и примитивному, но живому организму, способному формировать условные рефлексы, менять поведение под воздействием собственных удач или неудач, выборочно относиться к стимулам среды. Наблюдая за поведением AlphaStar или любого другого более-менее сложного бота в игре, мы видим, как программа «проявляет осторожность», отступает, «нащупывает слабые места» противника, «паникует» в тяжёлой ситуации и так далее. Мы невольно интерпретируем действия системы как действия агента, испытывающего определённые чувства. И хотя люди (и даже другие приматы) могут очеловечивать и более примитивные явления, например проявлять нежность к игрушке или разговаривать с собственным автомобилем, в ситуации с нейросетевой моделью для такого очеловечивания есть куда больше оснований, под влиянием которых люди легко ударяются в другую крайность: начинают приписывать существующим системам ИИ наличие у них разума, подобного человеческому, самосознания, коварных планов и так далее. Такие взгляды, помноженные на паранойю, способны создать настоящую гремучую смесь.
Несколько лет назад по жёлтой прессе волной прокатилась сенсационная новость — «Умные боты Facebook придумали свой язык на случай важных переговоров», «Искусственный интеллект Facebook вышел из-под контроля, придумав собственный язык. Разработчики приняли решение его отключить», «Facebook отключил ИИ, который изобрёл свой собственный язык», «Боты изобрели свой язык. Опасно ли развитие искусственного интеллекта?», «Искусственный интеллект уже норовит выскочить из коробки», «В Facebook испугались возможностей искусственного интеллекта» и так далее. Жареная утка вихрем пронеслась по страницам даже, казалось бы, вполне респектабельных изданий. На обывателя пахнуло смрадным ветром грядущего ИИ-апокалипсиса.
В действительности, разумеется, всё было куда прозаичнее. Исследователи из Facebook занимались разработкой диалоговых ботов, способных обсуждать проблемы и приходить к компромиссу. В одной из задач боты должны были обучаться договариваться о разделе виртуальных мячей, книг и шляп. В процессе обучения между ботами стали возникать довольно странные, на первый взгляд, диалоги, подобные этому:
Боб: я могу я я всё остальное
Алиса: мячи ноль для меня для меня для меня для меня для меня для меня для меня для