Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
Первое измерение можно интерпретировать как оценку приятности эмоции, по этой шкале приятные эмоции (удовольствие, радость) противостоят неприятным (ненависть, гнев). По сути, это не что иное, как описанная ранее валентность эмоции.
Второе измерение можно рассматривать как оценку уровня контроля со стороны субъекта. По этой шкале эмоции, связанные с чувством бессилия, подчинения и утраты контроля (печаль, стыд, отчаяние), противопоставлены эмоциям, связанным с мобилизацией сил и ощущением наличия контроля (гордость, интерес, гнев). Эта шкала соответствует так называемой стенической (от др.-греч. ?????? — сила) шкале эмоций, описанной в классических работах, посвящённых человеческим эмоциям.
В пределах третьего измерения наблюдается противостояние эмоций, связанных с высоким эмоциональным возбуждением и готовностью действовать (гнев, тревога), эмоциям, связанным с заторможенностью (разочарование, удовлетворённость). Эту шкалу можно считать практически полным аналогом традиционной шкалы возбуждения.
И наконец, четвёртое измерение — непредсказуемость — переносит на один край шкалы удивление, затем, отделённые заметным промежутком, почти в центре шкалы оказываются отвращение и страх, а на противоположном полюсе в виде плотной группы сосредоточены все остальные эмоции, причём ближе всего к концу шкалы оказывается чувство вины.
Исследование Шерера и его коллег стало важным этапом в изучении семантики эмоциональных терминов. В частности, его результаты были использованы для совершенствования популярного инструмента для эмоциональной самооценки (а также, например, для оценки «эмоций» роботов [2455] ), так называемого Женевского колеса эмоций (Geneva Emotion Wheel, GEW) [2456] , [2457] .
Возможность построения эмоционального семантического континуума позволяет подходить к задаче определения эмоциональной окраски речи или текста не как к задаче классификации, а как к задаче регрессии. В таком случае от модели потребуется не предсказание метки конкретного эмоционального класса (в соответствии с выбранным эмоциональным словарём), а оценка величины каждой из выбранных компонент эмоции. Для этой цели в стандарте EmotionML 1.0 помимо словарей введены ещё и системы измерений эмоций. Кроме упомянутой нами системы FRSE (GRID) с четырьмя шкалами, стандартом предусмотрена возможность использования пространства PAD (Pleasure, Arousal, and Dominance, Удовольствие, возбуждение и доминирование), основанного на трёх соответствующих шкалах, разработанного [2458] американским профессором Альбертом Меграбяном, а также плоской шкалы интенсивности [intensity] эмоции.
2455
Mcginn C., Kelly K. (2018). Using the Geneva Emotion Wheel to Classify the Expression of Emotion on Robots / Companion of the 2018 ACM/IEEE International Conference // https://doi.org/10.1145/3173386.3177058
2456
Scherer K. R., Shuman V., Fontaine J. J. R., Soriano C. (2013). The GRID meets the Wheel: Assessing emotional feeling via self-report / Fontaine J. J. R., Scherer K. R., Soriano C. (2013). Components of emotional meaning: a sourcebook. Series in affective science. Oxford University Press // https://doi.org/10.13140/RG.2.1.2694.6406
2457
Scherer K. R. (2005). What are emotions? And how can they be measured? / Social Science Information, Vol. 44 (4), pp. 695—729 // https://doi.org/10.1177/0539018405058216
2458
Mehrabian A. (1996). Pleasure-arousal-dominance: A general framework for describing and measuring individual differences in Temperament / Current Psychology, Vol. 14 (4), pp. 261—292 // https://doi.org/10.1007/BF02686918
Помимо способов представления эмоций, стандарт EmotionML 1.0 содержит в себе также словари характеристик эмоций и словарь тенденций действий (из работ Нико Фрейды) [2459] , [2460] . Наличие стандарта представления эмоциональной информации весьма полезно для сферы эмоциональных вычислений. Оно позволяет разработчикам не изобретать каждый раз велосипед и опираться на материал, наработанный в результате многолетних исследований в области психологии.
2459
Baggia P., Pelachaud C., Peter C., Zovato E., Burkhardt F., Schroder M. (2014). Emotion Markup Language (EmotionML) 1.0. W3C Recommendation 22 May 2014. Copyright © 2014 W3C® (MIT, ERCIM, Keio, Beihang) // https://www.w3.org/TR/emotionml/
2460
Ashimura K., Baggia P., Oltramari A., Peter C., Zovato E., Burkhardt F., Schroder M., Pelachaud C. (2014). Vocabularies for EmotionML. W3C Working Group Note 1 April 2014. W3C® (MIT, ERCIM, Keio, Beihang) // https://www.w3.org/TR/emotion-voc/
Итак, мы более-менее разобрались с выбором способа представления эмоциональной информации. Допустим, мы решили присвоить каждой фразе из обучающей выборки метку класса, взяв за основу «большую шестёрку» эмоций. Теперь необходимо собрать данные и выполнить разметку, для чего можно использовать какую-либо краудсорсинговую платформу. Иногда вам может подойти какой-либо из публичных датасетов, однако наилучший результат обычно получается, используя данные из того же канала и того же бизнес-процесса, в котором планируется применение модели распознавания эмоций. Однако особенность процесса может сыграть с разработчиком злую шутку. Например, если вы планируете обучать вашу модель на данных из колл-центра, занимающегося взысканием просроченной задолженности, то вы должны быть готовы к тому, что абоненты будут редко радоваться, поэтому, чтобы получить более-менее приличный по объёму датасет со сбалансированной численностью классов, вам придётся просеять огромное количество информации. Кроме того, подавляющее количество фраз практически в любом голосовом канале имеет нейтральную окраску. В принципе, можно объединить в один несколько датасетов (при условии сбалансированности численности классов), использовав публичные массивы или разметив какой-либо эмоционально богатый источник записей (например, ролики с YouTube), однако часто оказывается, что при использовании публичных датасетов для обучения точность на своих данных оказывается ниже декларированной. Поэтому судить о качестве модели можно только на основе данных из источников, с которыми модель будет работать в дальнейшем. Ещё одной альтернативой является создание наборов эмоциональных записей усилиями участников краудсорсинговой платформы, но практика показывает, что людям редко удаётся правдоподобно изображать эмоции на заказ, поэтому без дополнительной фильтрации ценность собранных таким образом записей весьма сомнительна.
Ещё одной проблемой является собственно разметка фраз, поскольку люди сами не всегда сходятся в оценках. Кто-то слышит в некоторой фразе нейтральную окраску, а кто-то в той же фразе подозревает скрытую печаль. Если вы используете при оценке систему, основанную на шкалах, то значения оценок по каждой шкале можно подвергнуть усреднению. При использовании словаря придётся либо доверять большинству оценщиков, либо отбрасывать фразы, получившие неоднозначные оценки.
При оценке эмоциональной окраски речи люди неизбежно будут ориентироваться как на текст сказанного, так и на те или иные звуковые признаки. Если вы используете видеозаписи человеческой речи, то к числу признаков добавятся ещё и признаки из видеоканала: выражение лица говорящего, а возможно, и движения его тела. В таком случае вам понадобится модель, которая сможет получать на вход мультимодальную информацию. При этом важно учитывать, что некоторые компоненты этой информации будут довольно универсальными для разных культур (например, то, каким образом эмоции, испытываемые человеком, влияют на его голос), а некоторые будут весьма специфичны для конкретной культуры (например, тот же язык — не факт, что нейронная сеть, которая обучалась на эмоциях людей — носителей одного языка, будет применима для распознавания эмоций носителей другого языка). Поэтому набор используемых модальностей будет влиять на возможность использования публичных массивов данных.
6.5.4 Наборы данных для анализа эмоций
Уже в начале 2000-х гг. исследователям было доступно множество наборов данных эмоциональной речи. Например, обзор [2461] , выполненный в 2003 г. Димитриосом Верверидисом и Константином Котропулосом, включает в себя 32 базы данных эмоциональной речи, из них 11 содержат английскую речь, 7 — немецкую, 3 — японскую, 3 — испанскую, 2 — нидерландскую, и ещё семь языков (включая русский) встречаются лишь единожды. Для разметки этих баз использовались различные эмоциональные словари. Наиболее представленными в датасетах эмоциями оказались: гнев [anger], печаль [sadness], счастье [happiness], страх [fear], отвращение [disgust], удивление [surprise], скука [boredom] и радость [joy]. Некоторые из изученных Верверидисом и Котропулосом массивы, помимо аудиозаписей, включают в себя видео и записи движений гортани, а один — информацию о частоте биения сердца, электромиограмму (запись электрических сигналов, полученных в результате регистрации сокращений мышц) мышцы, сморщивающей бровь (Musculus corrugator supercilii), а также сведения об изменении гальванического сопротивления кожи (как индикатора потоотделения). Авторы ещё одного датасета (правда, с единственным испытуемым) включили в него электроэнцефалограмму.
2461
Ververidis D., Kotropoulos C. (2003). A Review of Emotional Speech Databases / Proceedings of panhellenic conference on informatics, Thessaloniki, Greece, pp. 560—574 // http://poseidon.csd.auth.gr/LAB_PEOPLE/Ververidis/Ververidis_PCI_2003.pdf
Несмотря на такое разнообразие данных, чтение сводной таблицы, приведённой в исследовании, оставляет противоречивые ощущения. Лишь восемь датасетов содержат в себе натуральную эмоциональную речь, остальные основаны на образцах речи, в которых люди лишь симулировали различную эмоциональную окраску речи. Если брать только натуральную речь, то самый большой (по количеству представленных в нём людей) датасет содержит записи 780 человек, однако всё это — записи голосов детей. Если же брать «взрослые» датасеты, то этот показатель сразу же сокращается до 58 человек для немецкого языка и 40 для английского. Даже если брать в расчёт наборы данных с симуляцией эмоциональной окраски речи, то максимальное число людей, речь которых положена в основу датасета, составляет лишь 125. Можно ли всерьёз рассчитывать, что такого небольшого объёма данных достаточно для обучения эффективной классифицирующей модели на основе нейронных сетей?
Впрочем, обзор, который можно встретить в книге «Обработка эмоций в человеко-компьютерных диалогах» (Handling Emotions in Human-Computer Dialogues) [2462] , увидевшей свет в 2009 г., рисует чуть более радужную картину. В него включено больше сотни датасетов (в том числе некоторые, пропущенные в обзоре Верверидиса и Котропулоса). Однако и здесь приведено лишь несколько наборов данных, в которых число различных голосов и число примеров на каждую эмоцию превышало бы сотню.
2462
Pittermann J., Pittermann A., Minker W. (2009). Handling Emotions in Human-Computer Dialogues. Language Arts & Disciplines // https://books.google.ru/books?id=VUqEuXrk_hUC
Даже в 2010-е гг., несмотря на аппетит в отношении данных, испытываемый создателями глубоких нейросетевых моделей, ситуация радикально не поменялась. Ничего подобного ImageNet или LibriSpeech для эмоциональной речи в публичном доступе так и не появилось. Вот некоторые наиболее популярные на сегодняшний день у разработчиков публичные датасеты эмоциональной речи.
1. RAVDESS (Ryerson Audio-Visual Database of Emotional Speech and Song, Аудиовизуальная база данных эмоциональной речи и пения [Университета] Райерсона) [2463] .
2463
Livingstone S. R., Russo F. A. (2018). The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English / PLos One, May 16, 2018 // https://doi.org/10.1371/journal.pone.0196391
База данных состоит из записей 24 профессиональных актёров (12 мужчин и 12 женщин), озвучивающих две фразы (Kids are talking by the door [Дети разговаривают у двери], Dogs are sitting by the door [Собаки сидят у двери]) на английском языке с североамериканским акцентом в двух вариантах: речь и пение, по два раза каждый вариант. В качестве эмоционального словаря разметки использована «большая шестёрка» эмоций (раздражение, отвращение, страх, счастье, печаль и удивление), к которой было добавлено спокойствие [calm] (в подмножестве, основанном на пении, эмоции удивления и отвращения отсутствуют). Каждая фраза представлена в датасете с двумя уровнями эмоциональной интенсивности для каждой из эмоций и однократно с нейтральной окраской. Каждая запись присутствует в датасете в трёх модальностях (только видео, только звук, звук вместе с видео). Для каждой записи из итогового набора объёмом 7356 записей была десять раз произведена оценка эмоциональной валидности, интенсивности и натуральности, для чего было привлечено 247 оценщиков. Благодаря столь тщательной проверке RAVDESS считается одним из наиболее качественных датасетов эмоциональной речи.