Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
Революция глубокого обучения открыла перед областью эмоциональных вычислений совершенно новые возможности, хотя, конечно, отдельные успехи в этой области были сделаны и до неё. Системы, основанные на правилах, в ряде случаев были способны справиться с обработкой эмоциональной информации. Например, в сентимент-анализе использовались специализированные семантические базы данных, включающие в себя негативно окрашенные слова и словосочетания. Анализ динамики форманты F0 и громкости в речи человека позволял в ряде случаев выявлять эмоциональные высказывания (и даже отличать различные эмоции). Анализ взаимного расположения ключевых точек на лице позволял определить улыбку либо напротив, хмурое или угрожающее выражение лица. Однако точность таких моделей обычно оставляла желать лучшего. Скромные успехи демонстрировали и генеративные модели. Да, манипулируя громкостью и формантами речи, можно было придать синтетической речи некоторую эмоциональную окраску, или же чат-бот, основанный на правилах, мог использовать заранее заготовленные редакторами эмоционально окрашенные фразы, однако уровень «эмоционального интеллекта» таких систем был крайне невысок.
Сегодня задачи обработки эмоциональной информации решаются, как правило, при помощи глубоких нейросетевых моделей машинного обучения, причём как в варианте «обучения с учителем», так и в варианте «обучения без учителя».
6.5.3 Представление эмоциональной информации
В качестве примера первого подхода можно привести модели, предназначенные для определения эмоциональной окраски речи человека. Важно отметить, что в данном случае мы говорим именно об эмоциональной окраске речи, а не о том, какие именно эмоции испытывает говорящий. Обычно это одно и то же, однако люди иногда изображают те или иные эмоции, а особенно хорошо это умеют делать профессиональные артисты.
Для того чтобы обучить модель распознавать эмоциональную окраску речи, необходимо подготовить обучающую выборку, в которой каждому элементу речи (обычно фразе или слову) будет сопоставлена метка, определяющая эмоциональную окраску данного элемента. Здесь мы сталкиваемся с интересными проблемами. Для начала необходимо выбрать подходящее представление эмоций. Например, мы можем перечислить различные эмоции, составив из них своеобразный «эмоциональный алфавит», и затем рассматривать нашу задачу как задачу классификации. В каких-то областях применения нас может устроить наличие всего двух классов: «негативная эмоциональная окраска» и «всё остальное». В других нам может понадобиться куда более обширный список. Системно подошли к вопросу авторы стандарта [2447] , [2448] Emotion Markup Language (EmotionML) 1.0. Они включили в стандарт несколько «эмоциональных словарей», предложенных в работах учёных-психологов. К их числу относится, например, так называемая «большая шестёрка» [Big six] эмоций, предложенная в 1972 г. в работе [2449] американского психолога Пола Экмана. «Большую шестёрку», как нетрудно догадаться, составляют шесть эмоций: отвращение [disgust], печаль [sadness], гнев [anger], страх [fear], счастье [happiness] и удивление [surprise]. Это наиболее простой эмоциональный словарь, определённый в EmotionML 1.0.
2447
Baggia P., Pelachaud C., Peter C., Zovato E., Burkhardt F., Schroder M. (2014). Emotion Markup Language (EmotionML) 1.0. W3C Recommendation 22 May 2014. Copyright © 2014 W3C® (MIT, ERCIM, Keio, Beihang) // https://www.w3.org/TR/emotionml/
2448
Ashimura K., Baggia P., Oltramari A., Peter C., Zovato E., Burkhardt F., Schroder M., Pelachaud C. (2014). Vocabularies for EmotionML. W3C Working Group Note 1 April 2014. W3C® (MIT, ERCIM, Keio, Beihang) // https://www.w3.org/TR/emotion-voc/
2449
Ekman P. (1972). Universals and Cultural Differences in Facial Expressions of Emotion / Cole J. (1972). Nebraska Symposium on Motivation. University of Nebraska Press, Vol. 19, pp. 207—282 // https://doi.org/10.1037/0022-3514.53.4.712
Другой эмоциональный словарь, предусмотренный стандартом EmotionML 1.0, основан на концепции соответствия эмоций тенденциям действия [action tendencies], разработанной в трудах голландского психолога Нико Фрейды [2450] . Этот словарь включает в себя 12 эмоций: безразличие [indifference], высокомерие [arrogance], гнев [anger], желание [desire], интерес [interest], наслаждение [enjoyment], отвращение [disgust], покорность [resignation], смирение [humility], страх [fear], удивление [surprise] и шок [shock].
2450
Frijda N. H. (1986). The Emotions. Cambridge, UK: Cambridge University Press // https://books.google.ru/books?id=QkNuuVf-pBMC
Ещё одной альтернативой является разработанный в 1999 г. «Словарь повседневных эмоций» (Everyday emotion vocabulary), включающий в себя уже 17 эмоциональных классов: восторженный [excited], взволнованный [worried], довольный [pleased], заинтересованный [interested], испуганный [afraid], любящий [loving], скучающий [bored], нежный [affectionate], обрадованный [amused], печальный [sad], разочарованный [disappointed], расслабленный [relaxed], сердитый [angry], согласный [content], счастливый [happy], уверенный [confident], удовлетворённый [satisfied]. В основу этого словаря было положено одно из ранних исследований по сентимент-анализу [2451] за авторством Родди Коуи и его коллег из Университета Квинс в Белфасте (Queen’s University Belfast, QUB) и Кингс-колледжа Лондона (King’s College London, KCL). Но если вы думаете, что это самый большой эмоциональный словарь в EmotionML, то глубоко заблуждаетесь. Словарь OCC, названный так по первым буквам фамилий его создателей — американских психологов Эндрю Ортони и Джеральда Клоура, а также упомянутого ранее психолога-когнитивиста Аллана Коллинза, включает целых 22 эмоции, но и это не предел [2452] . Словарь Фонтейна, Шерера, Роша и Эллсуорт (в EmotionML он назван по первым буквам фамилий авторов — FRSE) доводит число различаемых эмоций до 24.
2451
Cowie R., Douglas-Cowie E., Appolloni B., Taylor J., Romano A., Fellenz W. (1999). What a neural net needs to know about emotion words / Mastorakis N. (1999). Computational Intelligence and Applications. World Scientific & Engineering Society Press. Athens, Greece, pp. 109—114 // http://www.image.ece.ntua.gr/projects/physta/conferences/531.pdf
2452
Ortony A., Clore G. L., Collins A. (1988). The Cognitive Structure of Emotion. Cambridge, UK: Cambridge University Press // https://books.google.ru/books?id=Sp8FngEACAAJ
Наивным было бы считать, что авторы этих эмоциональных словарей просто соревновались друг с другом в составлении бессистемных списков эмоций. В основе больших эмоциональных словарей лежит обычно анализ лингвистических данных (статистики использования слов, применяемых для передачи эмоциональной информации в различных языках). При этом сами словари нередко лишь побочный продукт исследований, цель которых — построение «эмоционального пространства», то есть такого представления, в котором каждая эмоция будет разделена на несколько независимых друг от друга компонент. В этом можно убедиться, ознакомившись с лежащими в основе этих систем исследованиями.
Одна из распространённых двумерных моделей была введена в 1980 г. психологом Джеймсом Расселом в статье «Круговая модель эмоции» (A Circumplex Model of Affect) [2453] . В данной модели эмоции раскладывались по двум шкалам: «удовольствие/неудовольствие» [pleasure-displeasure], характеризующей позитивный или негативный характер эмоции, и «возбуждение/сон» [arousal-sleep], характеризующей активность или пассивность психологического состояния. В дальнейшем первая шкала получила название «шкала валентности» [valence], вторая — «шкала возбуждения» [arousal], а сама модель — «модель валентности/возбуждения» [valence-arousal model].
2453
Russell J. A. (1980). A Circumplex Model of Affect / Journal of Personality and Social Psychology, Vol. 39, No. 6, pp. 1161—1178 // https://doi.org/10.1037%2Fh0077714
Основополагающая работа авторов FRSE «Мир эмоций не является двумерным» (The World of Emotions is not Two-Dimensional) [2454] представляет собой критику подобных двумерных моделей и вводит новую модель, получившую потом название GRID [сетка, решётка] (это название не является аббревиатурой, а лишь отсылает к тому факту, что один из авторов модели, Клаус Шерер, разместил метки эмоциональных классов в ячейках семантической сетки). Источником для создания модели GRID стала веб-анкета, включавшая в себя 24 эмоции и 144 характеристики эмоции. Список эмоций был составлен на основании статистического анализа как текстов научных исследований, так и повседневной речи. В качестве последней выступал корпус, составленный из описаний эмоциональных моментов прошедшего дня, выполненных в произвольной форме. Этот корпус стал результатом масштабного исследования, проведённого в швейцарских домохозяйствах в начале 2000-х гг.
2454
Fontaine J. R. J., Scherer K. R., Roesch E. B., Ellsworth P. C. (2007). The World of Emotions is not Two-Dimensional / Psychological Science, Vol. 18 (12), pp. 1050—1057 // https://doi.org/10.1111/j.1467-9280.2007.02024.x
144 характеристики эмоции были разделены на шесть разных по размеру групп: 31 характеристика была отнесена к оценке эмоции («доставляет ли дискомфорт испытывающему её человеку», «[испытывается] ли в момент опасности» и т. п.), 18 — к телесным ощущениям («мышцы расслаблены», «дыхание замедленно» и т. п.), 9 — к выражению лица («глаза широко открыты», «присутствует улыбка» и т. п.), 12 — к голосу («речь замедленна», «голос дрожит» и т. п.), 5 — к жестам («движения тела становятся резкими», «перемещается по направлению к кому-либо или чему-либо» и т. п.), 40 — к склонности к тем или иным действиям («хочет исчезнуть или скрыться от других», «хочет петь и танцевать» и т. п.), 22 — к субъективно испытываемым переживаниям («ощущает слабость», «ощущает нервозность» и т. п.) и 4 — к управлению эмоциями («демонстрирует эмоцию другим в большей мере, чем испытывает её», «скрывает эмоцию от других при помощи улыбки» и т. п.). Три «прочие» характеристики эмоции (не входящие ни в одну из вышеупомянутых категорий) — это тенденция к изменению в долгосрочной перспективе, социальное одобрение и частота возникновения в рамках культурной группы.
Список характеристик был построен на базе анализа более ранних работ в этой области, основанных на самых разнообразных подходах к моделированию эмоций. Веб-анкета, изначально составленная на английском языке, была переведена также на французский и нидерландский.
В ходе исследования каждого участника просили оценить четыре случайно выбранные эмоции (из 24 возможных в данной модели) с точки зрения 144 возможных характеристик на основе 9-балльной шкалы (от «маловероятно» до «очень вероятно»). Участники оценивали вероятность того, что каждая из 144 характеристик будет наблюдаться, когда человек из той же культурной группы использует соответствующее название эмоции для описания эмоционального опыта.
В исследовании участвовали студенты из Бельгии, Великобритании и Швейцарии (всего 531 человек), при этом каждый участник заполнял анкету на родном языке.
Собранные данные учёные проанализировали при помощи метода главных компонент и пришли к выводу, что наилучшим решением является выделение четырёх компонент, объясняющих в сумме около 75,4% дисперсии оценок. Выделенные компоненты получили названия: «оценка/приятность» [evaluation-pleasantness] (на её долю приходится 35,3% объяснённой дисперсии), «потенция/контроль» [potency-control] (22,8%), «активация/возбуждение» [activation-arousal] (11,4%) и «непредсказуемость» [unpredictability] (6,0%). При этом не было обнаружено никаких существенных различий для трёх групп испытуемых (бельгийцев, швейцарцев и англичан).