ЖАНРЫ

Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:

Что же с ним не так?

Во-первых, лексически он крайне беден, в нём представлено всего восемь разных слов. Конечно, тот факт, что разные актёры читают и поют одни и те же фразы с разной эмоциональной окраской, делает текст лексически сбалансированным, но достаточно ли в нём разнообразия, чтобы модель, обученная на нём, хорошо справлялась с совершенно другими словами и фразами? Авторы датасета сообщают о 7356 записях, однако получается, что на одного актёра приходится 7356 : 24 = 306,5 записи. Сразу вспоминается детский стишок, в котором «и вышло у меня в ответе: два землекопа и две трети». Каждый актёр сделал 60 записей речи (2 фразы x 7 эмоций x 2 уровня интенсивности x 2 повторения + 2 нейтрально произнесённые фразы x 2 повторения) и 44 записи пения (2 фразы x 5 эмоций x 2 уровня интенсивности x 2 повторения + 2 нейтрально спетые фразы x 2 повторения). Таким образом, с учётом трёх модальностей общее число записей должно было бы быть 24 x (60 + 44) x 3 = = 7488. Но авторы датасета потеряли записи пения одной из женщин (132 файла) по техническим причинам, ввиду чего идеальный баланс в наборе данных был утрачен.

Во-вторых, вопрос вызывает тот факт, что авторы датасета сделали «спокойствие» отдельной эмоциональной меткой. Я не очень понимаю, чем две степени спокойствия отличаются от нейтральной окраски. Авторы объясняют это тем, что нейтральная окраска нередко воспринимается оценщиками как имеющая небольшую отрицательную валентность (видимо, имеется в виду некая затаённая грусть). «Спокойствие» должно быть своеобразной компенсацией этого эффекта, поскольку по замыслу должно обладать положительной валентностью. Но я боюсь, что подобного рода слабые эффекты трудно моделировать, тем более при столь скромных объёмах данных.

2. SAVEE (Surrey Audio-Visual Expressed Emotion, Аудиовизуально выраженные эмоции [Университета] Суррея) [2464] , [2465] , [2466] , [2467] .

Состоит из записей четырёх актёров мужского пола, говорящих на родном для них британском английском языке. В качестве эмоционального словаря снова выбрана «большая шестёрка», при этом фразы с нейтральной эмоциональной окраской записывались дважды. Сами фразы были выбраны из корпуса TIMIT, для каждой эмоции было взято 15 фраз, при этом из них три были общими для всех эмоций, десять — разными для разных эмоций, но без эмоциональной специфики, а ещё две фразы были основаны на текстах, имеющих специфическую эмоциональной окраску для данной эмоции (например, Who authorized the unlimited expense account? [Кто одобрил счёт с неограниченным расходным лимитом?] для эмоции «гнев»). 15 фраз на каждую эмоцию и 30 нейтрально окрашенных фраз составляют в сумме 15 x 6 + 15 x 2 = 120 записей на актёра, что даёт нам всего 120 x 4 = 480 записей.

2464

Surrey Audio-Visual Expressed Emotion (SAVEE) Database (2015) // http://kahlan.eps.surrey.ac.uk/savee/

2465

Haq S., Jackson P. J. B. (2010). Multimodal Emotion Recognition / Wang W. (2010). Machine Audition: Principles, Algorithms and Systems. IGI Global Press, pp. 398—423 // https://doi.org/10.4018/978-1-61520-919-4

2466

Haq S., Jackson P. J. B. (2009). Speaker-Dependent Audio-Visual Emotion Recognition // Proceedings of the International Conference on Auditory-Visual Speech Processing, pp. 53—58 // http://personal.ee.surrey.ac.uk/Personal/P.Jackson/pub/avsp09/HaqJackson_AVSP09.pdf

2467

Haq S., Jackson P. J. B., Edge J. D. (2008). Audio-Visual Feature Selection and Reduction for Emotion Classification // Proceedings of the International Conference on Auditory-Visual Speech Processing, pp. 185—190 // http://personal.ee.surrey.ac.uk/Personal/P.Jackson/pub/avsp08/HaqJacksonEdge_AVSP08.pdf

Тексты были также фонетически сбалансированы (по всей видимости, имели сходный друг с другом набор фонем, чтобы модель в процессе обучения вместо поиска эмоциональных особенностей произношения фразы не искала якобы специфичные для той или иной эмоции фонемы).

Хотя лексически SAVEE куда более разнообразен, чем RAVDESS, но, к сожалению, его объём крайне мал, что создаёт очевидные проблемы для разработчиков.

3. SEMAINE (Sustained Emotionally coloured Machine-human Interaction using Nonverbal Expression, Устойчивое эмоционально окрашенное взаимодействие машина — человек с использованием невербальной экспрессии), полное название: SEMAINE sensitive agent project database (база данных проекта чувствительного агента [консорциума] SEMAINE) [2468] , [2469] .

2468

McKeown G., Valstar M., Pantic M., Schroder M. (2012). The SEMAINE database: annotated multimodal records of emotionally coloured conversations between a person and a limited agent / IEEE Transactions on Affective Computing, Vol. 3, Iss. 1, pp. 5—17 // https://doi.org/10.1109/T-AFFC.2011.20

2469

The sensitive agent project database / SEMAINE Database // https://semaine-db.eu/

Эта аудиовизуальная база данных стала одним из продуктов исследовательской программы по созданию «Чувствующего искусственного слушателя» (Sensitive Artificial Listener, SAL) — аудиовизуальной диалоговой системы, способной вовлечь человека в длительный эмоционально окрашенный разговор. По сути, разговор с агентом SAL для человека напоминает обычный разговор при помощи системы видеосвязи с той лишь разницей, что собеседником является виртуальный персонаж, внешний облик которого (лицо, мимика, движения губ во время речи) в реальном времени генерируется при помощи библиотеки для трёхмерной визуализации.

Данные, содержащиеся в базе SEMAINE, были получены в результате взаимодействия между пользователями и человеком-оператором, имитирующим агента SAL, в двух различных конфигурациях: Solid SAL (в этом варианте оператор сам общается с пользователем, при этом демонстрируя при общении соответствующее невербальное поведение) и полуавтоматический SAL (здесь оператор управляет аватаром [2470] , с которым общается пользователь; таким образом, у пользователя создаётся впечатление, что он общается с машиной). Процесс общения фиксировался при помощи набора из синхронно работающего записывающего оборудования: пяти камер высокого разрешения с высокой частотой кадров и четырёх микрофонов. База включает в себя записи 959 диалогов, в которых участвовали 150 человек. Длина каждой записи около 5 минут. Все диалоги были расшифрованы и размечены (каждую запись размечали параллельно 6–8 разметчиков) при помощи эмоциональных меток (использовалась система с пятью шкалами и 27 эмоциональными классами). Другие сценарии помечены на том же шаблоне, но менее полно. Также для части записей присутствует разметка при помощи системы кодирования лицевых движений (Facial Action Coding System, FACS). Эта удивительная система была разработана Полом Экманом и Уоллесом Фризеном ещё в далёком 1978 году [2471] . При помощи FACS можно описать практически любое анатомически возможное выражение лица путём разделения его на отдельные двигательные элементы, представленные на различных временных отрезках. Используя FACS, можно с лёгкостью отличить, например, «дежурную улыбку Pan-Am» (называется так в честь авиакомпании Pan American World Airways, стюардессы которой должны были улыбаться каждому пассажиру) [2472] и искреннюю и спонтанную «улыбку Дюшена». Первая характеризуется сокращением одной только большой скуловой мышцы (Musculus zygomaticus major), в то время как вторая дополняется сокращением нижней части круговой мышцы глаза (Musculus orbicularis oculi). Руководство по FACS представляет собой более чем 500-страничное описание двигательных элементов и их возможных состояний.

2470

* Аватар — воплощение человека в виртуальном мире.

2471

Ekman P., Friesen W. (1978). Facial Action Coding System: A Technique for the Measurement of Facial Movement. Consulting Psychologists Press, Palo Alto, 1978 // https://books.google.ru/books?id=08l6wgEACAAJ

2472

Burton V. (2013). Happy Women Live Better. Harvest House Publishers // https://books.google.ru/books?id=FW6jDDjtH4cC

Формально суммарная длительность аудиовизуальных фрагментов в базе SEMAINE более чем в два раза превосходит RAVDESS по аналогичному показателю, однако различные эмоции представлены в SEMAINE крайне неравномерно, также никак не был сбалансирован ни состав участников исследования, ни лексическая основа диалогов, что практически сводит на нет преимущество в объёме данных. Тем не менее нельзя не отметить удивительную детальность разметки, выполненной исследователями в рамках этого проекта.

Также разметка SEMAINE включает в себя информацию о смехе, кивках, покачиваниях головой и оценку степени вовлечённости пользователя в диалог.

4. TESS (Toronto emotional speech set, Набор эмоциональной речи [Университета] Торонто).

В 1966 г. исследователи из Северо-Западного университета разработали так называемый слуховой тест № 6, предназначенный для измерения чувствительности слуха пациентов. Набор фраз, используемых в тесте, состоит из фразы-носителя — Say the word… [Скажи слово…] и набора из 200 различных слов, которые добавляются к фразе-носителю. Исследователи из Университета Торонто использовали этот же набор текстов, при этом каждая из фраз произносилась двумя актрисами (26 и 64 лет; обе были из региона Торонто, являлись носительницами английского языка, имели высшее и высшее музыкальное образование) с семью различными типами эмоциональной окраски (использовались всё та же «большая шестёрка» эмоций и нейтральная окраска). Таким образом, в сумме было получено 200 x 7 x 2 = 2800 записей.

Этот весьма скромный по размерам датасет тем не менее нередко используется исследователями и в наши дни.

5. Berlin Database of Emotional Speech (EMO-DB) (Берлинская база данных эмоциональной речи) [2473] .

Этот германоязычный массив данных, впервые представленный на конференции InterSpeech-2005, на протяжении многих лет пользовался большой популярностью у исследователей эмоциональной речи. Десять актёров (пять женщин и пять мужчин) имитировали эмоции, произнося по десять предложений (пять коротких и пять более длинных), относящихся к повседневному лексикону. Записи были сделаны в студии с шумопоглощающим покрытием при помощи высококачественного записывающего оборудования. Помимо звука, были записаны электроглоттограммы. Электроглоттография основана на измерении динамики электрического сопротивления гортани во время произнесения фраз, что достигается при помощи пары электродов, располагаемых на передней поверхности шеи по обе стороны щитовидного хряща (Cartilago thyroidea).

2473

Burkhardt F., Paeschke A., Rolfes M., Sendlmeier W., Weiss B. (2005). A database of German emotional speech / 9th European Conference on Speech Communication and Technology, Vol. 5, pp. 1517—1520 // https://www.isca-speech.org/archive/interspeech_2005/i05_1517.html

10 актёров x 10 предложений x 7 эмоций (включая нейтральную) дают нам 700 записей, однако часть записей была выполнена повторно, поэтому в базе содержится на 100 записей больше. Все записи были подвергнуты оценке с привлечением 20 оценщиков, которые прослушивали записи в случайном порядке (повторное прослушивание не допускалось) и должны были определить эмоциональную окраску фразы и то, насколько убедительно эта эмоция была выражена. После этого для записей со средним уровнем узнавания эмоции более 80% и средней оценкой убедительности более 60% (которых оказалось 300 штук) разметчики дополнительно оценили интенсивность проявления эмоции (при этом имея возможность многократного прослушивания записи).

По современным меркам этот датасет невелик и может быть использован разве что в учебных целях.

6. IEMOCAP (Interactive emotional dyadic motion capture database, Интерактивная эмоциональная база данных [на основе] диадического захвата движений) [2474] .

Этот массив, созданный Лабораторией анализа и интерпретации речи (Speech Analysis and Interpretation Laboratory, SAIL) Университета Южной Калифорнии (University of Southern California), включает в себя записи диалогов (спонтанных и на основе заранее подготовленных сценариев) десяти участников. Данные включают в себя аудиозаписи с расшифровкой, видео, а также подробную информацию о выражении лица и движениях рук, эмоциональную разметку («большая шестёрка» + другая эмоция + нейтральная окраска, а также оценка эмоций по трём шкалам: валентность, активация и доминирование). Общий объём корпуса составляет около 12 часов.

2474

Busso C., Bulut M., Lee C.-C., Kazemzadeh A., Mower E., Kim S., Chang J. N., Lee S., Narayanan S. S. (2008). IEMOCAP: Interactive emotional dyadic motion capture database / Journal of Language Resources and Evaluation, Vol. 42, No. 4, pp. 335—359 // https://doi.org/10.1007/s10579-008-9076-6

Поделиться с друзьями: