Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
7. HEU Emotion — один из свежих мультимодальных и многоязычных эмоциональных датасетов, опубликованный [2475] китайскими исследователями в середине 2020 г.
Датасет включает в себя две части. Первая содержит 16 569 видеороликов (с 8984 действующими лицами), загруженных с Tumblr, Google и Giphy и представленных в двух модальностях (выражение лица и поза), вторая — 2435 фрагментов фильмов, сериалов и шоу (с 967 действующими лицами), представленных в трёх модальностях (выражение лица, поза и эмоционально окрашенная речь). Создатели датасета использовали эмоциональный алфавит из десяти эмоций, добавив к нейтральной эмоции и «большой шестёрке» разочарование, растерянность и скуку.
2475
Chen J., Wang C., Wang K., Yin C., Zhao C., Xu T., Zhang X., Huang Z., Liu M., Yang T. (2020). HEU Emotion: A Large-scale Database for Multi-modal Emotion Recognition in the Wild // https://arxiv.org/abs/2007.12519
8. RUSLANA database (RUSsian LANguage Affective speech database, Русскоязычная база данных эмоциональной речи) [2476] .
Первая открытая русскоязычная база данных эмоциональной речи была создана в 2002 г. Её создатели — Вероника Макарова и Валерий Петрушин, а заказчики — японский Университет Мейкай (????, Meikai daigaku, Meikai University), Национальный институт передовой промышленной науки и технологии (?????????, Sangyo Gijutsu Sogo Kenkyu-sho, National Institute of Advanced Industrial Science and Technology) и исследовательская лаборатория Accenture Technology Labs консалтинговой компании Accenture.
2476
Makarova V., Petrushin V. A. (2002). RUSLANA: A database of Russian emotional utterances / 7th International Conference on Spoken Language Processing, ICSLP2002 — INTERSPEECH 2002, Denver, Colorado, USA, September 16—20, 2002 // https://www.isca-speech.org/archive/archive_papers/icslp_2002/i02_2041.pdf
База данных содержит записи 61 человека (12 мужчин и 49 женщин), которые произносят десять предложений с выражением следующих эмоциональных состояний: удивление, счастье, гнев, грусть, страх и нейтрально (без эмоциональной окраски). Таким образом, база содержит в сумме 61 x 10 x 6 = 3660 записей.
С момента появления RUSLANA свет увидели ещё несколько открытых русскоязычных эмоциональных датасетов, например аудиовизуальный RAMAS (впрочем, сейчас получить доступ к этому датасету вряд ли получится, поскольку компания, занимавшаяся его сбором, прекратила существование) и весьма внушительный по объёму (более 20 000 записей) набор эмоциональной детской речи EmoChildRu [2477] , но долгое время не существовало открытых датасетов взрослой эмоциональной русской речи, превосходящих RUSLANA по объёму.
2477
Lyakso E., Frolova O., Dmitrieva E., Grigorev A., Kaya H., Salah A. A., Karpov A. (2015). EmoChildRu: Emotional Child Russian Speech Corpus / Ronzhin A., Potapova R., Fakotakis N. (2015). Speech and Computer. SPECOM 2015. Lecture Notes in Computer Science, Vol. 9319. Springer, Cham // https://doi.org/10.1007/978-3-319-23132-7_18
9. Ситуация изменилась лишь в феврале 2022 г., когда команда SberDevices опубликовала датасет под названием Dusha, содержащий около 320 тысяч аудиозаписей общей продолжительностью примерно 350 часов.
Датасет разделён на две большие части. Первая (Podcast) состоит из фрагментов русскоязычных подкастов, вторая (Crowd) — из различных разговорных реплик, озвученных с помощью краудсорсинга. Пользователей краудсорсинговой платформы просили озвучивать реплики с заданной эмоциональной окраской (использовался эмоциональный алфавит, включающий следующие эмоции: 1) позитив, 2) нейтральная окраска, 3) грусть, 4) злость/раздражение). Далее все реплики были пропущены через независимых оценщиков (каждую реплику оценивало несколько человек), каждый из которых указывал распознанную им эмоциональную окраску прослушанного фрагмента, используя вышеуказанный алфавит. После этого те записи из части Crowd, в которых распознанная на слух эмоциональная окраска отличалась от той, которую стремились придать участники озвучки, не были включены в итоговый датасет [2478] , [2479] .
2478
Kondratenko V., Sokolov A., Karpov N., Kutuzov O., Savushkin N., Minkin F. (2022). Large Raw Emotional Dataset with Aggregation Mechanism // https://arxiv.org/abs/2212.12266
2479
djunka (2022). Dusha: самый большой открытый датасет для распознавания эмоций в устной речи на русском языке. / Хабр, 8 фев. 2022 // https://habr.com/ru/companies/sberdevices/articles/715468/
Конечно, проприетарные (частные) датасеты эмоциональной речи, собранные крупными российскими компаниями, по объёмам многократно превосходят открытые аналоги. Использование больших проприетарных датасетов позволяет создавать модели распознавания эмоций, существенно превосходящие по точности модели, описанные в научных публикациях. Однако у начинающих разработчиков и университетских исследователей нет никакой альтернативы использованию открытых датасетов, поэтому наличие последних весьма важно для обучения новых специалистов и развития науки.
Ограниченность объёма книги не позволяет нам подробно разобрать некоторые другие интересные эмоциональные наборы данных и модели, построенные на их базе, поэтому я ограничусь здесь лишь коротким упоминанием некоторых из них. В 2020 г. китайские исследователи представили общественности мультимодальный датасет MEmoR [2480] , основанный полностью на эмоциональной разметке сериала «Теория Большого взрыва» (Big Bang Theory). Создатели датасета уделили внимание разметке эмоций сразу нескольких персонажей, появляющихся в кадре, что позволяет моделям, обученным на этих данных, строить догадки о динамике эмоций общающихся людей. Мультимодальные датасеты MELD [2481] и EmoryNLP [2482] (оба включают около 13 тысяч фраз) основаны на другом популярном сериале — «Друзья» [Friends], другой мультимодальный датасет MEISD [2483] содержит по 1000 диалогов сразу из восьми популярных телесериалов, а CMU-MOSEI [2484] и MOSI [2485] содержат по несколько тысяч видео с YouTube, снабжённых эмоциональной разметкой.
2480
Shen G., Wang X., Duan X., Li H., Zhu W. (2020). MEmoR: A Dataset for Multimodal Emotion Reasoning in Videos / MM'20: Proceedings of the 28th ACM International Conference on Multimedia, October 2020, pp. 493—502 // https://doi.org/10.1145/3394171.3413909
2481
Poria S., Hazarika D., Majumder N., Naik G., Cambria E., Mihalcea R. (2018). MELD: A Multimodal Multi-Party Dataset for Emotion Recognition in Conversations // https://arxiv.org/abs/1810.02508
2482
Zahiri S. M., Choi J. D. (2017). Emotion Detection on TV Show Transcripts with Sequence-based Convolutional Neural Networks // https://arxiv.org/abs/1708.04299
2483
Firdaus M., Chauhan H., Ekbal A., Bhattacharyya P. (2020). MEISD: A Multimodal Multi-Label Emotion, Intensity and Sentiment Dialogue Dataset for Emotion Recognition and Sentiment Analysis in Conversations // https://aclanthology.org/2020.coling-main.393.pdf
2484
Zadeh A. B., Liang P. P., Poria S., Cambria E., Morency L.-P. (2018). Multimodal Language Analysis in the Wild: CMU-MOSEI Dataset and Interpretable Dynamic Fusion Graph // https://aclanthology.org/P18-1208/
2485
Zadeh A., Zellers R., Pincus E., Morency L.-P. (2016). MOSI: Multimodal Corpus of Sentiment Intensity and Subjectivity Analysis in Online Opinion Videos // https://arxiv.org/abs/1606.06259
Некоторые эмоциональные датасеты включают в себя только текстовую модальность, но могут при этом иметь весьма внушительные размеры и сложную разметку. Например, датасет GoEmotions [2486] содержит около 58 000 текстовых комментариев с платформы Reddit, размеченных при помощи алфавита, включающего в себя 27 эмоций. Датасеты, подобные DREAMER [2487] , ASCERTAIN [2488] и K-EmoCon [2489] , содержат в себе данные, относящиеся к редким модальностям (например, включают в себя электроэнцефалограммы и электрокардиограммы). Датасет AffectNet содержит более миллиона изображений лиц (с опорными точками), размеченных при помощи 1250 эмоционально окрашенных тегов на шести разных языках: английском, немецком, испанском, португальском, арабском и фарси.
2486
Demszky D., Movshovitz-Attias D., Ko J., Cowen A., Nemade G., Ravi S. (2020). GoEmotions: A Dataset of Fine-Grained Emotions // https://arxiv.org/abs/2005.00547
2487
Katsigiannis S., Ramzan N. (2018). DREAMER: A Database for Emotion Recognition Through EEG and ECG Signals from Wireless Low-cost Off-the-Shelf Devices // IEEE Journal of Biomedical and Health Informatics, Vol. 22, No. 1, pp. 98—107, January 2018 // https://doi.org/10.1109/JBHI.2017.2688239
2488
Subramanian R., Wache J., Abadi M. K., Vieriu R. L., Winkler S., Sebe N. (2018). ASCERTAIN: Emotion and Personality Recognition Using Commercial Sensors / IEEE Transactions on Affective Computing, Vol. 9, No. 2, pp. 147—160, 1 April—June 2018 // https://doi.org/10.1109/TAFFC.2016.2625250
2489
Park C. Y., Cha N., Kang S., Kim A., Khandoker A. H., Hadjileontiadis L., Oh A., Jeong Y., Lee U. (2020). K-EmoCon, a multimodal sensor dataset for continuous emotion recognition in naturalistic conversations / Scientific Data, Vol. 7, Iss. 293 // https://doi.org/10.1038/s41597-020-00630-y
6.5.5 Современные достижения в анализе эмоций
Современные модели, предназначенные для распознавания эмоциональной окраски речи в аудиоканале, обычно представляют собой свёрточные или свёрточно-рекуррентные нейронные сети, получающие на вход различные представления звукового сигнала (спектрограммы, последовательности наборов мел-кепстральных коэффициентов и т. п.) и решающие задачу классификации или регрессии. В этом смысле они напоминают модели, предназначенные для решения других задач обработки человеческого голоса: определения пола и возраста говорящего, выявления ключевых слов или полнотекстового распознавания речи. Рассмотрим для примера одну из таких работ [2490] , увидевшую свет в 2020 г. и установившую, по заявлению авторов, новые рекорды в точности распознавания эмоциональной окраски сразу для двух датасетов — RAVDESS и IEMOCAP (при этом результат на датасете EMO-DB лишь несущественно уступает наилучшему существующему решению).
2490
Issa D., Fatih Demirci M., Yazici A. (2020). Speech emotion recognition with deep convolutional neural networks / Biomedical Signal Processing and Control, Vol. 59 // https://doi.org/10.1016/j.bspc.2020.101894
Её авторы, исследователи Диас Исса, Мухаммед Фатих Демирджи и Аднан Языджи из Назарбаев Университета (Астана, Казахстан), представили новую архитектуру, в которой на вход нейронной сети подаются мел-кепстральные коэффициенты, хромаграмма (представление, напоминающее спектрограмму, с тем лишь отличием, что по оси y в хромаграмме отложены не диапазоны частот, а звуковысотные классы [pitch class] — классы, образуемые множеством всех звуковых высот, отстоящих друг от друга на целое число октав), мел-спектрограмма, а также два более хитрых представления — на основе так называемых спектральных контрастов и на основе тоннетца [Tonnetz].
Термином «тоннетц» (от нем. Tonnetz — тоновая сеть), или эйлеровской звуковой сеткой, в теории музыки называют сетевую диаграмму, представляющую звуковысотную систему, задающую набор и возможную последовательность в музыкальном произведении звуковысотных классов. Узлы эйлеровской звуковой сетки соответствуют звуковысотным классам, а треугольники, объединяющие три соседних узла, соответствуют аккордам. В музыкальном произведении, принадлежащем к описываемой тоннетцем звуковысотной системе, друг за другом могут следовать только аккорды, соответствующие соседним треугольникам тоннетца.
Тоннетц был впервые предложен [2491] Леонардом Эйлером в 1739 г., затем на долгое время забыт, затем переоткрыт в XIX в. и стал весьма популярен у музыкальных теоретиков — таких, например, как Риман и Эттинген.
В книге одно тянет за собой другое, и трудно понять, где следует остановиться. Что такое спектрограммы, мел-шкала и кепстр, мы более-менее подробно разобрали в разделах, посвящённых распознаванию и синтезу речи. Сведения о хромаграмме, в принципе, удалось вместить в одно вроде бы понятное предложение. Хуже обстоят дела с тоннетцем. Авторы рассматриваемой нами модели использовали функцию librosa.feature.tonnetz из популярной библиотеки для обработки звука Librosa в языке Python для получения соответствующего представления звука. Для описания работы этой функции нужно объяснять, что такое натуральный строй, равномерно темперированный строй, как тоновое пространство из плоскости становится сначала трубкой с нанизанной на её поверхность спиральной матрицей Чу, а потом и вовсе гипертором. И как 12-мерный вектор хромаграммы при помощи операции построения центроидов превращается в набор из шести координат представления, предложенного [2492] Хартом, Сэндлером и Гэссером и основанного на тоннетце Эйлера. Примерно так же дело обстоит и со спектральными контрастами [2493] . В общем, выглядит как бессмысленный экскурс в теорию музыки для тех, кому она не особо-то и нужна. Один из моих коллег (занимающийся среди прочего созданием моделей для распознавания эмоций), выслушав мои страдания, посоветовал написать так: «авторы считают сложные непонятные фичи из теории музыки».
2491
Euler L. (1739). Tentamen novae theoriae musicae ex certissismis harmoniae principiis dilucide expositae (in Latin) / Saint Petersburg Academy, p. 147.
2492
Harte C., Sandler M., Gasser M. (2006). Detecting Harmonic Change In Musical Audio / AMCMM '06: Proceedings of the 1st ACM workshop on Audio and music computing multimedia, October 2006, pp. 21—26 // https://doi.org/10.1145/1178723.1178727
2493
Jiang D.-N., Lu L., Zhang H.-J., Tao J.-H., Cai L.-H. (2002). Music type classification by spectral contrast feature / Proceedings of the IEEE International Conference on Multimedia and Expo // https://doi.org/10.1109/ICME.2002.1035731