ЖАНРЫ

Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:

LibriSpeech с его 1000 часов записей является на сегодняшний день самым большим открытым речевым датасетом. При этом объёмы проприетарных (несвободных) датасетов, находящихся в распоряжении крупных корпораций, составляют на сегодняшний день десятки тысяч часов [1921] .

6.2.2.4 Метрики оценки

При оценке качества распознавания речи используются различные метрики, но наиболее популярной на протяжении многих лет остаётся метрика под названием WER (Word Error Rate, доля ошибок на уровне слов). Иногда WER называется также «дистанцией редактирования, нормализованной на длину» [length normalized edit distance], поскольку представляет собой дистанцию Левенштейна (редакционное расстояние, дистанцию редактирования) на уровне слов между правильным текстом и текстом на выходе системы распознавания, делённую на длину правильного текста (в словах).

1921

He Y., Sainath T. N., Prabhavalkar R., McGraw I., Alvarez R., Zhao D., Rybach D., Kannan A., Wu Y., Pang R., Liang Q., Bhatia D., Shangguan Y., Li B., Pundak G., Sim K. C., Bagby T., Chang S., Rao K., Gruenstein A. (2018). Streaming End-to-end Speech Recognition For Mobile Devices // https://arxiv.org/abs/1811.06621

Дистанция Левенштейна получила имя в честь советского и российского математика Владимира Левенштейна, который ввёл эту метрику в 1965 г. под названием «дистанция редактирования». Дистанцией редактирования между двумя последовательностями A и B называется минимальное количество вставок, удалений и замен элементов последовательности (например, символов или, как в нашем случае, слов), которые нужно произвести в A для того, чтобы получить B. Например, чтобы получить из предложения МАМА МЫЛА РАМУ предложение МАМА МЫЛА МАМУ, нужно заменить одно слово (РАМУ — МАМУ), следовательно, дистанция редактирования между этими двумя предложениями составляет 1. Чтобы сделать из фразы СЛОНЫ ИДУТ НА СЕВЕР фразу СЛОНЫ МАШУТ УШАМИ нужно произвести три правки (ИДУТ заменить на МАШУТ, НА заменить на УШАМИ, а СЕВЕР удалить), стало быть, дистанция Левенштейна (на уровне слов) между этими двумя фразами составит 3.

Для того чтобы вычислить WER, необходимо поделить дистанцию Левенштейна на количество слов в правильной версии распознаваемой фразы. Если система распознавания речи приняла фразу МАМА МЫЛА РАМУ за МАМА МЫЛА МАМУ, то WER = 1/3 ? 33%. Если при распознавании фразы СЛОНЫ ИДУТ НА СЕВЕР система распознавания расслышала в ней СЛОНЫ МАШУТ УШАМИ, то WER = 3/4 = 75%. Если дистанцию редактирования и длину оригинальной фразы считать на уровне букв, а не на уровне слов, то получившаяся в итоге метрика будет называться CER (Character Error Rate, доля ошибок на уровне символов). Если же расчёт выполнять на уровне целых предложений, то получится метрика SER (Sentence Error Rate, доля ошибок на уровне предложений).

Существует альтернативная методика расчёта WER, при которой вставки и удаления, в отличие от замены, засчитывают не за целую, а за половину ошибки. Эта версия была предложена [1922] в 1990 г. Мелвином Хантом, однако в наши дни под WER обычно понимают оригинальную метрику. Более тонкий подход к оценке качества распознавания может быть получен путём разделения замен на грубые и негрубые, такая перевзвешенная метрика называется IWER (Inflected WER, склоняемый WER), поскольку предназначена прежде всего для того, чтобы снизить штраф за некритичные ошибки в окончаниях слов.

1922

Hunt M. J. (1990). Figures of Merit for Assessing Connected Word Recognisers / Speech Communication, Vol. 9, 1990, pp. 239—336 //90008-WGet

6.2.2.5 Прогресс и проблемы

В 2000 г. лучшая система распознавания речи, существовавшая на тот момент, а именно CU-HTK [1923] , продемонстрировала на Hub5’00 значение WER, равное 25,4% [1924] , то есть примерно каждое четвёртое слово распознавалось неправильно. И всё это в условиях, когда тестовая выборка была составлена из разговоров, максимально приближённых по параметрам к обучающей выборке. При этом протокол тестирования, использованный NIST, был максимально «дружественным» для систем распознавания, например, ошибкой не считались несовпадения в написании слов, используемых для обозначения хезитации (uh, eh, mm, hm, huh и т. д.) [1925] , то есть различных эканий и беканий, которыми люди склонны заполнять неловкие паузы в разговоре. В общем, ситуация была весьма плачевной.

1923

Hain T., Woodland P. C., Evermann G., Povey D. (2001). New features in the CU-HTK system for transcription of conversational telephone speech / 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings (Cat. No.01CH37221), Salt Lake City, UT, USA, 2001, Vol. 1, pp. 57—60 // https://doi.org/10.1109/ICASSP.2001.940766

1924

NIST March 2000 Hub-5 Benchmark Test Results for Recognition of Conversational Speech over the Telephone, in English and Mandarin. Release 1.4 (2000) // https://catalog.ldc.upenn.edu/docs/LDC2002T43/readme.htm

1925

The 2000 NIST Evaluation Plan for Recognition of Conversational Speech over the Telephone. Version 1.3, 24-Jan-00 (2000) // https://mig.nist.gov/MIG_Website/tests/ctr/2000/h5_2000_v1.3.html

Задача распознавания речи отчасти похожа на задачу оптического распознавания текста. В 1960-х гг., как мы уже рассказывали, команда SRI решала задачу распознавания напечатанных на бумаге текстов программ на фортране и обнаружила, что не всегда можно наилучшим образом распознать слово, просто сложив лучшие гипотезы по поводу каждого из составляющих его символов. Ведь модель, распознающая отдельные символы, не знает ничего о закономерностях языка, выражение которого записано при помощи этих символов. С фонетической точки зрения речь можно также рассматривать как последовательность элементарных единиц, своеобразных звуковых символов. Их называют фонемами (от др.-греч. ?????? — звук; фонема — минимальная смыслоразличительная единица языка, не имеющая самостоятельного лексического или грамматического значения). Точно так же лучшие гипотезы по поводу отдельных фонем в звуковом представлении произносимого слова необязательно гарантируют успешное угадывание слова в целом. Люди постоянно коверкают слова при произнесении их вслух. Отдельные звуки просто выпадают, другие обладают существенной степенью вариативности. Лингвисты придумали множество специальных терминов для обозначения подобных явлений.

Например, термином «элизия» (от лат. elisio — выдавливание, выталкивание) называют отпадение звука (гласного, согласного или даже целого слога) в слове или фразе с целью облегчения произношения для говорящего. Иногда звуки могут быть опущены с целью улучшения благозвучия. В русском языке «чтобы» часто превращается в [штоп], «уже» в [уш], «бы» в [б] и так далее.

Термином «коартикуляция» (от лат. со(n) — с, вместе + articulatio — членораздельно, ясно произношу) называют наложение артикуляции, характерной для последующего звука, на весь предшествующий звук. Примером коартикуляции может служить лабиализация (огубление) согласного под влиянием последующего губного [о] или [у]. Например, при произнесении слова «суп» наши губы вытягиваются в трубочку до начала произнесения звука [у], что приводит к изменению звучания звука [с], его лабиализации.

Звуки могут влиять друг на друга. Это влияние вызывает комбинаторные изменения, к которым относятся аккомодация, ассимиляция, диссимиляция, диэрезы, эпентезы, гаплология. Кроме этого, на звуки могут влиять общие условия произношения. Это вызывает позиционные изменения звуков. К ним относятся протеза в начале слова, оглушение звонких согласных в конце слова, редукция безударных гласных и так далее.

Как человеческий мозг справляется со всеми этими фонетическими сложностями? На самом деле нам помогает знание контекста. Благодаря пониманию синтаксической и смысловой структуры высказываний мы можем догадаться, что именно за слово сказал собеседник, даже если расслышали его недостаточно чётко. В системах распознавания речи за угадывание слов по контексту отвечают так называемые языковые модели (language model, LM). В начале 2000-х гг. наиболее популярными были языковые модели, основанные на n– граммах (серии из n слов, встречающихся в тексте последовательно). В зависимости от выбранного n, n– граммы называются биграммами (n = 2), триграммами (n = 3) и так далее. Рассчитав статистику n– грамм на достаточно большом текстовом корпусе, можно построить модель, неплохо предсказывающую вероятность появления того или иного слова в текущем контексте. Такой же трюк можно проделывать не только со словами, но и с фонемами, при этом сочетания фонем будут называться n– фонами (бифонами, трифонами или даже квинфонами).

В системе CU-HTK для распознавания речи использовалась комбинация из нескольких «классических» алгоритмов машинного обучения. Это были скрытые марковские модели для предсказания трифонов и квинфонов, деревья решений, гауссовы смеси распределений и, наконец, языковая модель на основе квадрограмм и триграмм. В качестве входного представления звука использовались мел-кепстральные коэффициенты. Настройка столь сложного ансамбля моделей была весьма непростой задачей и требовала не только обширных познаний, но и изрядного упорства, а также везения.

Большую проблему для сравнения различных систем распознавания речи составляет неоднородность датасета Hub5’00. Его подмножество CallHome в целом сложнее для распознавания, чем подмножество SwitchBoard, при этом в литературе в качестве значения метрики приводятся значения, полученные как на всём Hub5’00, так и на отдельных его подмножествах — Hub5’00 SWB и Hub5’00 CH. Из-за этого некоторые графики, призванные изобразить динамику точности распознавания речи по годам, попахивают откровенной шизофренией. Давайте всё-таки попробуем найти какие-то точки опоры — например Hub5’00 SWB. В 2000 г. показатель WER CU-HTK на Hub5’00 SWB составил 19,3%. В 2011 г. модель [1926] , созданная исследователями из Microsoft и основанная на комбинации глубокой нейронной сети и скрытых марковских моделей, продемонстрировала на Hub5’00 SWB показатель WER в 16,1%. Таким образом, за 11 лет уровень ошибки удалось снизить лишь на 3,2 процентных пункта. А в 2013 г. исследователям из IBM удалось [1927] уменьшить WER на Hub5’00 SWB до 11,5%. Это удалось сделать за счёт замены полносвязной сети, получающей на вход мел-кепстральные коэффициенты, на свёрточную нейронную сеть, работающую со спектрограммой звукового сигнала. Таким образом, за два года удалось достичь большего прогресса, чем за предыдущие одиннадцать. И это было только начало.

1926

Seide F., Li G., Yu D. (2011). Conversational Speech Transcription Using Context-Dependent Deep Neural Networks / INTERSPEECH 2011, 12th Annual Conference of the International Speech Communication Association, Florence, Italy, August 27—31, 2011 // https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/CD-DNN-HMM-SWB-Interspeech2011-Pub.pdf

1927

Sainath T. N., Mohamed A., Kingsbury B., Ramabhadran B. (2013). Deep convolutional neural networks for LVCSR / 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, Vancouver, BC, 2013, pp. 8614-8618 // https://doi.org/10.1109/ICASSP.2013.6639347

В 2014 г. величина ошибки снизилась до 10,4%, а в 2015 г. — до 8,0% (за счёт ансамбля полносвязной, свёрточной и рекуррентной сетей, работающих с мел-кепстральными коэффициентами, а также использования нейронной сети в качестве элемента языковой модели) [1928] . В октябре 2016 г. команда разработчиков из Microsoft сообщила о создании системы распознавания речи, которая делает то же или даже меньшее количество ошибок, чем люди, профессионально выполняющие эту работу. Исследователи сообщили о том, что им удалось снизить WER на Hub5’00 SWB до 5,8%, что на 0,1% ниже показателя профессиональных людей-разметчиков. Этого результата удалось достичь за счёт комбинации свёрточной нейронной сети с рекуррентной LSTM-сетью, при этом свёрточная часть сети напоминала собой сеть ResNet. Итоговая архитектура получила название LACE (Layer-wise context expansion with attention, Послойное контекстное расширение с вниманием) [1929] . Доработка этой архитектуры в 2017 г. привела к уменьшению WER до 5,1% [1930] .

1928

Saon G., Kuo H. K. J., Rennie S., Picheny M. (2015). The IBM 2015 English Conversational Telephone Speech Recognition System // https://arxiv.org/abs/1505.05899

1929

Xiong W., Droppo J., Huang X., Seide F., Seltzer M., Stolcke A., Yu D., Zweig G. (2017). Achieving human parity in conversational speech recognition // https://arxiv.org/abs/1610.05256

1930

Xiong W., Wu L., Alleva F., Droppo J., Huang X., Stolcke A. (2017). The Microsoft 2017 Conversational Speech Recognition System // https://arxiv.org/abs/1708.06073

Поделиться с друзьями: