ЖАНРЫ

Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:

При произнесении носовых звуков (например, [м] и [н] в русском языке) люди используют не два, а три резонатора (к полости рта и глотки добавляется ещё и полость носа). Открытый проход в носовую полость создаёт очень большой резонатор (глотка + нос) и, соответственно, сильный резонанс. Кроме того, интерференция между полостями создаёт дополнительные антирезонансы.

Благодаря формантам отдельно взятый столбец спектрограммы содержит периодические подъёмы и спады, причём пики этих колебаний приходятся на центральные частоты формант. Таким образом, спектрограмме присуща некоторая избыточность, носящая, так же как и в оригинальном сигнале, периодический характер.

В 1963 г. три исследователя — Брюс Богерт, Майкл Хили и уже упоминавшийся нами Джон Тьюки — написали статью [1900] , [1901] под игривым названием «Сачтотный аланиз временных рядов для эхо: кепстр, псевдоавтоковариация, кросс-кепстр и взлом зафы» (The Quefrency Alanysis of Time Series for Echoes: Cepstrum, Pseudo-Autocovariance, Cross-Cepstrum, and Saphe Cracking), посвящённую анализу периодических компонент спектрограмм, появляющихся вдоль частотной оси из-за отражений звука. Эта работа, посвящённая анализу колебаний в геофизике, дала начало широкому применению кепстрального преобразования при обработке сигналов, позволяющего уменьшить число параметров [1902] , [1903] .

1900

Bogert B. P., Healy J. R., Tukey J. W. (1963). The Quefrency Analysis of Time Series for Echoes: Cepstrum, Pseudo-Autocovariance, Cross-Cepstrum, and Saphe Cracking / Proceedings of the Symposium on Time Series Analysis, 1963, pp. 209-243.

1901

Howarth R. J. (2017). Dictionary of Mathematical Geosciences: With Historical Notes. Springer // https://books.google.ru/books?id=MNwlDwAAQBAJ

1902

Oppenheim A. V., Schafer R. W. (2004). Dsp history — From frequency to quefrency: a history of the cepstrum / IEEE Signal Processing Magazine, Vol. 21(5), pp. 95—106 // https://doi.org/10.1109/msp.2004.1328092

1903

Waslo B. (1994). Reflecting on Echoes and the Cepstrum: A look at Quefrency Alanysis and Hearing / Speaker Builder, August 1994 // http://www.libinst.com/cepst.htm

Кепстральное преобразование можно представить следующим образом: вместо значений частоты берём их логарифмы, потом поворачиваем график на 90°, чтобы столбцы стали строками, а далее раскладываем каждую строку на гармоники при помощи преобразования Фурье (считая, что как будто каждая строка — это последовательность амплитуд звуковой волны).

В полученной таким путём «кепстрограмме» место частоты занимает «сачтота» [quefrency], фаза [phase] становится «зафой» [saphe] и так далее. Дошло даже до изобретения «лифтрации» [liftering, вместо filtering]. Коэффициенты гармоник кепстрального разложения для мел-спектрограммы называют мел-кепстральными коэффициентами (Mel-frequency cepstral coefficients, MFCCs).

Чтобы окончательно всех запутать, в 1978 г. геофизики Мануэль Сильвиа и Эндерс Робинсон вводят [1904] , [1905] термин kepstrum, причём в данном случае KEPSTR является аббревиатурой — Kolmogorov Equation Power Series Time Response [временной ответ степенных рядов уравнения Колмогорова]. Сильвиа и Робинсон показывают развитие идей «кепстрального анализа» начиная с работ Пуассона, Карла Шварца, Сегё, Колмогорова, Богерта и так далее, а затем отмечают, что одной из проблем кепстра у Богерта является потеря в нём информации о фазе колебаний. В общем, кепстр [kepstrum] у Сильвии и Робинсона и кепстр [cepstrum] у Богерта и его коллег — это два несколько разных кепстра, но в обработке звука обычно применяется второй, название которого не имеет никакого отношения к Андрею Николаевичу Колмогорову.

1904

Silvia M. T., Robinson E. A. (1978). Use of the kepstrum in signal analysis / Geoexploration, Vol. 16 (1—2), pp. 55—73 //90007-8

1905

Silvia M. T., Robinson E. A. (1979). Deconvolution of Geophysical Time Series in the Exploration for Oil and Natural Gas. Elsevier // https://books.google.ru/books?id=Ecgfjh-MpU0C

В общем, в начале тысячелетия у разработчиков систем распознавания речи существовало немало способов представления звуковой информации на входе в распознающую систему, позволяющих уменьшить число параметров и тем самым упростить представление звука.

Конечно, решая задачу распознавания речи, можно «скармливать» звуковые данные на вход модели в виде последовательности амплитуд звукового сигнала. Но при таком способе размерность данных становится непотребной: даже при частоте дискретизации в 8 кГц всего одна секунда звуковой информации — это 8000 чисел, а для пятисекундной фразы (в Русской языковой базе данных (Russian Speech Database) средняя длина фразы составляет около 5 секунд [1906] ) мы получим уже 40 000 значений. Что уж говорить про 16 кГц (частота дискретизации в современных системах интернет-телефонии) или про 44 100 Гц (частота дискретизации при записи звука на Audio CD). При частоте дискретизации 16 кГц, звуке моно и глубине кодирования в 16 бит (при такой глубине кодирования будет различаться 216 = 65 536 уровней сигнала) объём данных для пятисекундной фразы будет примерно такой же, как у средней картинки из ImageNet, но, что хуже, на выходе модели мы должны получить не просто метку класса, а последовательность из десятков символов естественного языка. Если взять алфавит из 27 символов (26 латинских букв и пробел), то при помощи такого алфавита можно составить 27100 ? 1,37 x 10143 сообщений длиной 100 символов. Конечно, по большей мере это будет полная белиберда. Давайте попробуем оттолкнуться от слов, существующих в языке. В английском языке, по разным оценкам, от 470 000 до миллиона с небольшим слов [1907] , [1908] , причём активно используется около 170 000 из них [1909] . В среднем на одну лексему (под лексемой понимается совокупность всех форм некоторого слова) английского языка приходится примерно 4,1 словоформы [1910] (слова могут изменяться, например, за счёт добавления окончаний), что даёт нам около 700 000 активных словоформ. При длине предложения в 14 слов (средней для английского языка [1911] ) мы получим 700 00014 ? 6,78 x 1081 различных предложений, что уже лучше, но всё же бесконечно далеко от практического применения.

1906

Resource: Russian Speech Database (2014) / International standard language resource number // http://www.islrn.org/resources/428-147-317-182-1/

1907

Wil (2014). How many words are in the English language? / EF English Live // https://englishlive.ef.com/blog/language-lab/many-words-english-language/

1908

How many words are there in English? / Merriam-Webster.com Dictionary, Merriam-Webster // https://www.merriam-webster.com/help/faq-how-many-english-words

1909

Wil (2014). How many words are in the English language? / EF English Live // https://englishlive.ef.com/blog/language-lab/many-words-english-language/

1910

Wu S., Cotterell R., O’Donnell T. J. (2019). Morphological Irregularity Correlates with Frequency // https://arxiv.org/abs/1906.11483v1

1911

Vincent S. (2014). Sentence length: why 25 words is our limit / Inside GOV.UK // https://insidegovuk.blog.gov.uk/2014/08/04/sentence-length-why-25-words-is-our-limit/

В общем, с идеей запихнуть в какой-нибудь ResNet-152 спектрограмму фразы и получить на выходе класс, соответствующий фразе, можно, по всей видимости, благополучно расстаться. Вот почему достижения в области распознавания изображений нельзя просто взять и перенести в область распознавания речи, необходимо искать решение, способное преобразовать последовательность данных, описывающих звуковой сигнал, в последовательность символов (или слов) естественного языка.

6.2.2.3 Корпусы речи

В области распознавания речи пока что так и не появилось своего аналога ImageNet, однако для английского языка было создано несколько весьма солидных по объёму публичных корпусов, содержащих снабжённые текстовой расшифровкой записи человеческой речи.

Первая попытка создания стандартного корпуса аудиозаписей человеческой речи для исследовательских целей была предпринята ещё в 1980-е гг. В 1988 г. опубликовали датасет, получивший имя TIMIT — в нём объединены аббревиатуры TI (компания Texas Instruments) и MIT (Массачусетский технологический институт). Официальное название датасета — DARPA-TIMIT Acoustic-Phonetic Continuous Speech Corpus (Акустико-фонетический непрерывный речевой корпус DARPA-TIMIT). Заказчиком, как можно догадаться из полного названия корпуса, выступило DARPA, а исполнителями — MIT, Texas Instruments и SRI (Стэнфордский исследовательский институт в Менло-Парке, знакомый нам по совместным с Розенблаттом проектам в 1960-е гг.). Подготовка данных для публикации была осуществлена Национальным институтом стандартов и технологий (NIST). Датасет содержит записи 630 дикторов, являющихся носителями одного из восьми распространённых в США диалектов английского языка. Каждый из дикторов зачитывает по девять фраз (семь из них выбраны из большого текстового датасета, а две представляли собой фразы, характерные для соответствующего диалекта — так называемые шибболеты, набор которых был подготовлен исследователями из SRI). Средняя длина одной фразы составляет около 30 секунд. Каждой аудиозаписи соответствует текстовая транскрипция, привязанная к аудио по временным меткам. Целью разработки TIMIT было углубление знаний в области акустики и фонетики, а также разработка систем автоматического распознавания речи. Стоимость проекта по созданию и распространению этого корпуса составила около 1,5 млн долларов [1912] . Примечательно, что TIMIT не является открытым набором данных — для доступа к нему требуется либо членство в Консорциуме лингвистических данных, либо внесение денежного платежа.

1912

Garofolo J. S., Lamel L. F., Fisher W. M., Fiscus J. G., Pallett D. S., Dahlgren N. L. (1993). DARPA TIMIT: (Technical report). National Institute of Standards and Technology // https://doi.org/10.6028/nist.ir.4930

В 1997 г. свет увидела база данных Switchboard, ставшая результатом одноимённого эксперимента, в ходе которого роботизированная система случайным образом соединяла двух добровольцев, предварительно сообщив им тему для последующего разговора. Всего корпус содержит 2430 записей разговоров средней продолжительностью около 6 минут, что в сумме даёт около 240 часов аудио. Запись осуществлялась с частотой дискретизации 8 кГц (каждый из участников разговора записывался в отдельный канал), в эксперименте участвовало чуть более 500 человек, а суммарная длина текстовых расшифровок превысила 3 млн слов.

В том же году Консорциум лингвистических данных (Linguistic Data Consortium, LDC) подготовил вторую базу под названием CALLHOME American English Speech [1913] , содержащую 120 тридцатиминутных записей телефонных разговоров носителей английского языка, в которых они преимущественно общались с родственниками или близкими друзьями на произвольные темы.

В 2004–2005 гг. Консорциум опубликовал так называемый корпус Фишера (The Fisher corpus) [1914] , [1915] , [1916] — базу данных, созданную в рамках проекта DARPA EARS (Effective, Affordable, Reusable Speech-to-Text, Эффективный, доступный, пригодный для «переиспользования» перевод речи в текст) и содержащую ещё около 2000 часов записей телефонных переговоров с текстовой расшифровкой (всего 11 699 записей; запись, как и в CALLHOME и Switchboard, велась с частотой 8 кГц в раздельные каналы).

1913

Canavan A., Graff D., Zipperlen G. (1997). CALLHOME American English Speech LDC97S42. Web Download. Philadelphia: Linguistic Data Consortium // https://catalog.ldc.upenn.edu/LDC97S42

1914

Cieri C., Miller D., Walker K. (2004). The Fisher corpus: A resource for the next generations of speech-to-text // https://www.ldc.upenn.edu/sites/www.ldc.upenn.edu/files/lrec2004-fisher-corpus.pdf

1915

Cieri C., Graff D., Kimball O., Miller D., Walker K. (2004). Fisher English Training Speech Part 1 Transcripts // https://catalog.ldc.upenn.edu/LDC2004T19

1916

Cieri C., Graff D., Kimball O., Miller D., Walker K. (2005). Fisher English Training Part 2, Transcripts // https://catalog.ldc.upenn.edu/LDC2005T19

Для тестирования качества распознавания английской речи LDC на протяжении многих лет использовал стандартизированный датасет, получивший название «2000 HUB5 English Evaluation Transcripts» [1917] (коротко — Hub’2000 или даже Hub5’00), состоящий из 40 записей телефонных разговоров общей продолжительностью около четырёх часов. Этот датасет был впервые использован в 2000 г. на конкурсе Hub5, спонсировавшемся NIST. Половина разговоров Hub5’00 взята из неопубликованной части Switchboard, вторая — из неопубликованной части CALLHOME. Hub5’00 не был первым датасетом, использованным для оценки качества распознавания речи (на это как бы намекает цифра 5 в названии датасета), но именно Hub5’00 на долгие годы стал наиболее популярным массивом для оценки качества работы систем распознавания речи.

1917

Linguistic Data Consortium (2002). 2000 HUB5 English Evaluation Transcripts LDC2002T43. Web Download. Philadelphia: Linguistic Data Consortium // https://catalog.ldc.upenn.edu/LDC2002T43

В 2015 г. появился корпус LibriSpeech [1918] , содержащий 1000 часов записей аудиокниг, находящихся в публичном доступе. В отличие от предшественников LibriSpeech содержит записи, выполненные с частотой дискретизации 16 кГц. В наши дни он весьма популярен в качестве основы для сравнения различных систем распознавания речи. Этот датасет разделён на две части. Первую составляют «чистые» [clean] записи, а вторую — «прочие» [other]. Для того чтобы разделить датасет на две части, была использована система распознавания речи, обученная на другом, более старом датасете — WSJ (содержащем надиктованную на микрофон подборку новостей из The Wall Street Journal) [1919] . Далее записи 50% дикторов, чью речь модель распознала лучше всего, были отнесены к первой части датасета, а записи оставшихся дикторов — ко второй [1920] .

1918

Panayotov V., Chen G., Povey D., Khudanpur S. (2015). LibriSpeech: an ASR corpus based on public domain audio books / 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) // https://doi.org/10.1109/ICASSP.2015.7178964

1919

Garofolo J. S., Graff D., Paul D., Pallett D. (2007). CSR-I (WSJ0) Complete // https://doi.org/10.35111/ewkm-cg47

1920

Panayotov V., Chen G., Povey D., Khudanpur S. (2015). LibriSpeech: an ASR corpus based on public domain audio books / 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) // https://doi.org/10.1109/ICASSP.2015.7178964

Поделиться с друзьями: