Чтение онлайн

ЖАНРЫ

Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:

Свидетелем этой демонстрации стал Артур Кларк, приглашённый в Bell Laboratories своим другом, инженером и фантастом Джоном Пирсом. Кларк был настолько впечатлён увиденным, что использовал машинное исполнение Daisy Bell в одной из наиболее ярких сцен своего романа и сценария фильма «2001 год: Космическая одиссея», увидевшего свет в 1968 г. Именно эту песню поёт компьютер HAL 9000 перед тем, как астронавт Дейв Боуман окончательно отключит его [2350] , [2351] , [2352] , [2353] .

2350

Smith III J. O. (2010). Physical Audio Signal Processing. W3K Publishing // https://ccrma.stanford.edu/~jos/pasp/Singing_Kelly_Lochbaum_Vocal_Tract.html

2351

O’Dell C. (2009). “Daisy Bell (Bicycle Built for Two)” — Max Mathews, John L. Kelly, Jr., and Carol Lochbaum (1961) // https://www.loc.gov/static/programs/national-recording-preservation-board/documents/DaisyBell.pdf

2352

Facetti P. (2014). IBM 704 — Speech Synthesis. Daisy Bell on IBM 7094 / Aneddotica magazine, Sep. 11, 2014 // https://www.aneddoticamagazine.com/ibm-704-speech-synthesis/

2353

Mattingly I. G. (1974). Speech synthesis for phonetic and phonological models / Sebeok T. A. (1974). Current trends in linguistics, Vol. 12, Mouton, The Hague, pp. 2451—2487 / Smithsonian Speech Synthesis History Project // https://amhistory.si.edu/archives/speechsynthesis/im_2457.htm

Первая полноценная компьютерная система для преобразования текста в речь (text-to-speech, TTS) была продемонстрирована в 1968 г. на VI Международном конгрессе по акустике в Токио [2354] , [2355] , [2356] , [2357] . Её создательницей была Норико Умеда из Электротехнической лаборатории (Electrotechnical Laboratory, ETL) в Японии. Созданная Умедой и её коллегами система предназначалась для синтеза английской речи и была основана на артикуляционной модели (т. е. на моделировании работы речевого тракта и артикуляционного процесса). Система включала в себя модуль синтаксического анализа текста, основанный на довольно сложных эвристиках. Спустя год Норико Умеда стала сотрудницей Bell Laboratories, где объединила усилия с инженером Сесилом Кокером и лингвистом Кэтрин Браумен для работы над первой TTS-системой Bell Laboratories. Работа системы была продемонстрирована на Международной конференции по речевым коммуникациям и обработке речи (International Conference of Speech Communication and Processing, ICSCP) в 1972 г. [2358] , [2359] , [2360]

2354

Klatt D. H. (1987). Review of text-to-speech conversion for English / Journal of the Acoustical Society of America 82 (3), September 1987 // https://amhistory.si.edu/archives/speechsynthesis/dk_757.htm

2355

Umeda N., Teranishi R. (1975). The parsing program for automatic text-to-speech synthesis developed at the electrotechnical laboratory in 1968 / IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. 23, Iss. 2 // https://doi.org/10.1109/TASSP.1975.1162663

2356

Teranishi R., Umeda N. (1968). Use of pronouncing dictionary in speech synthesis experiments (B-5-2) / Reports of the 6th International Congress on Acoustics, Vol. 2, pp. 151—155 // https://www.icacommission.org/Proceedings/ICA1968Tokyo/ICA06%20Proceedings%20Vol2%20OCR.pdf

2357

Umeda N., Matsui E., Suzuki T., Omura H. (1968). Synthesis of fairy tales using vocal tract (B-5-3). Reports of the 6th International Congress on Acoustics, Vol. 2, pp. 155—159 // https://www.icacommission.org/Proceedings/ICA1968Tokyo/ICA06%20Proceedings%20Vol2%20OCR.pdf

2358

Klatt D. H. (1987). Review of text-to-speech conversion for English / Journal of the Acoustical Society of America 82 (3), September 1987 // https://amhistory.si.edu/archives/speechsynthesis/dk_757.htm

2359

Coker C. H., Umeda N., Browman C. P. (1973). Automatic synthesis from ordinary English text / IEEE Transactions on Audio Electroacoustics, Vol. 21, pp. 293—297.

2360

Gold B., Morgan N., Ellis D. (2011). Speech and Audio Signal Processing: Processing and Perception of Speech and Music. John Wiley & Sons // https://books.google.ru/books?id=M1TM8-GA_YkC

В 1970-е гг. по мере удешевления и миниатюризации вычислительной техники задача компьютерного синтеза речи постепенно переходит из разряда теоретических в прикладную область. Например, появляются первые проекты систем, предназначенных для помощи незрячим и слабовидящим людям. Самый ранний из них был предпринят в начале 1970-х гг. лингвистом Игнациусом Мэттингли из Лабораторий Хаскинса. Помимо набора правил для транскрипции слов в последовательность фонем, Мэттингли использовал фонетический словарь, состоявший из 140 000 слов. Кроме того, Мэттингли стремился оптимизировать темп речи своей системы, чтобы добиться наилучшего восприятия слушателями [2361] , [2362] , [2363] . К сожалению, этот новаторский проект был остановлен из-за нехватки средств, и устройство, частью которого должна была стать система Мэттингли, так и не пошло в серию. В итоге первое коммерческое устройство для чтения, предназначенное для незрячих пользователей, разработала в 1975 г. компания уже знакомого нам Рэя Курцвейла — Kurzweil Computer Products (позже компания была приобретена корпорацией Xerox). Машина была оснащена оптическим сканером (для распознания напечатанного) и поступила в продажу в конце 1970-х гг. [2364]

2361

Nye P. W., Cooper F. S. (2007). Haskins Laboratories / Smithsonian Speech Synthesis History Project (SSSHP), 1986—2002 // https://amhistory.si.edu/archives/speechsynthesis/ss_hask.htm

2362

Cooper F. S., Gaitenby J. H., Mattingly I. G., Nye P. W., Sholes G. N. (1973). Audible outputs of reading machines for the blind. Status Report on Speech Research SR-35/36, Haskins Laboratories, New Haven, CT // http://www.haskins.yale.edu/SR/SR028/SR028_10.pdf

2363

Cooper F. S., Gaitenby J. H., Nye P. W. (1984). Evolution of Reading Machines for the Blind: Haskins Laboratories' Research as a Case History / Journal of Rehabilitation Research & Development, Vol. 21 (1), pp. 51—87 // https://pubmed.ncbi.nlm.nih.gov/6396402/

2364

Klatt D. H. (1987). Review of text-to-speech conversion for English / Journal of the Acoustical Society of America 82 (3), September 1987 // https://amhistory.si.edu/archives/speechsynthesis/dk_753.htm

Подобные работы шли и в СССР. Первый русскоязычный синтезатор речи «Фонемофон-1» был создан в начале 1970-х гг. в Минске под руководством Бориса Лобанова. «Фонемофон-1» был способен не только синтезировать русскую речь, но и читать введённый текст на нескольких иностранных языках, а также синтезировать пение. В основу работы синтезатора был положен формантный метод [2365] .

Рис. 138. Синтезатор речи «Фонемофон-1»

2365

Калиев А., Рыбин С. В. (2019). Синтез речи: прошлое и настоящее / Компьютерные инструменты в образовании. № 1. С. 5—28 // https://doi.org/10.32603/2071-2340-2019-1-5-28

Первым серийным синтезатором речи в СССР стал цифровой «Фонемофон-4», выпуск которого был начат в середине 1980-х гг. В «Фонемофоне-5» на смену формантному методу синтеза пришёл новый, микроволновой метод синтеза речевых сигналов (при его использовании речь конструируется из элементов, являющихся отдельными периодами звуковых волн, составляющих звуковой сигнал) [2366] . Этот синтезатор до сих пор нередко используется незрячими пользователями ЭВМ, поскольку он стал частью русскоязычной версии системы JAWS (Job access with speech, Доступ к работе при помощи речи) — одного из наиболее популярных в мире средств чтения с экрана. JAWS позволяет незрячему или слабовидящему пользователю слышать текст, отображаемый на экране компьютера, либо воспринимать его при помощи дисплея Брайля.

2366

Лобанов Б. М. (2017). «Мультифон» — система персонализированного синтеза речи по тексту на славянских языках / Лингвистическая полифония. Сборник статей в честь юбилея профессора Р. К. Потаповой // https://books.google.ru/books?id=lmmPCgAAQBAJ

6.4.4 Развитие конкатенативного синтеза речи

Параллельно с различными разновидностями параметрического синтеза речи исследователи активно изучали возможности конкатенативного подхода.

Конечно, можно попробовать собирать речь из отдельных фонем. Именно так поступили, например, авторы популярной системы синтеза речи «Говорун» для семейства советских ЭВМ серии БК. Авторам программы, Юрию Зальцману и Виктору Михайлову, удалось в 1989 г. по заданию Казахского общества слепых создать синтезатор речи размером всего около 8 килобайт [2367] . Однако качество такой речи, конечно, оставляло желать лучшего.

2367

Зальцман Ю., Михайлов В. (1991). БК-0010 — речь и слух: возможности и реальность / Информатика и образование. № 2. С. 93—97.

С лингвистической точки зрения привлекательной строительной единицей речи являются слоги, однако в английском языке их насчитывается более 10 000, и компьютеры 1950-х и даже 1960-х гг. не обладали достаточным объёмом оперативной памяти для хранения такого количества звуковых фрагментов и быстрой сборки из них речевых последовательностей. Прямолинейное использование в качестве строительных блоков отдельных фонем (в английском языке их около 40) потерпело неудачу из-за хорошо известных коартикуляционных эффектов, возникающих между соседними фонемами (мы уже обсуждали проблему коартикуляции в подглаве, посвящённой распознаванию речи).

Коартикуляционные воздействия ослабевают в акустическом центре фонемы, что побудило исследователя из Мичиганского университета (University of Michigan) (и выходца из Bell Laboratories) Гордона Петерсона и его коллег использовать так называемые дифоны, то есть строительным элементом речи становились акустические фрагменты, начинавшиеся с середины одной фонемы и заканчивающиеся в середине следующей. Попарные сочетания из 40 фонем порождали 40 x 40 = 1600 дифонов, при этом не все подобные сочетания встречаются в реальной речи. Однако поначалу Петерсон и его коллеги считали, что необходимо ещё учитывать разницу между ударными и безударными слогами, аллофоны (различные варианты фонем, обусловленные конкретным фонетическим контекстом) и необходимость отдельного хранения сочетаний «гласный — согласный — гласный». Ввиду этого мичиганские исследователи думали, что потребуется использование базы, состоящей из примерно 8000 элементов. К счастью, опыты показали, что число элементов можно уменьшить примерно в восемь раз без видимой потери качества звучания.

Потенциальный недостаток дифонного подхода заключается в том, что в середине гласных могут возникать разрывы, связанные с тем, что в двух примыкающих дифонах гласные могут быть слишком сильно видоизменены под воздействием коартикуляционных эффектов. Например, при произнесении первого согласного звука в слове wet, происходит округление губ (так называемая лабиализация), что приводит к изменению гласного звука, распространяющемуся куда дальше, чем середина фонемы.

Некоторое сглаживание на границах дифона минимизирует воспринимаемые на слух последствия фактических разрывов формант, но несовпадение половинок гласных не так уж просто компенсировать. Существуют и другие коартикуляционные проблемы, что придаёт синтезированной на основе дифонов речи некоторую неестественность, хотя она в целом вполне разборчива.

Первая дифонная система, разработанная Норманом Диксоном и Дэвидом Макси, была впервые продемонстрирована в 1967 г. на ICSCP. Авторы потратили много лет, чтобы методом проб и ошибок оптимизировать набор дифонов. Однако и этот проект не был доведён до конца — и, как у Мэттингли, не по техническим, а по деловым причинам.

В 1978 г. Осаму Фуджимура и Джули Лавинс предложили в качестве альтернативы дифонам использование полуслогов [demisyllables]. Правила разбиения слогов, предложенные авторами, позволили обойтись для английского языка примерно тысячей полуслогов. Преимущество полуслогов заключается в том, что кластеры согласных внутри слогов, в большой степени подверженные эффектам коартикуляции, становятся отдельными единицами при синтезе. Однако данный подход не позволяет эффективно решить проблему межслоговой коартикуляции. Первая программа, основанная на этом подходе, была продемонстрирована Кэтрин Браумен в 1980 г. [2368]

2368

Klatt D. H. (1987). Review of text-to-speech conversion for English / Journal of the Acoustical Society of America 82 (3), September 1987 // https://amhistory.si.edu/archives/speechsynthesis/dk_737a.htm

Помимо дифонов и полуслогов, предлагались и другие схемы фонетической сегментации, что привело в итоге к появлению конкатенативных систем с динамическим выбором сегментов. Как правило, деление на сегменты выполняется с использованием специально модифицированных для этой цели систем распознавания речи, работающих в режиме «принудительного выравнивания» [forced alignment] (в котором для каждой фонемы определяется точное время её начала и окончания), с последующей ручной коррекцией полученных результатов. Полученные сегменты помещаются в базу данных вместе с их параметрами (величина F0, длительность) и данными о контексте (положение в слоге, соседние фонемы и т. п.). Во время синтеза система, основываясь на текущем контексте, выбирает из базы наиболее подходящие сегменты (для этого используется модель-классификатор) с тем, чтобы выстроить наилучшую их цепочку.

Поделиться с друзьями: