Актуальные проблемы современной лингвистики. Учебное пособие
Шрифт:
Но все это относилось к идентификации изолированных слов. Мы же попытались использовать ту же идею при «работе» с непрерывной последовательностью слов, не разделенных какими бы то ни было метками сегментации, т.е. возможности того же алгоритма оценивались применительно к распознаванию слитной речи, которая характеризуется как раз отсутствием границ между словами, образующими высказывание (синтагму). Одна из вытекающих при этом сложных проблем заключается в том, что единый процесс идентификации-сегментации предполагает нахождение правой границы слова. В нашей модели анализируемый текст считывается из файла слово за словом и записывается в строку без пробелов и знаков препинания. Начальная часть строки длиной в 7 – 9 открытых слогов представляет собой буфер, с содержимым которого работает в дальнейшем программа. Объем буфера выбран на основании имеющихся данных об объеме оперативной (кратковременной) памяти человека (7+2 слога). На этом этапе алгоритм работы программы, скорее всего, не соответствует предполагаемому алгоритму работы системы распознавания речи человеком и выбран таковым только из условия удобства программной реализации процесса.
По первому символу строки-буфера начинается процесс образования текущей когорты. Для орфографической записи при этом применяются следующие правила: (1) если первая буква не является допустимым однобуквенным словом, не содержащим ударного гласного (союзом, предлогом), то происходит только определение объема когорты, сама же когорта как набор слов не создается (это чисто программистский ход, экономящий время); если первая буква является допустимым однобуквенным словом, то из соответствующей словарной статьи в промежуточный буфер записывается слово-кандидат, а из остальных словарных статей выбираются данные об их объеме для сбора статистики; (2) заполнение когорты производится по двум первым буквам буфера-строки (или только по первой, когда это ударный гласный, поскольку по чисто техническим причинам ударные гласные представлены в текстах и в словарных статьях двухсимвольными сочетаниями: собственно гласный и знак ударения «+»; равным образом согласные тоже могут иметь двухсимвольные соответствия с учетом «ъ» или «ь»); (3) буфер слов-кандидатов заполняется до тех пор, пока N первых символов в исходном буфере совпадают хотя бы с одним словом в когорте и прекращается, когда добавление еще одного элемента создает комбинацию, не представленную в словаре; вслед за этим начинается анализ слов-кандидатов.
Правила работы с транскрипционной записью полностью аналогичны приведенным выше.
В данный момент при выборе окончательного варианта из всех слов-кандидатов принято самое простое правило: окончательным считается слово, последним занесенное в список, – при условии, что сохраняется возможность идентификации через словарь «оставшейся» цепочки. Это вполне соответствует правилу отбора, сформулированному в теории когорты: выбирается только слово, полностью и без остатка совпадающее с входной последовательностью символов.
На материале как беспробельной орфографической, так и транскрипционной записи рассмотренных текстов точность работы компьютерной сегментации через идентификацию составила более 98%. Столь высокую результативность описанных правил мы можем рассматривать как косвенное (в силу специфичности исходного материала), но убедительное подтверждение «работоспособности» алгоритма, основывающегося на основных положениях модели когорты.
Перцептивный словарь
Одна из задач нашей работы заключается в проверке выдвинутой гипотезы о существовании особого перцептивного словаря. В качестве одного из средств верификации гипотезы был использован свободный ассоциативный эксперимент, где в роли стимулов используются как словарные, так и несловарные формы слов.
Предварительный ассоциативный эксперимент в его устно-письменном варианте был ранее проведен студенткой А. Морозовой (рук. Е.В. Глазанова) на материале, включающем все финитные формы глаголов. В протоколах зафиксировано в среднем более 15% реакций, явно, непосредственно обусловленных грамматической формой глагола-стимула. В большинстве случаев это относится к парадигматическим реакциям, например, берешь – отдаешь.
Частичную обусловленность реакций формой глагола-стимула можно видеть в парах более сложных типов, например, берешь – отдавай или даже брал – не отдаст, и, наконец, в синтагматических реакциях с согласованием глагола-стимула и имени-реакции, ср. пары брал – папа, брало – оно, берешь – ты и т.д. С учетом всех вариантов, где представлена частичная обусловленность грамматики реакции грамматикой стимула, можно утверждать, что такая связь характеризует до 99% пар «стимул – реакция» в описываемом эксперименте. Возможно, особенности методики устно-письменного эксперимента (переключение модальности, наличие нескольких реакций на один стимул) лишь отчасти позволяют использовать ее в решении поставленной задачи. В настоящее время проводится серия устно-устных ассоциативных экспериментов, в которых список стимулов включает различные формы существительных и глаголов. Данный эксперимент проводится с участием как взрослых испытуемых, так и детей 6 лет, языковые механизмы которых находятся в стадии развития. Имеющиеся на настоящий момент предварительные результаты не противоречат высказанной гипотезе. Основываясь на этих предварительных результатах, естественно предположить, что испытуемые непосредственно переходят от словоформы как стимула к словоформе как реакции. Поскольку выбору реакции с необходимостью предшествует основанная на обращении к словарю идентификация стимула, приходится признать, что вход в словарь в данном случае – это обнаружение соответствующей словоформы. В противном случае мы должны были бы полагать, что сначала осуществляется процесс лемматизации, а затем – возвращение к уже «использованной» словоформе для установления информации о ее характеристиках, которые служат основанием для выбора словоформы-реакции.
Иначе говоря, ассоциативные эксперименты подтверждают гипотезу о словоформе как основной единице перцептивного словаря.
Как отмечалось во вступительном разделе статьи, есть основания полагать, что единицей перцептивного словаря выступает не просто словоформа, а словоформа фонетическая. Очевидное возражение против признания фонетического слова основной единицей перцептивного словаря состоит в чрезмерном увеличении объема словаря; ясно, что каждое слово (словоформа) может употребляться с разными проклитиками и энклитиками, – отсюда, в пределе, разрастание словаря во столько раз, сколько клитик и их сочетаний существует в языке (если не принимать во внимание, разумеется, частеречные и иные ограничения). Учитывая, однако, преимущественно эмпирический характер проблемы, авторы, опираясь на реальный корпус русского языка, созданный в процессе работы над проектом, получили точные количественные данные по соотношению фонетических слов текста, единиц словаря, состоящего из фонетических слов, и словаря словоформ. Как оказалось, словарь фонетических слов, хотя и превышает, разумеется, по объему словарь словоформ, но далеко не достигает при этом теоретического предела, о котором сказано выше: реальное возрастание объема – всего 30%. Говоря о фонетических словах, следует учитывать существенную с точки зрения восприятия речи неоднородность этого класса единиц. Есть фонетические слова, совпадающие со словами (словоформами), которые «в любом случае» входят в перцептивный словарь, и есть фонетические слова, не совпадающие со словами – единицами словаря. Примером первых может служить фонетическое слово НАРОД (НА РОД и НАРОД, точнее, НА РОТ и НАРОТ), примером вторых – КНИМУ (К НЕМУ). По-видимому, существование именно первого типа фонетических слов считается особенно серьезной «помехой» для оперирования фонетическими словами как особыми единицами ввиду их очевидной неоднозначности. Однако наши исследования показывают, что важность данной проблемы не следует преувеличивать. Во-первых, экспериментально было не раз показано, что носители языка не различают, вне лексического и грамматического контекста, единицы типа НАРОД / НА РОД. Модель восприятия речи, претендующая на адекватное воспроизведение структуры соответствующих механизмов человека и их функционирования, не может быть «лучше» своего естественного прототипа: то, что не различает человек, не должна различать и имитирующая его поведение модель. Во-вторых, значимость подобных пар не следует переоценивать еще и потому, что их представленность в тексте и словаре, построенном на базе фонетических слов, весьма невелика. В нашем словаре фонетических слов, составленном на основе сформированного корпуса русского языка, фонетические слова класса НАРОД (НАРОТ) составили всего 0,5% от общего числа фонетических слов. Одновременно можно отметить, что в раде случаев различению членов пар типа НАРОД / НА РОД способствует несовпадающая частотность; так, в наших текстах число вхождений местоименной словоформы с предлогом ПО ЭТОМУ составляет 9 единиц, а слова ПОЭТОМУ – 81. Но никакой системы здесь, как и можно было ожидать, не наблюдается.
Итак, с одной стороны, организацию перцептивного словаря как словаря фонетических слов едва ли следует рассматривать как заведомо нереалистичную постановку проблемы. Его объем (на нашем материале около 85 000 единиц), конечно же, никоим образом не перегружает человеческую память.
«Выгодность» такого словаря заключается, несомненно, в том, что процесс идентификации единиц текста здесь во многом сводится к процедуре их прямого сличения с единицами словаря, «наложения» первых на вторые (разумеется, с учетом всех процедур построения когорты и ее дальнейшей фильтрации). С другой стороны, из изложенного выше, по-видимому, следует, что фонетические слова в словаре представлены скорее косвенно – как словоформы, омонимичные сочетаниям словоформ и их клитик. Омонимичность разрешается путем обращения к высшим языковым уровням, к контексту. Там, где омонимичность не представлена, применяется стандартный алгоритм обращения к словарю, где, в числе прочих единиц, присутствуют и клитики, так что возможность / невозможность членения фонетического слова выступает как частный случай выбора между словами-кандидатами. Является при этом членимая последовательность фонетическим словом, отличным от слова семантико-грамматического, или нет, оказывается, вообще говоря, несущественным; фонетическое слово, определяемое акцентным контуром, выступает как промежуточный продукт, с которым работает алгоритм сегментации / идентификации.
Фонетическое слово и редукция
В этом разделе мы представим дополнительные экспериментальные данные, относящиеся к роли ФС в процессах восприятия речи.
ФС для русского языка неразрывно связано с ударением. С точки зрения восприятия речи это, как многократно упоминалось, означает, что, опознавая ударные слоги в тексте, носитель языка членит текст на фонетические слова.
Членение может осуществляться с точностью до числа ФС и с точностью до фиксирования межсловных единиц, где под словами, опять-таки, должны пониматься слова фонетические. Установление межсловных границ было бы возможным, если бы границы акцентного контура были перцептивно опознаваемыми. Теория пограничных сигналов Н.С. Трубецкого по существу предполагает такой вариант: по крайней мере со времен А.А. Потебни известно, что русское слово характеризуется разными степенями редукции гласного (слога), которые определяются позицией относительно ударного слога в пределах слова, и, соответственно, зная тип редукции – умея его определять в тексте, – мы получаем информацию о «местоположении» начала / конца слова в речевой цепи.
Однако в действительности носителю языка едва ли доступны подобные операции. Даже если считать, что традиционные представления о «дуге редукции» в пределах слова верны, из этого еще не следует, что соответствующая информация принадлежит к перцептивно полезным признакам, используемым в процессе восприятия речи.
Об этом говорят и эмпирические данные наблюдений над восприятием реальной речи. Так, лишь семантическая неинтерпретируемость мешает воспринимать строку известной песни сказал кочегар кочегару как сказалка чигарка чигару или сказалка чигар качигару. Такие перераспределения границ были бы очевидным образом невозможны, если бы информация о типе редукции реально использовалась. Вполне естественно, что подобные ошибки в изобилии дает ситуация восприятия речи на фоне шума, когда затруднен доступ к информации о сегментной структуре слова и, следовательно, о семантических характеристиках высказывания. Примерами могут служить замены наподобие зеленый крокодил – > наверно приходил, черешни поспели – > лежи в постели, живу воспоминаниями -> желает понимания и т.д.
Иначе говоря, информация о редукции, скорее всего, не используется для определения границ фонетического слова.
Те же эксперименты по восприятию речи в условиях маскировки дают, однако, и замены принципиально иного типа, которые ставят под сомнение незыблемость самого по себе положения о том, что число ударений везде совпадает с числом ФС, например, ловля птиц – > коллектив <...>. Из внеэкспериментальных свидетельств, которые также колеблют принятое положение о взаимооднозначном соответствии между ударениями и ФС, можно указать на каламбуры наподобие знаменитых минаевских Муж, побледнев как штукатурка, воскликнул – это штука турка! или Даже к финским скалам бурым обращаюсь с каламбуром; писать стихи – моя стихия, и легко пишу стихи я.