Охота на электроовец. Большая книга искусственного интеллекта, Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта

Марков Сергей Николаевич

Шрифт:

<…>

Не существует языков, где нет ничего мотивированного; но представить себе такой язык, где мотивировано было бы всё, невозможно по определению. Между двумя крайностями — наименьшей организованностью и наименьшей произвольностью — находятся все промежуточные случаи. Разные языки включают в себя элементы обоих типов — целиком произвольные и относительно мотивированные, — но в весьма разных пропорциях, и эту важную характеристику можно учитывать при классификации языков [2057] .

2057

de Saussure F., Riedlinger A. Course in General Linguistics. Translated by Wade Baskin. Philosophical Library // https://books.google.ru/books?id=MCdZAAAAMAAJ

Соссюр утверждал: «Язык есть система, все элементы которой образуют целое, а значимость одного элемента проистекает только из одновременного наличия прочих», то есть отдельно взятая языковая единица не имеет собственного значения и обретает смысл только в объединении с другими. Таким образом, семантика является производной структуры, образуемой языковыми единицами, и именно поэтому основной фокус исследований следует сделать на внутренних взаимосвязях языка, на зависимости одних его элементов от других [2058] , [2059] .

2058

Алпатов В. М. (2005). История лингвистических учений / 4-е изд., исправ. и доп. — М.: Языки славянской культуры // http://genling.spbu.ru/hl/085.pdf

2059

Лукин О. В. (2015). История языкознания с VI в. до н. э. до середины XX в. Учебное пособие // http://yspu.org/images/4/48/История_языкознания.pdf

Одним из первых конкретных воплощений идей Соссюра стала глоссематика [glossematics] датского лингвиста Луи Ельмслева — теория, в которой язык рассматривается как одна из семиотических систем, как структура, которую можно строго формализовать, используя методы математики, логики и семиотики. Ельмслев стал одним из пионеров применения к языковым структурам алгебраических методов, и, хотя его система и не предполагала, например, возможности рекурсии, её можно рассматривать в качестве одной из первых «порождающих грамматик» (generative grammar, термин также передаётся на русский язык как «генеративная грамматика», «трансформационно-порождающая» грамматика, в ранних работах — «трансформационная грамматика»), то есть систем правил, позволяющих определить, какая комбинация слов составляет грамматически правильное предложение [2060] , [2061] , [2062] .

2060

Galofaro F. (2013). Formalizing Narrative Structures: Glossematics, Generativity, and Transformational Rules / Signata, No. 4, 2013, p. 227-246 // https://doi.org/10.4000/signata.757

2061

Seuren P. (1998). Western Linguistics: An Historical Introduction. Wiley // https://books.google.ru/books?id=YD7fupu-qS0C

2062

Sova R. (2006). Genesis of Two Algebraic Theories of Language / Linguistica ONLINE, January, 30th 2006 // http://www.phil.muni.cz/linguistica/art/sova/sov-001.pdf

Дальнейшее развитие идея трансформационных грамматик получила в работах одного из учителей Хомского — Зеллига Харриса. Именно под руководством последнего Хомский работал над своей магистерской диссертацией «Морфонология современного иврита» (Morphophonemics of Modern Hebrew), завершённой в 1951 г. Осмысливая позже результаты своих ранних исследований, Хомский писал: «Когда несколько лет спустя я начал более серьёзно исследовать генеративный синтаксис (т. е. после 1951 г. — С. М.), мне удалось приспособить для этой цели новую концепцию, разработанную Зеллигом Харрисом и несколькими его учениками, а именно — концепцию „грамматической трансформации“. Вскоре стало очевидно, что с помощью этой новой концепции могут быть преодолены многие недостатки модели, которую я использовал ранее» [2063] .

2063

Chomsky N. (1975). The Logical Structure of Linguistic Theory. Springer US // https://books.google.ru/books?id=1D66ktXOITAC

Впрочем, подход Хомского с самого начала демонстрировал некоторые важные особенности, отличавшие его от подхода Харриса. Можно отметить, что для ранних работ Хомского характерен гораздо больший акцент на формальных и математических свойствах правил и их систем, чем для работ Харриса того же периода. Для Хомского преобразования [transformations] были правилами, формальными инструкциями со входами и выходами, в то время как для Харриса они были скорее констатацией регулярных соответствий между парами предложений. Хомский придерживался «вертикального» взгляда на преобразования, когда более глубокие структуры трансформировались в менее глубокие в результате последовательных преобразований, тогда как взгляд Харриса был в основном «горизонтальным». Правда, в статье «Сосуществование и трансформация» 1957 г. Харрис описывает также и «вертикальную» точку зрения, но в его работах она не получила такого глубокого развития, как в исследованиях Хомского [2064] , [2065] .

2064

Seuren P. (1998). Western Linguistics: An Historical Introduction. Wiley // https://books.google.ru/books?id=YD7fupu-qS0C

2065

Graffi G. (2017). Harris, Chomsky and the origins of transformational grammar / Lingvisticae Investigationes, Vol. 39, Iss. 1, Dec 2016, pp. 48—87 // https://doi.org/10.1075/li.39.1.03gra

10 сентября 1956 г., менее чем через месяц после окончания знаменитой Дартмутской конференции, на которой Джон Маккарти впервые сделал достоянием общественности термин «искусственный интеллект», в MIT состоялся симпозиум Специальной группы по теории информации (тот самый, который, по мнению Джорджа Миллера, положил начало когнитивной науке). Два этих мероприятия были близки не только по времени проведения, но и по составу участников. Как и в Дартмуте, на симпозиуме в MIT присутствовали Аллен Ньюэлл и Герберт Саймон. Именно на симпозиуме в MIT и был представлен доклад Хомского о формальных грамматиках [formal grammars], познакомивший специалистов в области ИИ с подходом к обработке естественного языка, основанном на иерархических системах правил [2066] , [2067] . Таким образом, Хомский заметно повлиял на развитие компьютерной лингвистики на заре ИИ подобно тому, как Хебб повлиял на вычислительную нейробиологию. Как и Хебб, Хомский не был первооткрывателем представленных им концепций, однако он стал тем человеком, который выстроил мост между фундаментальной наукой и прикладными исследованиями, развернувшимися в связи с развитием вычислительной техники.

2066

Louwerse M. (2021). Keeping Those Words in Mind: How Language Creates Meaning. Rowman & Littlefield // https://books.google.ru/books?id=gbcmEAAAQBAJ

2067

Miller G. A. (2003). The cognitive revolution: a historical perspective / TRENDS in Cognitive Sciences, Vol. 7, No.3, March 2003 // https://www.cs.princeton.edu/~rit/geo/Miller.pdf

В отличие от ТСТ генеративная грамматика Хомского вполне в духе структурной лингвистики абстрагируется от семантики отдельных языковых единиц (интересно, что в отношении этого тезиса Зеллиг Харрис, как мы убедимся позже, не разделял радикализма Хомского). Вклад Хомского в теоретические основы современных технологий обработки символьных данных трудно переоценить. Именно он создал классификацию формальных языков и формальных грамматик (так называемую иерархию Хомского), согласно которой все формальные грамматики (и формальные языки) делятся на четыре типа по их условной сложности (от самых сложных к самым простым: «тип 0» — неограниченные, «тип 1» — контекстно-зависимые, «тип-2» — контекстно-свободные и «тип-3» — регулярные). Иерархия Хомского устанавливает связь между свойствами вычислительных алгоритмов (и вычислительных систем), необходимых для обработки грамматики, и типами правил (продукций), лежащих в основе её организации [2068] . Однако спустя более чем полстолетия многие идеи и методы Хомского вызывают оживлённую полемику среди лингвистов. Например, Хомский считал, что человеческая психика содержит врождённый механизм усвоения языка [Language Acquisition Device], который реализует принципы генеративной грамматики и тем самым делает ребёнка способным усвоить структуру языка на базе сравнительно скудных данных [2069] . Позже американский философ Джерри Фодор, развивая идеи Хомского и стремясь уйти от идеи «специальности» когнитивных механизмов, стоящих в основе обучения языку, предложил собственную, более общую концепцию модулярности сознания [2070] , а также гипотезу о «языке мышления» (Language of thought hypothesis, LTH [2071] ) [2072] , согласно которой мысли в сознании людей представлены при помощи своеобразного языка (Фодор дал ему название «ментализ» [mentalese], дословно это название можно перевести как «психанский [язык]»), в котором определяются связи между простыми компонентами мысли или концептами. Согласно гипотезе Фодора такой язык должен быть врождённым и универсальным для всех людей.

2068

Davis M. D., Sigal R., Weyuker E. J. (1994). Computability, Complexity, and Languages: Fundamentals of Theoretical Computer Science (2nd ed.). Boston: Academic Press, Harcourt, Brace // https://books.google.ru/books?id=6G_arEqHtysC

2069

Chomsky N. (1965). Aspects of the Theory of Syntax. MIT Press // https://books.google.ru/books?id=SOtsAAAAIAAJ

2070

Fodor J. A. (1983). The Modularity of Mind: An Essay on Faculty Psychology // https://books.google.ru/books?id=e7nrSeibJZYC

2071

* Иногда также используется термин «Упорядоченное психическое представление мыслей» (Thought ordered mental expression, TOME).

2072

Fodor J. A. (1975). The Language of Thought // https://books.google.ru/books?id=XZwGLBYLbg4C

Также стоит отметить, что наборы генеративных правил, предложенных Хомским, изначально опирались лишь на грамматику английского языка (и, возможно, отчасти иврита — единственного языка, кроме родного, с которым Хомский был сравнительно неплохо знаком). Иерархия правил на протяжении лет много раз дополнялась и пересматривалась. Словом, неудивительно, что не все специалисты в области компьютерной лингвистики были в восторге от идей Хомского, что и приводило к появлению теорий, подобных ТСТ.

Одним из результатов работы основоположников ТСТ было создание системы машинного перевода ЭТАП (Электротехнический автоматический перевод), работа над которой началась в 1972 г. в институте «Информэлектро» при Министерстве электромеханической промышленности СССР. Заведовал группой автоматического перевода в «Информэлектро» Апресян, а главным архитектором системы стал Леонид Цинман. Плодами работы группы стали системы ЭТАП-1 (предназначенная для перевода с французского языка), ЭТАП-2 (для перевода с английского), а также многоцелевой лингвистический процессор ЭТАП-3. Причём ЭТАП-3 предназначался для решения широкого спектра задач обработки естественного языка, среди которых был и машинный перевод. С 1985 г. команда, занимавшаяся созданием системы ЭТАП, продолжила свою работу в Институте проблем передачи информации (ИППИ РАН), где на её основе была создана Лаборатория компьютерной лингвистики [2073] , [2074] .

2073

Лагунина И., Ольшанская Е. (2004). Машинный перевод / Радио Свобода, 21 января // https://www.svoboda.org/a/24196111.html

2074

Лаборатория №15. Компьютерная лингвистика / Российская академия наук. Институт проблем передачи информации им. А. А. Харкевича // http://iitp.ru/ru/researchlabs/245.htm

Важно отметить, что при обработке естественного языка в рамках классической парадигмы ИИ (вне зависимости от особенностей применяемого подхода — ТСТ, порождающей грамматики и т. д.), помимо описания языковых структур, необходимо выполнять также ряд операций на уровне отдельных слов. Для того чтобы программа могла выстроить структуру текста, необходимо выполнить его лексическую предобработку (препроцессинг). Создание алгоритмов для эффективного препроцессинга — отдельный, весьма внушительный пласт работы в области компьютерной лингвистики. Определение формы слова, лемматизация (приведение слова к его начальной форме, например «кошкам» -> «кошка»), словообразование — всё это требует наличия адекватных морфологических моделей. В СССР над такими моделями работали многие выдающиеся лингвисты, в числе которых можно отметить Андрея Зализняка.

В 1974 г. открылся Всесоюзный центр переводов научно-технической литературы и документации ГКНТ и АН СССР (ВЦП), сотрудники которого начали разработку сразу трёх систем, предназначенных для выполнения машинного перевода в промышленных масштабах. Система для англо-русского перевода получила название АМПАР, для немецко-русского — НЕРПА и для французско-русского — ФРАП [2075] .

В 1970-е гг. RBMT-системы (напомним, что это системы перевода на основе правил) активно развивались и на Западе, как в рамках коммерческих проектов, таких как SYSTRAN, так и в академической среде. Репутация систем машинного перевода в глазах американских государственных чиновников, пошатнувшаяся после отчёта ALPAC, была в определённой мере восстановлена благодаря успехам системы Logos MT, использовавшейся для перевода военной документации на вьетнамский язык во время войны во Вьетнаме. Что же до академии, то центры разработки систем машинного перевода возникали порой в довольно неожиданных местах. Например, в 1970 г. во Французском текстильном институте (Institut Textile de France) была создана система TITUS, использовавшаяся для перевода аннотаций к научным статьям. Система поддерживала целых четыре языка — французский, английский, немецкий и испанский — и могла выполнять перевод с и на каждый из этих языков. В 1972 г. в Китайском университете Гонконга (Chinese University of Hong Kong) была создана система CULT (Chinese University Language Translator, Переводчик Китайского университета), предназначенная для перевода математических текстов с китайского языка на английский [2076] , [2077] . В 1971 г. Университет Бригама Янга (Brigham Young University, BYU) — частный университет США, основанный Церковью Иисуса Христа Святых последних дней, — начал проект по переводу текстов мормонов на другие языки с помощью машинного перевода [2078] , [2079] . На фоне таких исследовательских организаций советский институт «Информэлектро» в качестве одного из мировых центров развития технологий машинного перевода вовсе не казался какой-то экзотикой.

2075

Галактионов В. А., Мусатов А. М., Мансурова О. Ю., Ёлкин С. В., Клышинский Э. С., Максимов В. Ю., Аминева С. Н., Жирнов Р. В., Игашов С. Ю., Мусаева Т. Н. (2007). Система машинного перевода «Кросслятор 2.0» и анализ её функциональности для задачи трансляции знаний // https://www.keldysh.ru/papers/2007/prep89/prep2007_89.html

2076

Hutchins W. J. (2000). Early Years in Machine Translation: Memoirs and biographies of pioneers. John Benjamins Publishing // https://books.google.ru/books?id=3dU5AAAAQBAJ

2077

Loh S.-C., Kong L., Hung H.-S. (1978). Machine translation of Chinese mathematical articles / ALLC Bulltein, Vol. 6(2), pp. 111—120 // http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.598.8762&rep=rep1&type=pdf

2078

Hutchins W. J. (2000). Early Years in Machine Translation: Memoirs and biographies of pioneers. John Benjamins Publishing // https://books.google.ru/books?id=3dU5AAAAQBAJ

2079

Chan S. (2004). A Dictionary of Translation Technology. Chinese University Press // https://books.google.ru/books?id=3gwOFvbxMGcC

1-156 157 158 159 160 161 162 163 164 165 166 167 168 169 170-292

Поделиться с друзьями:

Чтение онлайн

КНИГИ

АВТОРЫ

ЖАНРЫ

Деловая литература

Детективы

Детские

Документальная литература

Дом и Семья

Драматургия

Жанр не определен

Компьютеры и Интернет

Любовные романы

Научно-образовательная

Поэзия

Приключения

Проза

Прочее

Религия и эзотерика

Справочная литература

Старинная литература

Техника

Фантастика

Фольклор

Юмор

Охота на электроовец. Большая книга искусственного интеллекта

Марков Сергей Николаевич

Шрифт: