Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
Прохладная история о первой зиме искусственного интеллекта начинается вполне в духе лучших болливудских блокбастеров. Дело в том, что Фрэнк Розенблатт и Марвин Минский были одноклассниками в Высшей научной школе Бронкса [1295] (впрочем, они хотя бы не были братом и сестрой, разлучёнными в детстве). Минский, как и Розенблатт, интересовался нейронными сетями — вспомним его опыты с «крысами», учившимися искать выход из лабиринта при помощи хеббовского обучения. Именно нейросетевым моделям была посвящена диссертация Минского, однако позже Минский разочаровался в них, сконцентрировавшись на символьных моделях. Именно поэтому громкое обсуждение работ Розенблатта в прессе вызвало в лагере Минского и Пейперта плохо скрываемый скептицизм. Дэвид Вальц, бывший в те годы аспирантом в MIT, вспоминал позже: «Марвин и Сеймур действительно интересовались перцептронами. Я с группой других студентов посещал их семинар, целью которого было узнать как можно больше о перцептронах. Мы должны были просто методично изучить, на что они были способны, а на что не способны, и попытаться охарактеризовать их каким-то образом» [1296] .
1295
McCorduck P. (2004). Machines who think: a personal inquiry into the history and prospects of artificial intelligence. A. K. Peters // https://books.google.ru/books?id=aH9QAAAAMAAJ
1296
Crevier D. (1993). AI: the tumultuous history of the search for artificial intelligence // https://archive.org/details/aitumultuoushist00crev
В 1969 г. по итогам работы над семинаром и в ходе него Минский и Пейперт опубликовали книгу «Перцептроны» (Perceptrons: An Introduction to Computational Geometry), которая среди прочего указывала на ряд ограничений, свойственных подобным моделям.
Вот как описывает один из современных авторов дальнейшие события:
Последствия выхода книги были немедленными и драматичными. Розенблатт и его сотрудники оказались совершенно не способны опровергнуть выдвинутые аргументы. Исследования нейронных сетей были потоплены [dead in the water] из-за обвинений в преднамеренном саботаже ради того, чтобы перенаправить федеральное финансирование от сетей на программы, основанные на символьных манипуляциях. Ни один уважающий себя исследователь не осмеливался коснуться исследований нейронных сетей в течение десятилетия, пока коннекционистское движение восьмидесятых не продемонстрировало больший потенциал в получении плодотворных результатов. Коннекционистские исследователи в области ИИ до сих пор обвиняют Минского и Пейперта за десятилетие забвения!
В издании «Перцептронов» 1972 года присутствует рукописное посвящение памяти Фрэнка Розенблатта, погибшего в результате несчастного случая на лодке, человека, по всей видимости окончательно разбитого в результате «дела Перцептрона» [1297] .
Честно говоря, мой личный драмометр сломался ещё на неловком каламбуре про потопленные коннекционистские исследования.
Вот что писал Пейперт спустя почти два десятилетия после вышеописанных событий: «Пытались ли мы с Минским убить коннекционизм и как мы относимся к его воскрешению? Здесь требуется нечто более сложное, чем оправдания. Да, был некоторый налёт враждебности, стоящий за исследованиями, о которых сообщалось в „Перцептронах“, и было некоторое раздражение тем, как развивается новое движение; частично наша мотивация была связана, как мы прямо признали в нашей книге, с тем фактом, что финансирование и силы исследователей растрачиваются, как мне представляется и сейчас (поскольку история о новых мощных нейросетевых механизмах серьёзно преувеличена), на вводящие в заблуждение попытки использовать коннекционистские методы в практических приложениях. Но большая часть мотивации для написания „Перцептронов“ возникла из более фундаментальных проблем, многие из которых явно затрагивают разделение между сетевиками и программистами» [1298] .
1297
Boyle M. (1997). The History of Mr. Papert. 20 - 31. Logo in Australia: 21 Years On., Melbourne Vic Australia // http://www.stager.org/omaet2004/papertbio.html
1298
Papert S. (1992). One AI or Many? / Beakley B., Ludlow P. (1992). The philosophy of mind: Classical problems/contemporary issues. Cambridge, MA, US: The MIT Press // https://books.google.ru/books/about/The_Philosophy_of_Mind.html?id=pBV526wnJigC
Важно понимать, что ограничения, о которых писали в своей книге Минский и Пейперт, относятся к отдельным архитектурам нейронных сетей в применении к некоторым классам задач. Многих заявлений, приписываемых Минскому и Пейперту, они попросту никогда не делали. Например, Минский и Пейперт никогда не утверждали, что нейронные сети неспособны выполнять операцию XOR (исключающее или). Хотя единичный искусственный нейрон может вычислять только небольшое число логических предикатов, было общеизвестно, что сети, составленные из таких элементов, могут вычислять любую возможную логическую функцию. Об этом писали ещё Мак-Каллок и Питтс, которые даже показали, что при помощи предложенных ими нейронов можно создать машину Тьюринга. Это упоминается как в «Принципах нейродинамики» Розенблатта, так и в «Перцептронах».
Некоторые авторы идут ещё дальше, утверждая, например, что «Минский и Паперт доказали, что простые пресептоны (sic!) могут решать только очень узкий класс линейно сепарабельных задач» [1299] . К сожалению, в данном случае мы имеем дело с глубоко укоренившимися заблуждениями [1300] .
В действительности Минский и Пейперт показывают, что перцептроны с единственным ассоциативным слоем не могут вычислять некоторые предикаты, если по крайней мере один из нейронов в ассоциативном слое не связан ненулевым весом с каждым из входов [1301] . Это противоречило надежде некоторых исследователей на сети с несколькими слоями «локальных» нейронов, каждый из которых будет соединён лишь с небольшим количеством входов. Такие сети в вычислительном плане гораздо более выгодны, чем громоздкие полносвязные сети.
1299
Александр (rgen3). (2011). Что такое искусственные нейронные сети? / Хабр, 21 декабря 2011 // https://habr.com/ru/post/134998/
1300
Сергей (tac). (2012). Перцептрон Розенблатта — что забыто и придумано историей? / Хабр, 20 марта // https://habr.com/ru/post/140301/
1301
Minsky M., Papert S. A. (1969). Perceptrons: An Introduction to Computational Geometry. MIT Press // https://books.google.ru/books?id=KhI-uwEACAAJ
На обложке ранних изданий книги Минского и Пейперта изображены туго закрученные спирали. Помимо деморализации противника (у меня нет другого объяснения фиолетовым линиям на красном фоне и красным на зелёном), эти изображения иллюстрируют две проблемы, на которых сконцентрирован анализ авторов. Одна из спиралей представляет собой единичный замкнутый контур, а вторая — два несвязанных замкнутых контура. Предикаты, вычисление которых затруднительно для сравнительно простых перцептронов, —это связность [connectedness], а также чётность, под которой понимается способность перцептрона отличить картинку с нечётным количеством фигур от картинки с их чётным числом (операция XOR является частным случаем этой проблемы). В общем-то, проблема определения чётности или нечётности минимально различимых перцептроном объектов является наихудшим случаем.
Генри Блок, математик из Корнеллского университета, работавший с Розенблаттом над перцептронами, детально разобрал критику Минского и Пейперта, уделив среди прочего внимание зацикленности последних на вопросах чётности и связности: «Другим свидетельством этой разницы во взглядах [между Розенблаттом и Минским/Пейпертом] является озабоченность Минского и Пейперта такими предикатами, как чётность и связность. Человек не может воспринимать ни чётность больших множеств (количество точек на газетной фотографии чётное или нечётное!), ни связность (на обложке книги Минского и Пейперта [«Перцептроны»] есть два объекта: один является связным, другой нет. При помощи визуального осмотра практически невозможно определить, что есть что). Розенблатт был бы рад приблизиться к человеческим возможностям и, скорее, негативно отнёсся бы к машине, которая вышла бы за их пределы, поскольку он стремился моделировать именно человеческое восприятие» [1302] .
1302
Block H. D. (1970). A review of 'Perceptrons' / Information and Control, Vol. 17, pp. 510—522 //90409-2
Минский и Пейперт сосредоточили своё внимание на проблемах, которые считали удобными для подтверждения собственной позиции. Своим ответом Блок показал, что эти же проблемы могут интерпретироваться иначе и что в иной интерпретации их существование может даже служить доводом в пользу перспективности нейросетевого подхода. Для Минского и Пейперта это были очень тревожные, аномальные проблемы. Исследователи нейронных сетей знали о трудностях, с которыми элементарные перцептроны сталкивались в некоторых задачах задолго до того, как Минский и Пейперт начали развивать свою критику в середине 1960-х гг. [1303] Например, среди тринадцати требующих решения проблем перцептронов, перечисленных в «Принципах нейродинамики», Розенблатт упоминает необходимость изучения возможных механизмов разделения фигур (фигура-фон) и исследования формирования абстрактных понятий и распознавания топологических или метрических отношений [1304] . Однако для коннекционистов наличие этих проблем не было сильным аргументом против нейросетевого подхода. По их мнению, элементарные перцептроны были только первой стадией исследования нейронных сетей. Розенблатт открыто признавал ограничения элементарных перцептронов, но относился к ним совершенно иначе, чем его критики. Для сторонников символьного подхода такие проблемы, как связность и чётность, были решающими аргументами против расширения исследований перцептронов вообще. Но для Розенблатта, Блока, Уидроу и прочих ограничения элементарных перцептронов были указанием на необходимость создания и исследования более сложных перцептронов. Коннекционисты подчёркивали положительные свойства элементарного перцептрона (его сходимость, подобие естественным нейронным сетям, его распределённую память, устойчивость к повреждениям, параллелизм и т. д.) и заявляли, что необходимы дальнейшие исследования более продвинутых моделей для того, чтобы получить возможность решать задачи более сложные, чем те, решения которых могут быть найдены элементарным перцептроном [1305] .
1303
Olazaran M. (1993). A Sociological History of the Neural Network Controversy / Advances in Computers, Vol. 37 //60408-8
1304
Rosenblatt F. (1961). Principles of Neurodynamics. Perceptrons and the Theory of Brain Mechanisms. Cornell aeronautical lab inc., Buffalo, New York. Defense Technical Information Center // https://books.google.ru/books?id=Tk2tDAEACAAJ
1305
Olazaran M. (1993). A Sociological History of the Neural Network Controversy / Advances in Computers, Vol. 37 //60408-8
Блок писал: «…Простой перцептрон (который состоит из набора входов, одного слоя нейронов и одного выхода без обратной связи или перекрёстной связи) совсем не то, что энтузиаст перцептронов мог бы считать типичным перцептроном. Его больше интересуют перцептроны с несколькими слоями, обратной связью и перекрёстными связями… сначала был изучен простой перцептрон, и для него была доказана „теорема сходимости перцептрона“. Это было обнадёживающим результатом не потому, что простой перцептрон сам по себе является адекватной моделью мозга (что, разумеется, не так; ни один из существующих перцептронов не может даже начать соревноваться с мышью!), а поскольку он продемонстрировал, что адаптивные нейронные сети в их простейших формах в принципе могут обучаться. Это говорит о том, что более сложные сети могут демонстрировать более интересное поведение. Минский и Пейперт иначе смотрят на роль простого перцептрона… Таким образом, то, что перцептронисты брали как временную опору, Минский и Пейперт интерпретируют как конечную структуру» [1306] .
1306
Block H. D. (1970). A review of 'Perceptrons' / Information and Control, Vol. 17, pp. 510—522 //90409-2
По вопросу о более сложных перцептронах, чем элементарный, Минский и Пейперт в своей книге 1969 г. ограничились лишь несколькими комментариями. Они сформулировали (ныне печально известное) пессимистическое «интуитивное суждение» о невозможности разработки эффективных методов обучения многослойных сетей: «Перцептрон уже показал, что его стоит изучать, несмотря на серьёзные ограничения (и даже благодаря им!). Он обладает многими свойствами, достойными внимания: линейность; интригующая теорема об обучении [о сходимости перцептрона]; очевидная простота как образца устройства для параллельных вычислений. Нет оснований предполагать, что любое из этих достоинств распространяется на его многослойный вариант. Тем не менее мы считаем, что важной исследовательской задачей является выяснение (или опровержение) нашего интуитивного суждения о том, что обсуждаемое расширение бесплодно. Разве только будет открыта какая-нибудь мощная теорема о сходимости или будет найдена некоторая глубокая причина, в силу которой для многослойной машины невозможно найти „теорему об обучении“, представляющую какой-либо интерес» [1307] .
1307
Minsky M., Papert S. A. (1969). Perceptrons: An Introduction to Computational Geometry. MIT Press // https://books.google.ru/books?id=KhI-uwEACAAJ
На мой взгляд, наиболее интересным вопросом является вопрос о том, действительно ли книга Минского и Пейперта оказала столь глобальное влияние на направление исследований по крайней мере на целое десятилетие. Вот что сообщает по этому поводу Бернард Уидроу:
Когда вышла книга Минского и Пейперта под названием «Перцептроны», я каким-то образом получил её экземпляр. Издатели присылают мне миллионы книг, так что эта однажды оказалась у меня в офисе. Я посмотрел на эту книгу и увидел, что они проделали серьёзную работу, и в этой книге была хорошая математика, но я сказал: «Боже мой, какой пасквиль». Я был так рад, что они назвали эту вещь перцептроном, а не адалайном, потому что на самом деле они в основном говорили об адалайне, а не о перцептроне. Я чувствовал, что они достаточно узко определили, что такое перцептрон, что они смогли доказать, что он практически ничего не мог сделать. Задолго до этой книги я уже успешно адаптировал MADALINE, который представлял собой целый набор нейронных элементов. Всё это беспокойство и муки по поводу ограничений линейной разделимости, которая является главной темой данной книги, давно преодолены.