Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
После установления таких связей нейроны образуют клеточный ансамбль таким образом, что любое возбуждение хотя бы одного относящегося к нему нейрона приводит в возбуждение весь ансамбль. Сочетание их связей формирует постоянно меняющийся алгоритм, определяющий реакцию мозга на раздражители [1181] .
Хебб не был первым, кто высказал эту идею. Ещё в 1932 г. американский психолог Эдвард Торндайк предположил, что обучение заключается в постепенном усилении проводящих путей между нейронами. В начале века Торндайк изучал поведение кошек при помощи так называемого проблемного ящика [puzzle box]. Помещённое в ящик животное могло освободиться в результате некоторого действия (например, потянув за рычаг или нажав на педаль). Когда кошка выбиралась из ящика, то получала вознаграждение, обычно еду. Поначалу кошки, помещённые в ящик, беспокойно бродили по нему и мяукали, но не знали, как выбраться. В конце концов они случайно наступали на педаль на полу — и дверь открывалась. Чтобы выяснить, могут ли кошки обучаться «вприглядку», Торндайк заставлял их наблюдать за выбиравшимися из ящика сородичами. Однако эта серия экспериментов завершилась неудачей: кошки упорно не желали учиться. Тогда Торндайк вернулся к методике обучения методом проб и ошибок. Он обнаружил, что после случайного нажатия на педаль кошки начинали в каждом последующем испытании нажимать на неё быстрее. Наблюдая за животными, Торндайк замерял время, потраченное ими на побег из ящика, а затем построил график времени в зависимости от номера эксперимента — он назвал его «кривая обучения» (у психологов принято говорить «кривая научения» [learning curve]). Этот же термин используется сегодня при обучении искусственных нейронных сетей. Оказавшись в ящике, кошки поначалу испытывали трудности, но в итоге схватывали закономерность и выбирались всё быстрее и быстрее в каждом последующем опыте. В результате время сокращалось до некоторой минимальной величины и стабилизировалось на ней. В итоге Торндайк получил S– образные кривые. Позже он повторил те же опыты с другими видами животных и обнаружил, что все они обучаются примерно одинаково, различия наблюдаются только в скорости этого процесса [1182] .
1181
Hebb D. (1949). The Organization of Behavior: A Neuropsychological Theory. A Wiley book in clinical psychology. Wiley // https://books.google.ru/books?id=dZ0eDiLTwuEC
1182
Thorndike E. L., Bruce D. (1970). Animal Intelligence: Experimental Studies. Transaction Publishers // https://books.google.ru/books?id=Go8XozILUJYC
В книге «Основы обучения» (The Fundamentals of Learning, 1930) Торндайк высказывает догадку, развитую позже Хеббом: «…должен быть некоторый физиологический отбор в результате повторения. Это может быть изменение в синапсах, в результате которого многократное прохождение стимула по одному и тому же пути активно увеличивает проводимость за счёт снижения проводимости в других местах. Или это может быть своего рода избирательная интеграция, посредством которой повторяющееся действие более или менее ассоциативной системы в целом по определённому шаблону подавляет тенденцию к действию по другим шаблонам. Или это может быть что-нибудь ещё» [1183] . Это высказывание Торндайка развивает предложенную им ещё в 1911 г. концепцию «закона эффекта»: «Из нескольких реакций на одну и ту же ситуацию те, которые сопровождаются удовлетворением воли животного или за которыми удовлетворение вскоре следует, при прочих равных условиях будут более прочно связаны с ситуацией, так что, когда она [ситуация] повторяется, они [реакции] с большей вероятностью будут повторяться; те же, которые сопровождаются дискомфортом для воли животного или за которыми дискомфорт вскоре следует, при прочих равных обстоятельствах ослабляют свои связи с этой ситуацией, поэтому, когда она повторяется, вероятность их возникновения будет меньше. Чем больше удовлетворение или дискомфорт, тем больше укрепление или ослабление связи» [1184] .
1183
Thorndike E. L. (1932). The Fundamentals Of Learning. Teachers College, Columbia University // https://archive.org/details/in.ernet.dli.2015.157080/page/n29
1184
Thorndike E. L. (1911). Animal intelligence: experimental studies. Animal behavior series. New York, The Macmillan Company // https://doi.org/10.5962/bhl.title.55072
Параллельно с Торндайком исследованием процессов обучения у животных занимался знаменитый российский, а затем советский учёный Иван Павлов, создатель теории условных рефлексов. Среди прочего Павлов и его коллеги исследовали влияние соотношения силы условного и безусловного подкрепления на интенсивность и продолжительность условного рефлекса. Соответствующая закономерность, сформулированная Павловым и его учеником Борисом Бабкиным, получила название «закон относительной силы» [1185] . Исследования Павлова стали источником многих новаторских идей в области физиологии нервной деятельности, однако они были по большей мере сосредоточены в области крупномасштабной структуры и функций — на страницах его работ почти не встречаются рассуждения о процессах, происходящих на клеточном уровне.
1185
Майоров Ф. П. (1948). История учения об условных рефлексах. — М.: Академия Медицинских наук СССР // http://anfiz.ru/books/item/f00/s00/z0000021/index.shtml
Однако там, где Павлов всё-таки спускается на клеточный уровень, его суждения весьма точны и одновременно осторожны: «…связывание импульсов в разных областях мозга путём образования новых нервных связей является первым нервным механизмом, с которым мы столкнулись при изучении физиологии полушарий. Вопрос о месте, где возникает эта новая нервная связь, ещё не получил чёткого ответа. Это происходит исключительно в коре или между корой и подкорковыми областями? <…> В любом случае клетки, преимущественно возбуждённые в данный момент времени, становятся очагами, притягивающими к себе нервные импульсы, возбуждённые импульсами новых стимулов, которые при повторении имеют тенденцию следовать по тому же пути и, таким образом, устанавливать условные рефлексы» [1186] .
1186
Pavlov I. P., Anrep G. V. (1927). Conditioned reflexes: an investigation of the physiological activity of the cerebral cortex. Oxford university press: Humphrey milford // https://books.google.ru/books?id=aGMSyQEACAAJ
Хотя работа Хебба является гораздо более полной в деле определения модели процесса обучения, чем большинство предыдущих работ в этой области, она всё ещё слишком вольна в своих определениях, чтобы найти однозначное отражение в виде алгоритма. Однако соображения Хебба оказались важным отправным пунктом, который позволил сразу нескольким группам исследователей разработать конкретные алгоритмические версии принципа Хебба и даже воплотить их в конструкциях экспериментальных устройств.
4.4.4 Первые эксперименты в области искусственных нейронных сетей
Одним из первых таких устройств стал SNARC (Stochastic Neural Analog Reinforcement Calculator, стохастический нейронный аналоговый калькулятор с подкреплением), разработанный Марвином Минским.
По просьбе Минского Джордж Миллер, один из основателей когнитивной психологии, договорился о финансировании проекта за счёт средств Управления научных исследований военно-воздушных сил США летом 1951 г. (речь шла о нескольких тысячах долларов). «Рабочими руками» проекта стал сам Минский, который был тогда аспирантом-математиком в Принстонском университете, а также аспирант-физик Дин Эдмондс, умелый электронщик, добровольно вызвавшийся участвовать в проекте.
Сама машина представляла собой случайное соединение из сорока искусственных нейронов и моделировала поведение крысы, пытающейся отыскать выход из лабиринта.
Каждый из нейронов был реализован при помощи шести электроламп и двигателя. Память машины сохранялась в положениях ручек управления — по одной на каждый искусственный нейрон, — и, когда машина обучалась, она использовала сцепления для регулировки своих ручек. Для перемещения сцеплений использовался резервный гиропилот [1187] от бомбардировщика B-24.
1187
* Гиропилот (также гирорулевой) — электронавигационный прибор, работающий на основании показаний гирокомпаса. Гиропилот осуществляет автоматическое удержание судна на заданном курсе с гораздо большей точностью, чем это может делать человек, использующий компас.
Топология сетей выбиралась случайным образом. «Крыса» создавалась в какой-то точке в сети и затем отправлялась изучать путь к заданной конечной точке. Сначала «крыса» перемещалась по лабиринту хаотически. Если в результате этих хаотических перемещений ей удавалось наткнуться на выход, то для закрепления удачного поведения в систему путём нажатия кнопки подавался сигнал подкрепления. Индикаторная панель с рядами ламп позволяла наблюдателям следить за перемещениями «крысы». В ходе экспериментов выяснилось, что из-за недоработки в архитектуре системы несколько крыс, помещённых в один и тот же лабиринт, могли взаимодействовать друг с другом: если какая-то из «крыс» находила путь, другие были склонны следовать за ней.
Устройство Минского и Эдмондса было, вероятно, первой самообучающейся электронной машиной [1188] , [1189] . В данном случае слово «электронной» является важной оговоркой, поскольку самообучающиеся машины на электромеханической основе к тому моменту уже были известны. Часто первой такой машиной называют «мышь» из проекта «Тезей» [Theseus], созданную примерно за год до SNARC Клодом Шенноном. Робомышь, в основу которой была положена система телефонных реле, успешно находила и запоминала путь в лабиринте размером 5 x 5 клеток, используя метод проб и ошибок [1190] .
1188
Hoggett R. (2009). 1951 — SNARC Maze Solver — Minsky / Edmonds (American) / cyberneticzoo.com: a history of cybernetic animals and early robots // http://cyberneticzoo.com/mazesolvers/1951-maze-solver-minsky-edmonds-american/
1189
Bernstein J. (1981). A.I / The New Yorker, December 6, 1981 // https://www.newyorker.com/magazine/1981/12/14/a-i
1190
Klein D. (2018). Mighty mouse / MIT Technology Review, December 19, 2018 // https://www.technologyreview.com/2018/12/19/138508/mighty-mouse/
Но, возможно, пальму первенства стоит отдать Россу Эшби с его гомеостатом [Homeostat]. Мы уже упоминали письмо, в котором Тьюринг пытался убедить Эшби использовать для своих экспериментов машину ACE. Эшби, однако, не внял советам коллеги и решил создать специализированное устройство, которое должно было стать работающей иллюстрацией принципа гомеостаза. Мы остановимся на этом любопытном устройстве несколько подробнее. Хотя гомеостат обычно и не относят к числу нейросетевых систем, в действительности он как раз являлся одним из первых примеров реализации искусственных нейронных сетей. Причиной недостаточной очевидности этого факта является весьма оригинальный подход, применённый Эшби, который остался во многом непонятым как современниками этого неординарного учёного, так и впоследствии специалистами по истории науки. Коллега Винера кибернетик Джулиан Бигелоу, ознакомившись с устройством гомеостата, задал вопрос: «Имеет ли эта специфическая модель какое-либо отношение к нервной системе? Это, возможно, прекрасная копия чего-то, но бог знает чего именно».
Давайте попробуем разобраться по порядку, какую именно задачу стремился решить Эшби и что представляли собой методы, положенные в основу гомеостата.
Термин «гомеостаз» (или «гомеостазис», homeostasis), предложенный в 1932 г. американским физиологом Уолтером Кенноном, образован от греческих слов ??????, что означает «одинаковый», «подобный», и ?????? — «стояние», «неподвижность». Кеннон использовал введённый им термин для обозначения устойчивых состояний организма. Учёный так объяснил необходимость использования нового понятия: «Постоянные условия, которые поддерживаются в организме, можно назвать равновесием [equilibria]. Это слово, однако, приобрело весьма определённое значение применительно к относительно простым физико-химическим состояниям в закрытых системах, где известные силы уравновешивают друг друга. Скоординированные физиологические процессы, которые поддерживают большинство устойчивых состояний в организме, настолько сложны и настолько специфичны для живых существ, что предполагают в ряде случаев совместную работу мозга и нервов, сердца, лёгких, почек и селезёнки. Поэтому я предлагаю специальное обозначение для этих состояний — гомеостаз. Это слово не означает что-то застывшее и неподвижное, стагнацию. Оно обозначает состояние, которое может изменяться, но при этом сохраняет относительное постоянство» [1191] . Термин быстро обрёл популярность в среде кибернетиков и стал трактоваться в более широком ключе — как механизм саморегуляции открытой системы, направленный на достижение «динамического равновесия». Под последним понималась способность системы поддерживать определённое состояние за счёт того, что её компоненты скоординированно реагируют на возмущающие воздействия.
1191
Cannon W. B. (1932). The Wisdom of the Body, Vol. 10. W. W. Norton, Incorporated // https://books.google.ru/books?id=zdkEAQAAIAAJ