ЖАНРЫ

Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:

Шесть лет Фрейд провёл в лаборатории Брюкке, занимаясь сравнительной анатомией нервной системы позвоночных и беспозвоночных. Изучая под микроскопом мозг лягушек, раков и миног, он совершил ряд важных открытий. В частности, именно Фрейд обнаружил, что нервные волокна берут своё начало в сером веществе, покрытом паутиноподобной тканью, и что спинной мозг миноги содержит недифференцированные клетки, которые впоследствии формируют корешки чувствительных нервов. Также он был первым, кто описал структуру и функции продолговатого мозга и проводящих путей, соединяющих спинной мозг и мозжечок.

Это было время острых дебатов, предшествовавших становлению нейронной доктрины. Ещё в 1830-е гг. Теодор Шванн и Маттиас Шлейден на основании данных микроскопии предположили, что все живые существа состоят из фундаментальных единиц, названных клетками. Однако вплоть до открытия «чёрной реакции» микроскопия была неспособна опровергнуть точку зрения сторонников Герлаха о том, что волокна, соединяющие клеточные тела в мозге, составляют структурно неразделимую сеть — ретикулум, поскольку синаптические щели были неразличимы в отсутствие подходящего способа окраски. Окончательное признание научным сообществом «нейронной доктрины» произошло в самом конце XIX в., когда британский нейробиолог Чарльз Шеррингтон исследовал явление синаптической связи.

Фрейд разработал свой оригинальный способ окраски ткани, напоминавший метод Гольджи. Первым компонентом окраски был, так же как и в случае «чёрной реакции», дихромат калия или жидкость Эрлицкого (2 1/2 части дихромата калия и 1/2 части сульфата меди на 100 частей воды), а вот вторым — смесь равного (или половинного) объёма этилового спирта с однопроцентным водным раствором хлорида золота [1390] , [1391] . В 1884 г. Фрейд публикует описание своего метода окраски в престижном научном журнале Brain [1392] . В лекции, прочитанной в том же году, Фрейд так описал свои наблюдения: «Если мы предположим, что фибриллы (нитевидные белковые структуры. — С. М.) нервного волокна играют роль изолированных проводящих путей, то мы должны признать, что пути, на которые разделены нервные волокна, сливаются в нервной клетке, — тогда нервная клетка становится „началом“ всех этих нервных волокон, анатомически связанных с ней… Я не знаю, достаточно ли существующих материалов для решения этой важной задачи. Если это предположение удалось бы подтвердить, это стало бы большим шагом вперёд в отношении физиологии нервных элементов: мы могли бы представить, что стимул определённой силы будет способен пробивать изолированные волокна так, что нерв, как единое целое, послужит проводником возбуждения и так далее» [1393] , [1394] .

1390

Galbis-Reig D. (2003). Sigmund Freud, M. D.: Forgotten Contributions to Neurology, Neuropathology, and Anesthesia / Internet Journal of Neurology. Vol. 3 (1), Jan 2003 // https://www.researchgate.net/publication/275833594_Sigmund_Freud_MD_Forgotten_Contributions_to_Neurology_Neuropathology_and_Anesthesia

1391

Triarhou L. C. (2009). Exploring the mind with a microscope: Freud's beginnings in Neurobiology / Hellenic Journal of Psychology // https://www.academia.edu/9914521/Exploring_the_mind_with_a_microscope_Freuds_beginnings_in_Neurobiology

1392

Freud S. (1885). A new histological method for the study of nerve-tracts in the brain and spinal chord / Brain: a journal of neurology, Vol. IV // https://archive.org/details/brainjournalofne07londuoft/page/86

1393

Barford D., Geerardyn F., van de Vijver G. (2018). The Pre-Psychoanalytic Writings of Sigmund Freud. Routledge // https://books.google.ru/books?id=Fx-yDwAAQBAJ

1394

Reshe J. (2018). Freud’s living corpse: psychoanalysis vs neuroscience / Brev Spread, Vol. 18, pp. 20—37 // https://www.academia.edu/37323128/Freuds_living_corpse_psychoanalysis_vs_neuroscience

Эта цитата показывает, что Фрейд вплотную приблизился к открытию нейронной доктрины, однако его суждения содержали изрядную степень неопределённости, которую спустя шесть лет смогли преодолеть Рамон-и-Кахаль и Вальдейер. В своей знаменитой работе «Гистология нервной системы человека и позвоночных» Рамон-и-Кахаль ссылается на наблюдения Фрейда как на свидетельства в пользу правильности нейронной доктрины [1395] .

Чтение «Проекта научной психологии» Фрейда для современного читателя представляет немалую сложность примерно по тем же причинам, по которым довольно сложно разобраться в пионерских текстах Мак-Каллока и Питтса. Фрейд отчасти использует собственную оригинальную терминологию, делает множество серьёзных допущений, применяет витиеватые синтаксические конструкции. И всё же в его тексте видна опередившая своё время попытка создания непротиворечивой модели, основанной на данных физиологии и призванной объяснить возникновение различных психических феноменов физическими процессами, протекающими в нервной системе. Аналогом синапса у Фрейда является «контактный барьер». Фрейд выделяет несколько типов нейронов, в частности: ?-нейроны, неизменно и беспрепятственно пропускающие сквозь себя возбуждающие импульсы так, как будто контактные барьеры в них полностью отсутствуют, а также ?-нейроны, которые пропускают импульсы частично или с затруднением и могут изменять своё состояние после каждого возбуждения, на чём, по мнению Фрейда, может быть основан феномен памяти [1396] . Впрочем, эта революционная идея вряд ли является единоличным изобретением Фрейда. Аналогичные идеи до него высказывал психиатр, невропатолог и анатом Теодор Мейнерт, директор психиатрической клиники при Венском университете, в которой с 1883 г. работал Фрейд.

1395

Ramon y Cajal S. (2002). Texture of the Nervous System of Man and the Vertebrates: Volume III An annotated and edited translation of the original Spanish text with the additions of the French version by Pedro Pasik and Tauba Pasik. Springer Science & Business Media // https://books.google.ru/books?id=DMETOdFiJwMC

1396

Freud S. (1950). Project for a Scientific Psychology (1950[1895]). The Standard Edition of the Complete Psychological Works of Sigmund Freud, Volume I (1886-1899): Pre-Psycho-Analytic Publications and Unpublished Drafts // http://users.clas.ufl.edu/burt/freud%20fleiss%20letters/200711781-013.pdf

Среди других известных учеников Мейнерта были друг и наставник Фрейда Йозеф Бройер; будущий нобелевский лауреат в области физиологии и медицины Юлиус Вагнер-Яурегг; русский психоневролог, один из основоположников нозологического направления в психиатрии и московской научной школы психиатрии Сергей Корсаков; немецкий невропатолог, автор психоморфологического направления в психиатрии Карл Вернике, а также уже упоминавшийся нами швейцарский психиатр и один из герольдов нейронной доктрины Огюст-Анри Форель [1397] .

1397

Fancher R. E., Rutherford A. (2016). Pioneers of Psychology (Fifth International Edition). W. W. Norton // https://books.google.ru/books?id=gmnKswEACAAJ

Словом, идея о том, что феномен памяти и, следовательно, обучения может быть основан на способности нейронов изменять способ преобразования проходящих через них нервных импульсов, в 1895 г. уже не была новинкой. Фрейд называет изменение проходимости контактных барьеров (в одном из мест прямо говорится о снижении сопротивления) словом Bahnung (дословно: «облегчение», на русский язык сейчас передаётся как «фасилитация», от англ. facilitate) и пишет о том, что память представлена в виде разницы в фасилитации контактных барьеров между ?-нейронами. Дальше он делает важное умозаключение: фасилитация не может быть основана только на нервном импульсе, получаемом нейроном при возбуждении (Фрейд употребляет термин Besetzung или греческий эквивалент «катексис», дословно означающий «захват, удержание, задержание»), — ведь такой импульс либо распределяется равномерно по всем контактным барьерам (синапсам) нейрона, либо проходит через наиболее фасилитированный барьер и, следовательно, не может породить необходимую разницу в фасилитации контактных барьеров. Действительно, нейрон должен каким-то образом узнать, какой именно контактный барьер должен быть фасилитирован, но это невозможно без обратного распространения сигнала. По мнению Фрейда, контактные барьеры при прохождении через них эндогенного (внутреннего) импульса удерживают его часть, чтобы затем под влиянием экзогенных (внешних) импульсов, таких как, например, боль, изменять уровень своей фасилитации [1398] .

1398

Freud S. (1950). Project for a Scientific Psychology (1950[1895]). The Standard Edition of the Complete Psychological Works of Sigmund Freud, Volume I (1886-1899): Pre-Psycho-Analytic Publications and Unpublished Drafts // http://users.clas.ufl.edu/burt/freud%20fleiss%20letters/200711781-013.pdf

Таким образом, взятая из фрейдовских работ идея об обратном распространении в нейронной сети корректирующего сигнала послужила для Вербоса отправной точкой его размышлений, итогом которых стало изобретение алгоритма обратного распространения ошибки для обучения многослойных нейронных сетей.

Несмотря на успешное решение вопроса о том, как можно обучать многослойные нейронные сети, Вербос в своей диссертации в 1974 г. ограничился лишь короткими замечаниями по этому поводу. Подробное описание применения метода обратного распространения ошибки к обучению нейронных сетей было опубликовано [1399] Вербосом только в 1982 г. Сказывался невысокий интерес научного окружения Вербоса к этому вопросу [1400] . Возможно, отсутствие интереса Минского к ранней работе Вербоса по гамбургскому счёту оказалось куда большим вкладом первого в наступление коннекционистской зимы, чем пресловутые «Перцептроны». Впрочем, не стоит переоценивать роль личности Минского в этой истории, ведь его пессимизм лишь суммировал опыт множества исследователей, безрезультатно пытавшихся найти эффективные способы обучения многослойных перцептронов. Конечно, теплились некоторые искорки надежды, такие как идеи об обратном распространении ошибки у Розенблатта или высказанное вскользь предложение Сюнъити Амари о том, что для обучения нейронных сетей можно попробовать использовать метод наименьших квадратов [1401] , [1402] , являющийся основой простой линейной регрессии (без рассуждений о том, как вычислять производные, и с оговоркой, что он не ожидает многого от этого подхода) [1403] , [1404] . И всё же пессимизм во второй половине 1970-х — начале 1980-х гг. достиг своего апогея, поэтому работы Вербоса так и остались практически не замеченными научным сообществом. Повсеместное признание метода обратного распространения ошибки произошло только вслед за публикацией в 1986 г. в журнале Nature статьи Румельхарта, Хинтона и Уильямса «Выучивание представлений путём обратного распространения ошибок» (Learning representations by back-propagating errors). Её авторы упоминают в тексте Дэвида Паркера и Яна Лекуна в качестве исследователей, которые независимо открыли процедуры обучения, аналогичные описанным в статье [1405] .

1399

Werbos P. (1982). Applications of Advances in Nonlinear Sensitivity Analysis / Drenick R., Kozin F. (1982). System Modeling and Optimization. Proceedings of the 10th IFIP Conference New York City, USA, August 31–September 4, 1981. Springer-Verlag // https://books.google.ru/books?id=oczhwgEACAAJ

1400

Kurenkov A. (2015). A 'Brief' History of Neural Nets and Deep Learning // https://www.andreykurenkov.com/writing/ai/a-brief-history-of-neural-nets-and-deep-learning/

1401

* Значение метода наименьших квадратов, разработанного в начале XVIII в. Гауссом и Лежандром, для машинного обучения столь значительно, что один из отцов современных нейронных сетей Юрген Шмидхубер даже называет модели Гаусса и Лежандра «линейными нейронными сетями» или «линейными перцептронами».

1402

Machine Learning Street Talk (2023). ORIGINAL FATHER OF AI ON DANGERS! (Prof. Jurgen Schmidhuber) / YouTube, Aug 13, 2023 // https://www.youtube.com/watch?v=q27XMPm5wg8

1403

Werbos P. J. (2006) Backwards Differentiation in AD and Neural Nets: Past Links and New Opportunities / Bucker M., Corliss G., Naumann U., Hovland P., Norris B. (2006). Automatic Differentiation: Applications, Theory, and Implementations. Lecture Notes in Computational Science and Engineering, Vol 50. Springer, Berlin, Heidelberg // https://doi.org/10.1007/3-540-28438-9_2

1404

Werbos P. J. (1994). The Roots of Backpropagation: From Ordered Derivatives to Neural Networks and Political Forecasting. Wiley & Sons Ltd // https://books.google.ru/books?id=WdR3OOM2gBwC

1405

Rumelhart D. E., Hinton G. E., Williams R. J. (1986). Learning representations by back-propagating errors / Nature, 323(6088), pp. 533–536 // https://doi.org/10.1038/323533a0

Не оставались в стороне и советские учёные. Диссертация Вербоса увидела свет в январе 1974 г., а в августе того же года в СССР тиражом 8000 экземпляров из печати вышла книга Александра Галушкина под названием «Синтез многослойных систем распознавания образов». Хотя Галушкин несколько раз использует в своей книге термин «нейронная сеть», в большинстве случаев он применяет более нейтральный термин — «система распознавания» (СР). Искусственные нейроны у Галушкина становятся «линейно-пороговыми элементами» (ЛПЭ), обученная сеть (т. е. сеть, предназначенная только для выполнения [inference]) — «сетью с разомкнутым контуром» и так далее [1406] . С точки зрения современной терминологии название книги Галушкина можно понимать как «Обучение многослойных нейронных сетей». Книга Галушкина стала первым систематическим изложением идей учёного, развитых им и его коллегами в предшествующие годы. Первые публикации [1407] , [1408] , [1409] , [1410] Галушкина на тему создания и обучения многослойных нейронных сетей относятся к 1971–1973 гг.

1406

Галушкин А. И. (1974). Синтез многослойных систем распознавания образов. — М.: Энергия.

1407

Галушкин А. И. (1971). Реализация критериев первичной оптимизации в системах распознавания образов, настраивающихся по замкнутому циклу в режиме обучения // Труды МИЭМ. Вып. 23.

1408

Галушкин А. И., Василькова Т. А., Слободенюк В. А., Тюхов Б. П. (1971). Анализ динамики систем распознавания нестационарных образов // Труды МИЭМ. Вып. 23.

1409

Галушкин А. И., Василькова Т. А., Слободенюк В. А., Тюхов Б. П. (1971). Анализ динамики систем распознавания нестационарных образов // Труды МИЭМ. Вып. 23; Галушкин А. И. (1973). Об алгоритмах адаптации в многослойных системах распознавания образов / Докл. АН Укр. ССР, А, 91. № 1. С. 15—20

1410

Ванюшин В. А., Галушкин А. И., Тюхов Б. П. (1972). Построение и исследование многослойных систем распознавания образов / Берг А. И. (1972). Некоторые проблемы биологической кибернетики. — Л.: Наука.

Диссертация Вербоса, вне всякого сомнения, не была известна Галушкину. По большому счёту она в те годы не была известна, по всей видимости, никому из коннекционистов. Действительно, вряд ли кто-то всерьёз ждал фундаментального прорыва от работы под названием «После регрессии: новые инструменты для предсказания и анализа в поведенческих науках» (Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences). Термин «нейронные сети» не использовался в те времена в названиях работ ни Вербоса, ни Галушкина (как недостаточно строгий и являвшийся на тот момент обозначением модели, представлявшей, по мнению многих, лишь исторический интерес). Даже Румельхарт, Хинтон и Уильямс в 1986 г. в своей знаменитой статье [1411] следовали этому принципу.

1411

Rumelhart D. E., Hinton G. E., Williams R. J. (1986). Learning representations by back-propagating errors / Nature, 323(6088), pp. 533–536 // https://doi.org/10.1038/323533a0

В то же время Галушкин прекрасно знал о работах западных коннекционистов. Полюбуйтесь списком западных систем распознавания образов, который приводит Галушкин в своей книге: Mark-I, Mark-II, Papa, Kybertron, Altron, Konflex, Albert-1, Adalin, Madalin (написано именно так, без «e» на конце. — С. М.), Minos-2, Illiak-2, Illiak-3, Tobermory, GHILD, Astropower, Adapt-1, Adapt-2, DSK, Ziklop-1, Simisor, Auditran, Shubocs, Gaku и др. (sic!). В тексте книги также упоминается алгоритм обучения Штейнбуха Lernmatrix.

Галушкин рассматривает использование в нейронных сетях функций активации, отличных от функции Хевисайда и сигнума (обозначается sgn, функция знака, имеющая три возможных значения: 0, 1 и –1). Необходимость применения функций с континуумом решений у Галушкина обосновывается следующим образом: «Экспериментальное исследование данного алгоритма показало, что скорость сходимости при нахождении некоторой локальной моды мала и причиной этого является применение в многослойной СР ЛПЭ с двумя решениями, которые в значительной степени „загрубляют“ информацию о градиенте функционала вторичной оптимизации при квантовании входного сигнала. В связи с этим основным предметом исследования являлась двухслойная СР, по структуре подобная описанной выше, но состоящая из ЛПЭ с континуумом решений». В итоге выбор автора останавливается на арктангенсе, умноженном на 2/? для приведения значений функции к диапазону (–1; 1). График арктангенса, как и график популярных в наши дни логистической функции и гиперболического тангенса, является сигмоидой.

Поделиться с друзьями: