ЖАНРЫ

Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:

Однако по условию задачи у нас изначально нет метки класса как таковой. Ввиду этого исследователи применяют хитрый приём: каждый прецедент подвергается множеству трансформаций, которые не должны привести к смене метки целевого класса. Например, если мы имеем дело с изображениями, то к числу таких трансформаций могут относиться повороты, зеркальные отражения, размытие, добавление различных видов шума, изменение яркости, контраста, сдвиги цветов и так далее. При помощи таких трансформаций из одного изображения можно получить множество, составляющее отдельный псевдокласс. Теперь, имея полученный обогащённый набор данных, можно приступать к задаче обучения модели. В качестве целевой функции мы будем использовать такую функцию, которая будет максимизировать расстояние между представлениями прецедентов, относящихся к разным псевдоклассам, и минимизировать расстояние между представлениями, соответствующими прецедентам из одного и того же псевдокласса. В последние годы был разработан целый ряд разновидностей контрастного обучения. Например, можно составить обучающую выборку из пар прецедентов и обучать на ней сеть, состоящую из двух подсетей-кодировщиков с одинаковыми весами, выходы которых будут пропускаться через третью подсеть, вычисляющую расстояние между выходами двух первых подсетей. На выходе третья подсеть должна будет сделать предсказание — относятся прецеденты в паре к одному или тому же псевдоклассу или нет. Такой подход получил название «сиамских сетей» (поскольку веса сетей-кодировщиков идентичны, они являются как бы сиамскими близнецами) [1519] . Вместо вычисления расстояний можно использовать и более хитрые способы оценки представлений, выучиваемых кодировщиками. В результате развития этой идеи в последние годы появилось множество интересных архитектур (MoCo [1520] , MoCo v2 [1521] , SwAV [1522] , BYOL [1523] , SimCLR [1524] , SimCLR v2 [1525] и др.).

1519

Bromley J., Bentz J. W., Bottou L., Guyon I., LeCun Y., Moore C., Sackinger E., Shah R. (1993). Signature verification using a siamese time delay neural network / International Journal of Pattern Recognition and Artificial Intelligence, Vol. 7, Iss. 4, pp. 669—688 // https://dl.acm.org/doi/10.5555/2987189.2987282

1520

He K., Fan H., Wu Y., Xie S., Girshick R. (2019). Momentum Contrast for Unsupervised Visual Representation Learning // https://arxiv.org/abs/1911.05722

1521

Chen X., Fan H., Girshick R., He K. (2020). Improved Baselines with Momentum Contrastive Learning // https://arxiv.org/abs/2003.04297

1522

Caron M., Misra I., Mairal J., Goyal P., Bojanowski P., Joulin A. (2020). Unsupervised Learning of Visual Features by Contrasting Cluster Assignments // https://arxiv.org/abs/2006.09882

1523

Grill J.-B., Strub F., Altche F., Tallec C., Richemond P. H., Buchatskaya E., Doersch C., Pires B. A., Guo Z. D., Azar M. G., Piot B., Kavukcuoglu K., Munos R., Valko M. (2020). Bootstrap your own latent: A new approach to self-supervised Learning // https://arxiv.org/abs/2006.07733

1524

Chen T., Kornblith S., Norouzi M., Hinton G. (2020). A Simple Framework for Contrastive Learning of Visual Representations // https://arxiv.org/abs/2002.05709

1525

Chen T., Kornblith S., Swersky K., Norouzi M., Hinton G. (2020). Big Self-Supervised Models are Strong Semi-Supervised Learners // https://arxiv.org/abs/2006.10029

Остановимся для примера на одной из них. В 2021 г. целый ряд работ был посвящён новому подходу, получившему название «близнецы Барлоу» [Barlow twins] [1526] . Он был создан командой исследователей из компании Facebook под впечатлением от исследования нейрофизиолога Хораса Барлоу. В его статье [1527] , написанной ещё в 1961 г., была предложена смелая гипотеза о кодировании сенсорной информации в нервной системе, в соответствии с которой цель обработки сенсорной информации мозгом — избавиться от избыточности и перекодировать сигнал в код, компоненты которого будут статистически независимы. Для того чтобы оценить статистическую независимость представлений двух прецедентов, относящихся к одному псевдоклассу, создатели «близнецов Барлоу» заставляют сеть вычислить матрицу взаимной корреляции (кросс-корреляции) двух представлений. В идеальном случае главная диагональ этой матрицы должна быть заполнена единицами (соответствующие элементы двух представлений линейно зависимы, что означает, что представление оказалось инвариантным относительно внесённых искажений), а остальные элементы — нулями (отсутствует корреляция между всеми другими парами компонентов представления). Степень отклонения от этого идеального случая и есть функция потерь, которая в процессе обучения должна быть подвергнута минимизации. При этом второй компонент функции потерь (отличие от нуля недиагональных элементов матрицы) включается в неё с некоторым заданным весом, который можно настраивать. Такой подход позволяет при обучении обойтись без отрицательных примеров и хорошо работает с представлениями достаточно большой размерности. Почему это работает? Как и в случае других методов глубокого обучения, исследователи уже придумали несколько весьма остроумных объяснений наблюдаемому эффекту, отталкиваясь от метода «информационного бутылочного горлышка» [Information bottleneck method] Нафтали Тишби [1528] , критерия независимости Гильберта — Шмидта [Hilbert-Schmidt Independence Criterion] [1529] , [1530] и других страшных слов и фамилий.

1526

Zbontar J., Jing L., Misra I., LeCun Y., Deny S. (2021). Barlow Twins: Self-Supervised Learning via Redundancy Reduction // https://arxiv.org/abs/2103.03230

1527

Barlow H. (1961). Possible Principles Underlying the Transformations of Sensory Messages // https://doi.org/10.7551/mitpress/9780262518420.003.0013

1528

Tishby N., Pereira F. C., Bialek W. (1999). The Information Bottleneck Method / The 37th annual Allerton Conference on Communication, Control, and Computing, pp. 368—377 // https://arxiv.org/abs/physics/0004057

1529

Tsai Y.-H. H., Bai S., Morency L.-P., Salakhutdinov R. (2021). A Note on Connecting Barlow Twins with Negative-Sample-Free Contrastive Learning // https://arxiv.org/abs/2104.13712

1530

Gretton A., Fukumizu K., Teo C. H., Song L., Scholkopf B., Smola A. J. (2007). A kernel statistical test of independence / NIPS'07: Proceedings of the 20th International Conference on Neural Information Processing Systems, pp. 585—592 // https://dl.acm.org/doi/10.5555/2981562.2981636

Обучение представлениям — одна из быстроразвивающихся областей глубокого обучения в наши дни, и не исключено, что в ближайшем будущем здесь нас ждёт ещё множество замечательных открытий.

5.3 Машины

Здесь стоял мой «Алдан». Я немножко полюбовался на него, какой он компактный, красивый, таинственно поблёскивающий. В институте к нам относились по-разному. Бухгалтерия, например, встретила меня с распростёртыми объятиями, и главный бухгалтер, скупо улыбаясь, сейчас же завалил меня томительными расчётами заработной платы и рентабельности. Жиан Жиакомо, заведующий отделом Универсальных Превращений, вначале тоже обрадовался, но, убедившись, что «Алдан» не способен рассчитать даже элементарную трансформацию кубика свинца в кубик золота, охладел к моей электронике и удостаивал нас только редкими случайными заданиями.

Аркадий и Борис Стругацкие. Понедельник начинается в субботу

5.3.1 Гордон Мур и его закон

Технический прогресс не стоит на месте, и человечество создаёт всё более новые и совершенные вычислительные машины. В популярной литературе нередко можно встретить утверждение, что вычислительная мощность машин возрастает в экспоненциальной прогрессии и что эта закономерность называется законом Мура. Дошло до того, что некоторые люди считают, что «закон Мура» — это просто другое название экспоненциального роста (например, в сетевой дискуссии один из пользователей Facebook недавно заявил, что коронавирус COVID-19 распространяется в соответствии с законом Мура). Оставим на этом моменте эпидемиологов наедине с их фейспалмом, а сами попробуем разобраться, что же такое закон Мура, чем он является и чем совершенно точно не является.

Мы знаем Гордона Мура (не путать с Эдвардом!) как американского бизнесмена, инженера, сооснователя и почётного председателя корпорации Intel. В 1965 г., когда Мур опубликовал работу [1531] , посвящённую своему знаменитому наблюдению, он был известен как директор по исследованиям и разработке компании Fairchild Semiconductor и один из членов так называемой «Вероломной восьмёрки» (The Traitorous Eight). История самого знаменитого «предательства» в истории вычислительной техники началась в 1956 г., когда лауреат Нобелевской премии по физике 1956 г. Уильям Шокли при поддержке калифорнийского предпринимателя Арнольда Бекмана основал производственную лабораторию, которая стала одним из истоков Кремниевой долины [1532] .

1531

Moore G. E. (1998). Cramming More Components Onto Integrated Circuits. Reprinter from Electronics, volume 38, number 8, April 19, 1965, p.114 / Proceedings of the IEEE, Vol. 86, Iss. 1 // https://doi.org/10.1109/jproc.1998.658762

1532

Lecuyer C., Brock D. C. (2010). Makers of the Microchip: A Documentary History of Fairchild Semiconductor. MIT Press // https://books.google.ru/books?id=LaZpUpkG70QC

Для разработки и организации производства новых полупроводниковых приборов Шокли собрал команду, состоявшую из молодых специалистов — физиков и инженеров. По мнению современников, в личности Шокли сочетались неоспоримый талант учёного, а также тяга к постоянному соперничеству и глухота к интересам и мнениям других людей. Шокли гордился своим интеллектуальным превосходством над другими людьми, а также собственным телом. Позже, в 1960-е гг., — по всей видимости под влиянием этих мыслей, а также, вероятно, полученных в автокатастрофе повреждений головного мозга — он придёт к идеям евгеники и начнёт публичную кампанию против «вырождения» американской нации, что в итоге окончательно разрушит его репутацию и сделает его персоной нон грата в научном сообществе.

Особенности характера Шокли не единожды приводили к конфликтам с другими людьми — человеколюбие никогда не было его сильной стороной.

Противоречивый характер Шокли проявлялся с самого детства. Раннее развитие (в пять месяцев он научился произносить собственное имя, а в двенадцать уже умел считать до четырёх и узнавал буквы алфавита) сочеталось в нём с приступами неуправляемой агрессии, во время которых он кусал родителей и бился в конвульсиях. Родители Шокли были довольно необычными людьми. Отец — потомок пилигримов с «Мейфлауэра», сын шкипера-китобоя и выпускник MIT — сколотил небольшое состояние, работая горным инженером, и занялся биржевой торговлей. Мать — выпускница Стэнфорда и первая в США женщина, ставшая горным инспектором. Отец был старше матери на 22 года. После свадьбы супруги перебрались в Лондон, где в 1910 г. и появился на свет Уильям Шокли. Родители мальчика пытались решить проблему приступов агрессии у сына различными способами, включавшими в себя телесные наказания и различные психологические эксперименты, они меняли нянек и ограничивали его общение со сверстниками. Биржевая торговля Шокли-старшего не принесла ему желаемых доходов, и в 1913 г. семья из-за финансовых проблем была вынуждена вернуться в США и обосноваться в Калифорнии. Только в восемь лет родители Шокли отдали его в школу, а год спустя — в Военную академию Пало-Алто (Palo Alto Military Academy, PAMA). К удивлению родителей, мальчик смог достаточно быстро адаптироваться в учебном заведении, где не только отлично учился, но и вполне прилично себя вёл. В 1927 г., после окончания школы (несколько классов которой он пропустил из-за планов родителей вернуться в Лондон), он поступил в Калифорнийский университет в Лос-Анджелесе (University of California, Los Angeles, UCLA), а осенью следующего года перешёл в Калифорнийский технологический институт (California Institute of Technology, Caltech), в те годы фокусировавшийся исключительно на фундаментальных научных исследованиях под руководством нобелевского лауреата Роберта Милликена. Это были годы формирования фундамента квантовой механики, которая и стала основной специализацией Шокли. Его учебный план составил лично Лайнус Полинг — в будущем дважды нобелевский лауреат, а наибольшее влияние на Шокли, по его собственному признанию, оказали преподаватели теоретической физики Ричард Толмен и Уильям Хьюстон. Именно в университетские годы в полной мере проявилась доминирующая черта характера Шокли — его постоянное стремление к соперничеству [1533] , [1534] .

1533

Shurkin J. N. (2006). Broken Genius: The Rise and Fall of William Shockley, Creator of the Electronic Age. International series on advances in solid state electronics and technology. Palgrave Macmillan // https://books.google.ru/books?id=cRb_qzEwWWAC

1534

Moll J. (1995). Wiliam Bradford Shockley. A biographical memoir / Biographical Memoirs, Vol. 68. National Academies Press // https://books.google.ru/books?id=5NgoqLe_B5kC

В годы Второй мировой Шокли участвовал в разработке тактики стратегических бомбардировок и в других военных исследованиях. Придя к выводу, что эффективность бомбовых налётов на Японию была крайне низкой, Шокли порекомендовал «изучить альтернативы». Доподлинно неизвестно, имел ли Шокли в виду атомную бомбардировку, однако он, несомненно, был в курсе прогресса в этой области. Ещё летом 1940 г., будучи сотрудником Bell Labs, Шокли совместно с Джеймсом Фиском представил руководству доклад, в котором указал, что уран может служить источником изотопов для «грязных» бомб, а также на принципиальную возможность создания атомной бомбы. По мнению командующего ВВС США генерала Генри Арнольда, столь раннее окончание войны с Японией было в том числе личной заслугой Шокли [1535] .

1535

Shurkin J. N. (2006). Broken Genius: The Rise and Fall of William Shockley, Creator of the Electronic Age. International series on advances in solid state electronics and technology. Palgrave Macmillan // https://books.google.ru/books?id=cRb_qzEwWWAC

В начале 1945 г. Шокли создал в Bell Labs рабочую группу для разработки полупроводниковых приборов. К сентябрю того же года корпоративные исследователи, основываясь на работах Карла Ларка-Хоровица из Университета Пёрдью (Purdue University), сузили выбор перспективных проводников до двух — германия и кремния. В январе следующего года Шокли выбрал единственно возможное, как ему тогда казалось, направление разработок — гипотетический на тот момент полевой транзистор, то есть элемент, в котором внешнее электростатическое поле затвора управляет током в массиве полупроводника. Однако, вопреки расчётам, эксперименты завершились неудачно. Объяснить произошедшее смог Джон Бардин, присоединившийся к команде в октябре 1945 г., для чего ему пришлось привлечь теорию поверхностных состояний. Совместно с Уолтером Браттейном Бардин смог экспериментально подтвердить свою гипотезу. Для Шокли это было ударом по самолюбию: до войны он сам занимался поверхностными состояниями, но не учёл их в своих расчётах. Вероятно, поэтому он устранился от участия в работе над «полевым транзистором» и вновь проявил интерес к опытам Бардина и Браттейна только в конце 1947 г., когда исследователи представили руководству Bell Labs транзисторный усилитель, в основе которого лежал первый работающий точечный транзистор. Патентные эксперты компании пришли к выводу, что все личные права на изобретение принадлежат Бардину и Браттейну, но не Шокли. Осознав, что из рук выскальзывает, возможно, главное открытие его жизни, Шокли попытался надавить на Бардина и Браттейна, чтобы они отозвали свою патентную заявку. Он считал, что сможет сам запатентовать всё, начиная с полевого эффекта. Впрочем, эта идея провалилась, поскольку патент на принцип действия полевого транзистора на тот момент уже принадлежал Юлию Лилиенфельду. В итоге Шокли смог добиться от Bell Labs того, что, хотя авторство изобретения осталось за Бардином и Браттейном, в публичных заявлениях компании в качестве изобретателей указывались трое: Бардин, Браттейн и Шокли. В соответствии с внутренней инструкцией на всех фото, предназначенных для прессы, Бардин, Браттейн и Шокли появлялись вместе. В ходе первой открытой демонстрации транзистора именно Шокли отвечал на вопросы журналистов. В итоге публика утвердилась во мнении, что у первого транзистора было три изобретателя и самый значимый вклад в изобретение внёс именно Шокли.

Вся эта история, судя по всему, не на шутку уязвила самолюбие Шокли, и он с удвоенным рвением принялся за работу, вернувшись к идее создания монолитного транзистора. Слабым местом конструкции Бардина и Браттейна были нестабильные и ненадёжные точечные контакты. Результатом работы Шокли стала трёхслойная конфигурация, которая легла в основу биполярного (плоскостного) транзистора. В апреле 1949 г. сотрудники Шокли — Морган Спаркс, Гордон Тил и Боб Микуляк — вырастили в тигле первую трёхслойную p-n-p– структуру для демонстрации «транзисторного эффекта».

В январе 1950 г. Спаркс и Тил смогли изготовить трёхслойную структуру, пригодную для изготовления радиочастотных транзисторов. Через год началось серийное производство транзисторов Шокли, которые вскоре полностью вытеснили с рынка точечные транзисторы.

Несмотря на достигнутый успех Шокли, руководство Bell Labs относилось к нему с изрядной долей осторожности. Хотя он и получил должность директора по найму новых сотрудников, это не могло в полной мере удовлетворить его амбиции. Руководители компании ценили в Шокли его умение распознавать таланты, но считали, что ему нельзя доверять руководство коллективом. Из-за Шокли компанию покинул Бардин, а также десятки менее известных специалистов. Поэтому, когда Шокли объявил об уходе из Bell Labs, многие в компании вздохнули с облегчением.

Поделиться с друзьями: