Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
Опираясь на выученные представления, системы ИИ должны научиться рассуждать и действовать. Почему, с точки зрения Лекуна, важно при этом, чтобы в основе обучения лежали именно градиентные методы (вторая задача)? Именно градиентным методам мы во многом обязаны началом революции глубокого обучения. Возможность представить задачу в виде, который позволяет на каждом шаге оптимизации определять наиболее перспективное направление поиска, даёт возможность существенно сэкономить время для нахождения решения. Конечно, оптимум можно найти и путём случайных блужданий по пространству возможных решений, но вычислительные затраты при таком подходе обычно непомерно велики, особенно в случае задач, относящихся к такой сложной среде, как реальный мир. Хотя Лао-цзы и говорил: «Путь в тысячу ли начинается с первого шага», но важно, чтобы сделанные шаги приближали нас к цели, а не отдаляли от неё. Способность правильно определять направление легко может превратить бесцельное блуждание длиною в жизнь в получасовую прогулку. Однако определить правильное направление часто бывает непросто, и тут нам на помощь приходит способность находить промежуточные цели. Именно к ней отсылает нас третья проблема, обозначенная Лекуном: необходимость научить системы ИИ строить иерархии планов. Многие интеллектуальные задачи подобны огромному пирогу — съесть их можно только по частям. Но для этого важно освоить высокое искусство разделки пирога, в котором вполне преуспели люди и которое пока что с трудом даётся системам ИИ.
В конце июня 2022 г. на сайте OpenReview появилась первая версия статьи Лекуна под названием «Путь к автономному машинному интеллекту» [A Path Towards Autonomous Machine Intelligence] [3306] . Эта статья обобщает и систематизирует взгляды учёного по обозначенному в заголовке вопросу. Конечно, многие из идей, изложенных в статье, не являются изобретением самого Лекуна. В обсуждении, возникшем под текстом статьи, можно, в частности, найти комментарии Юргена Шмидхубера, который проделал большую работу по установлению генезиса высказываемых Лекуном идей в истории современной науки. Некоторые из них появились уже в работах, написанных в 1980-е гг., некоторые изложены в работах самого Шмидхубера, написанных в последние три десятилетия. Однако будет неправильным сказать, что вклад Лекуна заключался только в сборе и систематизации идей. Например, Лекун сделал серьёзный шаг в сторону постановки конкретного вычислительного эксперимента, предложив в качестве шага к будущему AGI конкретные классы нейросетевых архитектур под не совсем благозвучными для русского уха названиями JEPA (Joint Embedding Predictive Architectures, Предсказывающие архитектуры [на основе векторных] вложений) и Hierarchical JEPA (Иерархические JEPA). В 2023 г. появились первые функциональные модели, относящиеся к классу JEPA, например созданная при участии самого Лекуна I-JEPA (Image-based JEPA; JEPA, базирующаяся на изображениях) [3307] . Лекун резюмирует масштабную задачу ИИ на следующее десятилетие в форме одного вопроса: как сформировать у машин способность выучивать модели, которые смогут оперировать неопределённостью и отражать реальный мир во всей его сложности?
3306
LeCun Y. (2022). A Path Towards Autonomous Machine Intelligence // https://openreview.net/forum?id=BZ5a1r-kVsf
3307
Assran M., Duval Q., Misra I., Bojanowski P., Vincent P., Rabbat M., LeCun Y., Ballas N. (2023). Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture // https://arxiv.org/abs/2301.08243
Для Лекуна ответ начинается с методов самообучения. Действительно, сегодня это одна из самых горячих тем в области ИИ. Но давайте посмотрим и на другие важные аспекты развития технологий в этой сфере.
8.2 Облачные технологии и распределённое обучение
Вижу Землю!.. Различаю складки местности, снег, лес… Наблюдаю облака… Красиво. Красота!
Одним из не совсем очевидных последствий развития нейросетевых моделей стал ренессанс систем централизованной обработки данных. На рубеже тысячелетий мир, казалось, окончательно забыл об эпохе мейнфреймов. Разработчики и пользователи окончательно пересели на персоналки, а машинное время и оборудование стали пренебрежимо дешёвыми по сравнению с рабочей силой программистов. Мир, в котором месячная заработная плата оператора ЭВМ сопоставима с себестоимостью часа работы машины (вспомним рассуждения сторонников «программирования в содержательных обозначениях» в 1960-е гг.), стал чем-то легендарным и не имеющим никакого отношения к нынешним реалиям. Поэтому для многих оказалось полной неожиданностью, что некоторые модели теперь требуют для обучения такого оборудования, которое оказалось не по карману разработчикам, несмотря на беспрецедентно высокий уровень зарплат в отрасли. Особенно очевидно это стало с появлением моделей на основе трансформеров — приспособленность этой архитектуры к параллельным вычислениям позволила буквально «закидывать» некоторые задачи высокопроизводительным тензорным «железом». Впрочем, нейросетевые модели изначально были предназначены для параллельных вычислений. Неслучайно у истоков революции глубокого обучения стояла исследовательская группа PDP (Parallel distributed processing, то есть «Параллельные распределённые вычисления»).
Новой инкарнацией мейнфреймов стали облачные сервисы, предоставляющие пользователям доступ к высокопроизводительному тензорному оборудованию — к быстрым GPU и TPU. Google Cloud AI, Amazon Web Services (AWS), Azure от Microsoft, IBM Watson, российские GPU Super Cloud от #CloudMTS, Yandex DataSphere, ML Space от «Сбера» — все эти сервисы относятся к числу так называемых платформ MLaaS (Machine Learning as a Service, Машинное обучение как сервис). По сути дела, они обеспечивают совместный доступ к мощным аппаратным платформам на основе принципа разделения времени. Себестоимость обучения некоторых больших моделей машинного обучения перевалила за миллион долларов. Себестоимость обучения GPT-3, по оценкам экспертов, достигла 4,6 млн долларов [3308] , что примерно на три порядка больше годовой зарплаты рядового специалиста из страны третьего мира, занятого разметкой данных для задач машинного обучения.
3308
Dickson B. (2020). The GPT-3 economy / TechTalks, September 21, 2020 // https://bdtechtalks.com/2020/09/21/gpt-3-economy-business-model/
Если первое поколение «железа» для MLaaS представляло собой просто множество серверов, оснащённых GPU или TPU, то современные решения в этой области основаны на специализированных вычислительных узлах, связанных между собой сверхбыстрыми каналами обмена данными. Вслед за MLaaS появились платформы GaaS (Games as a Service, Игры как сервис), предоставляющие любителям компьютерных игр доступ к высокопроизводительному игровому оборудованию — главным образом всё к тем же GPU. Таким образом, высокая стоимость оборудования стимулировала развитие новых практик его использования. Важным фактором здесь стал и бум криптовалют, также увеличивший потребность в вычислительных мощностях и подстегнувший рост цен на высокопроизводительное, в том числе тензорное, «железо». Развитие аппаратных платформ, в свою очередь, подстегнуло дальнейшие эксперименты со сверхбольшими моделями. Трудно сказать, куда именно приведёт наметившийся тренд. Возможно, к превращению всей Солнечной системы в одно гигантское вычислительное устройство, частью которого станут и тела людей. Кто знает, быть может, некоторые чёрные дыры — это гигантские гиперкомпьютеры сверхцивилизаций, в которых, как в коконах, сокрыты бесчисленные виртуальные миры, в которых дремлют потомки разумных видов, некогда подобных нашему.
Впрочем, рука об руку с централизацией вычислений в машинном обучении идут процессы, направленные на его децентрализацию. Для их обозначения обычно используют термин «федеративное обучение» [federated learning] (или «совместное обучение» [collaborative learning]). К этой сфере относятся методы машинного обучения, которые используют вычисления на децентрализованных устройствах, каждое из которых содержит некоторое подмножество обучающей выборки. Федеративное обучение позволяет нескольким участникам создавать общую модель машинного обучения без непосредственного обмена данными, что даёт возможность решать такие важные проблемы, как конфиденциальность и безопасность данных, разграничивать доступ к отдельным типам данных или отдельным прецедентам обучающей выборки. Федеративное обучение активно используется в ряде отраслей, таких как телекоммуникации, интернет вещей, фармацевтика и оборона. В настоящее время разработано множество разновидностей и специализированных алгоритмов федеративного обучения. Они позволяют системам машинного обучения преодолевать барьеры, связанные с многочисленными ограничениями на доступ к данным, необходимым для создания эффективных моделей. Пока сами эти барьеры существуют, будут развиваться и технологии, позволяющие машинному обучению выжить в условиях информационной раздробленности. Кто знает, быть может, будущее Земли будет больше похоже на быт азимовской планеты Солярия, жители которой избегают физических контактов и живут в отдалённых друг от друга укреплённых поместьях, обслуживающихся роботами [3309] . По крайней мере, в эпоху пандемии коронавируса мы, кажется, сделали шаг именно в эту сторону.
3309
Asimov A. (2016). Foundation and Earth. HarperCollins Publishers // https://books.google.ru/books?id=0DW0rQEACAAJ
Так или иначе, как централизованные, так и распределённые схемы машинного обучения будут продолжать своё развитие в ближайшей перспективе, а вместе с ними будут развиваться соответствующие алгоритмы и модели.
8.3 Иллюзии нейросетей
Что если мир — иллюзия и ничего нет? Тогда я определённо переплатил за ковёр.
3310
* Пер. А. Ливерганта.
Не исключено, что серьёзной проблемой в некоторых областях применения нейросетевых моделей может быть возможность осуществления «состязательных атак» [adversarial attacks], позволяющих вынудить модель выдать неверный ответ. То, что модели машинного зрения могут ошибаться, не являлось ни для кого секретом. Также большой неожиданностью не стал тот факт, что изображение можно модифицировать таким образом, чтобы спровоцировать у нейросетевой модели своеобразную оптическую иллюзию. Например, на изображении кошки, приведённом ниже, обученная сеть Inception V3 видит гуакамоле (блюдо мексиканской кухни) [3311] , [3312] , [3313] .
3311
Athalye A., Engstrom L., Ilyas A., Kwok K. (2017). Fooling Neural Networks in the Physical World with 3D Adversarial Objects // https://www.labsix.org/physical-objects-that-fool-neural-nets/
3312
Athalye А., Carlini N., Wagner D. (2018). Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples // https://arxiv.org/abs/1802.00420
3313
Athalye A., Carlini N., Haddad D., Patel S. (2018). Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples // https://github.com/anishathalye/obfuscated-gradients
Такие фокусы становятся возможны благодаря тому, что веса обученной сети находятся в открытом доступе, поэтому остаётся только решить нехитрую задачу оптимизации — найти по возможности минимальную матрицу изменений пикселей исходного изображения, чтобы максимизировать ошибку сети. По сути, этот процесс представляет собой обучение искажающей модели, которая противодействует модели, на которую осуществляется атака, с той лишь разницей, что веса атакуемой модели остаются неизменными, поэтому у неё в этом состязании просто нет шансов.
Впрочем, до некоторых пор проблему не признавали особенно серьёзной. В конце концов, если наклонить приведённое выше изображение всего на несколько градусов, оптическая иллюзия исчезает и сеть успешно распознаёт на картинке кошку.
Рис. 180. Пример верной классификации сетью Inception V3 немного повёрнутого изображения кошки
Ранее предполагалось, что для успешной атаки на систему машинного зрения необходимо предъявить ей модифицированный стимул в неискажённом виде, что в реальном мире представлялось затруднительным — параметры освещения, наклона картинки, расстояния до неё почти невозможно повторить без изменений. Однако в 2017 г. авторы работы «Синтез робастных состязательных примеров» (Synthesizing Robust Adversarial Examples) [3314] (под «робастностью» подразумевается устойчивость модели к помехам) смогли продемонстрировать возможность атаки, устойчивой к подобным искажениям. При помощи 3D-принтера они изготовили пластмассовую черепашку, на панцирь которой был нанесён специальный узор, который заставлял нейросеть Inception V3 опознавать её как винтовку.
3314
Athalye A., Engstrom L., Ilyas A., Kwok K. (2017). Synthesizing Robust Adversarial Examples // https://arxiv.org/abs/1707.07397
Ещё один артефакт, напоминающий по виду бейсбольный мяч, благодаря покрывавшим его поверхность пятнам попеременно классифицировался сетью то как «бейсбол», то как «эспрессо».