Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
Если вместо динамики показателя, используемого в законе Мура, рассматривать динамику вычислительных характеристик машин — скажем, способность машины фиксированной массы выполнять в единицу времени некоторое количество стандартных операций, например арифметических действий с числами с плавающей точкой или базовых операций двоичной логики, то физические лимиты роста становятся более определёнными. Ограничение, на которое указал Мур, носит название «предела Бремерманна» — в честь американского физика немецкого происхождения Ханса-Йоахима Бремерманна, который ввёл этот предел в научный оборот в начале 1960-х гг. Данный предел скорости вычислений автономной вычислительной системы в материальной вселенной возникает вследствие действия эйнштейновского принципа эквивалентности массы и энергии, а также принципа неопределённости Гейзенберга, а его значение несложно рассчитать по формуле c2/? ? ? 1,36 x 1050 бит в секунду на килограмм (здесь c — скорость света, ? — постоянная Планка).
Развитие идеи квантовых вычислений привело на границе тысячелетий к переосмыслению лимита Бремерманна. Сегодня фундаментальный предел производительности вычислительного устройства интерпретируется как максимальная скорость, с которой система с энергетическим разбросом {\displaystyle \Delta E}??E может трансформироваться из одного различимого состояния в другое: ?t = ??/2?E. Это соотношение носит название «теорема Марголуса — Левитина» — в честь открывших его Нормана Марголуса и Льва Левитина. Данная теорема обобщает лимит Бремерманна на случай с квантовыми машинами, определяя минимальное время, чтобы перейти из одного состояния в другое, ортогональное начальному, для квантовой системы со средней энергией Е. Таким образом, скорость вычислений не может быть больше, чем 6 x 1033 двоичных операций на один джоуль энергии.
Впрочем, эти пределы довольно далеко отстоят от возможностей современных технологий. Прогресс в этой области можно оценивать по рейтингу Green500, обновляющемуся раз в два года. Этот рейтинг представляет собой список 500 наиболее производительных суперкомпьютеров в мире, отсортированный по энергоэффективности производимых ими вычислений. На июнь 2023 г. первое место в нём занимает машина Henri, производящая около 65 млрд операций с плавающей запятой в секунду на один ватт мощности [1550] . Обычно под операцией над числами с плавающей запятой понимают операции с 32-битными представлениями чисел, а один ватт равен одной джоуль-секунде. Таким образом, MN-3 производит 32 x 65 x 109 ? 2,1 x 1012 двоичных операций на один джоуль энергии. За десять последних лет этот показатель вырос в двадцать раз, то есть более чем на порядок [1551] , но до достижения предела остаётся ещё около 21 порядка.
1550
Green500 Release (2023). June 2023 / TOP500 The List // https://www.top500.org/lists/green500/2023/06/
1551
Green500 Release (2013). June 2013 / TOP500 The List // https://www.top500.org/lists/green500/2013/06/
Более неприятный сюрприз подготовила разработчикам вычислительных машин термодинамика. Дело в том, что в соответствии с принципом Ландауэра в любой вычислительной системе, независимо от её физической реализации, при потере одного бита информации выделяется теплота в количестве по крайней мере kBT ln 2, где kB — константа Больцмана, T — абсолютная температура вычислительной системы в кельвинах (мы же не хотим, чтобы наш компьютер расплавился или даже испарился в процессе работы). Выражением Шеннона — фон Неймана — Ландауэра называют минимальную энергию Ebit > ESNL = kBT ln 2. При T = 300K энергия ESNL ? 0,018 эВ ? 2,9 x 10–21 Дж. На 2006 г. транзисторы электронных вычислительных машин рассеивали примерно в 10 000 раз больше тепла, с трендом уменьшения на порядок за десятилетие [1552] . Исходя из графика в том же источнике, современная технология 7-нанометровых процессоров соответствует рассеиванию примерно в 400 раз больше лимита. Таким образом, лимит, проистекающий из принципа Ландауэра, уже не за горами. Отчасти проблему с этим лимитом могут решить обратимые вычисления, однако они требуют привлечения дополнительных объёмов памяти. В данной области тоже есть предел упаковки информации в материальный объект, который называется «предел Бекенштейна» — в честь открывшего его израильского физика Яакова Бекенштейна.
1552
Cavin R. K., Zhirnov V. V., Herr D. J. C., Avila A., Hutchby J. (2006). Research directions and challenges in nanoelectronics / Journal of Nanoparticle Research, p. 865 // https://www.researchgate.net/publication/225404354_Research_directions_and_challenges_in_nanoelectronics
Если вас интересует проблема фундаментальных лимитов вычислений, то я рекомендую книгу Пола Кокшотта, Льюиса Маккензи и Грэга Микаэльсона «Вычисление и его лимиты» (Computation and Its Limits) [1553] , в которой представлен наиболее полный анализ этой проблемы из числа известных мне.
Иной раз, когда я задумываюсь о проблеме великого молчания Вселенной (известной также под названием парадокса Ферми), мне в голову приходит мысль о том, что на самом деле инопланетяне не связываются с нами заметными нам способами, потому что среднее время существования технологической цивилизации на нашем уровне ничтожно мало. Зачем мы им? Всякая цивилизация в результате своего технологического развития строит свою собственную чёрную дыру, которая просто является вычислительной машиной, работающей с эффективностью, равной лимиту Бремерманна (в обобщении Марголуса — Левитина). Информация там упаковывается до предела Бекенштейна, поэтому для внешнего наблюдателя это и выглядит как обычная чёрная дыра. Такие машины обмениваются друг с другом информацией в виде пакетов гравитационных волн; скорее всего, и решают задачи, интересующие цивилизации на том технологическом уровне: может быть, симулируют виртуальные вселенные, запускают виртуальных птиц в виртуальных свиней… Какие ещё могут быть задачи у сверхцивилизаций?..
1553
Cockshott W. P., Cockshott P., Mackenzie L. M., Michaelson G. (2012). Computation and Its Limits. OUP Oxford // https://books.google.ru/books?id=U1Gcp1S__hEC
5.3.3 Оборудование для нейронных сетей: GPU, TPU, FPGA
Но пока мы не достигли таких сияющих высот, не время пребывать в праздности, нужно искать пути дальнейшего развития. Брутто-быстродействие машин пока что растёт примерно теми же темпами, что и количество элементов интегральных схем. Если из написанной в 2005 г. книги Реймонда Курцвейла «Сингулярность близко» (The Singularity Is Near) взять график ожидаемого роста производительности вычислительных машин (на котором также приведена и оценка производительности, необходимой для симуляции работы человеческого мозга в реальном времени) и поместить на него точки, соответствующие двум самым быстрым суперкомпьютерам в мире на середину 2023 г., то они будут находиться почти внутри нарисованного Курцвейлом «коридора».
Пиковая производительность предыдущего лидера — компьютера, созданного при участии корпорации Fujitsu для использования в Центре вычислительных наук Института физико-химических исследований (яп. ?????? Rikagaku Kenkyusho, сокращенно RIKEN, яп. ??) и получившего название «Фугаку» (Fugaku), — достигает 537 Пфлопс, то есть 537 квадриллионов арифметических операций над числами с плавающей точкой в секунду. В тесте LINPACK производительность (Rmax) этой машины составляет 442 Пфлопс. «Фугаку» переместился на второе место рейтинга в мае 2022 г., когда в Ок-Риджской национальной лаборатории (Oak Ridge National Laboratory, ORNL) был запущен в эксплуатацию новый чемпион — суперкомпьютер Frontier (более официально Hewlett Packard Enterprise Frontier) или OLCF-5 (Oak Ridge Leadership Computing Facility, Ок-Риджская ведущая вычислительная установка) — первая машина, которая преодолела порог в один экзафлопс: пиковая производительность Frontier в тестах составила около 1,680 квинтиллиона операций с плавающей запятой в секунду (превысив прогнозное значение почти на 200 Пфлопс) [1554] , [1555] .
1554
Schneider D. (2021). Frontier supercomputer to usher in exascale computing / IEEE Spectrum, 23 Dec 2021 // https://spectrum.ieee.org/exascale-supercomputing
1555
TOP500 Release (2023). June 2023 / TOP500 The List // https://www.top500.org/lists/top500/2023/06/
Современные суперкомпьютеры состоят из множества вычислительных узлов, каждый из которых объединяет множество интегральных схем. И в отличие от аналогичных машин, создававшихся несколько десятилетий назад, эти схемы способны выполнять специфические операции, позволяющие более эффективно применять коннекционистские модели.
Такими схемами стали так называемые тензорные процессоры. Бум параллельных вычислений в 1980-е гг. совпал по времени с быстрым развитием технологий СБИС. Уже тогда исследователи осуществили первые опыты по созданию специализированных интегральных схем для искусственных нейронных сетей. Распространение сигнала в сети может быть описано в виде последовательных матричных операций: сложения, умножения, применения функции активации и так далее. Поэтому микросхема, реализующая такие операции на аппаратном уровне, может обеспечить существенный прирост скорости как при тренировке, так и при исполнении обученных нейронных сетей. Поскольку матричные операции в ряде случаев можно эффективно распараллелить (например, при сложении матриц суммирование элементов в различных областях можно осуществлять одновременно), можно добиться выполнения таких операций за гораздо меньшее число тактов, чем при последовательной обработке. Фактически речь идёт о многократном ускорении расчётов без замены элементной базы и технологии производства микросхем. Специализированные для решения тех или иных задач микросхемы сегодня принято называть интегральными схемами специального назначения (application-specific integrated circuit, ASIC).
Однако в 1980-е и 1990-е нейронные сети не были достаточно популярны, чтобы производители крупносерийных микросхем озаботились массовым выпуском ASIC’ов для нейросетевых моделей. К счастью, матричные операции оказались востребованы в области компьютерной графики — аппаратные графические ускорители, по сути дела, реализовывали изрядную долю необходимого набора инструкций. Ядра GPU изначально были предназначены для физических и графических вычислений, которые включают матричные операции.
В 2000-е и начале 2010-х видеокарты стали наиболее популярным видом оборудования, используемым для обучения искусственных нейронных сетей. По мере роста нейросетевых моделей производители GPU стали обращать больше внимания на нужды их разработчиков — архитектуры новых видеокарт учитывали требования, предъявляемые такими «нецелевыми» сценариями их применения. Более того, в середине 2010-х гг. стали появляться карты, для которых решение задач машинного обучения стало главной функцией устройства.
В мае 2016 г. компания Google представила устройство под названием Tensor processing unit (TPU) — тензорный процессор. Представители компании сообщили, что к этому моменту TPU уже использовался внутри дата-центров Google более года. Процессор был специально разработан для работы с фреймворком (программной платформой) Google TensorFlow, предназначенным для решения задач в области машинного обучения. В мае 2017 г. была выпущена вторая версия TPU, в мае 2018-го — третья, а в мае 2021-го — четвёртая [1556] .
1556
Weiss T. R. (2021). Google Launches TPU v4 AI Chips / HPC wire, May 20, 2021 // https://www.hpcwire.com/2021/05/20/google-launches-tpu-v4-ai-chips/