ЖАНРЫ

Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:

Каждый уровень VQ-VAE кодирует вход независимо. Кодирование нижнего уровня (8 : 1) обеспечивает реконструкцию самого высокого качества, в то время как кодирование верхнего уровня (128 : 1) сохраняет только важную музыкальную информацию.

Каждому уровню VQ-VAE соответствует нейронная сеть для прогнозирования распределения вероятностей следующего элемента последовательности. Эти 72-слойные сети основаны на упрощённой версии блоков разреженного трансформера. Длина контекста каждой из сетей составляет 8192 элемента, что составляет для каждого из уровней 24 секунды, 6 секунд и 1,5 секунды соответственно. Модели более низкого уровня позволяют детализировать звук, внося в него более низкоуровневую структуру.

Для обучения Jukebox авторы исследования использовали набор данных, состоящий приблизительно из 1,2 млн песен (примерно половина из них была на английском языке) в сочетании с соответствующими текстами песен и метаданными (исполнитель, жанр альбома, год создания песни, распространённые ключевые слова и отметки настроения для плейлистов, содержащих песню), позаимствованными у проекта LyricWiki. Весь звук был преобразован в моно, при этом для аугментации данных исследователи добавляли в обучающую выборку несколько версий каждой из песен, немного варьируя пропорции при смешении каналов.

Сеть верхнего уровня получает на вход информацию об исполнителе и жанре песни. Помимо исполнителя и жанра, используется текст песни. Большой проблемой при этом является отсутствие хорошо согласованного набора данных: тексты песен обычно не содержат меток временного выравнивания относительно звукозаписи. То есть текстовые данные существуют в отрыве от звуковых — точно неизвестно, в какой момент поются те или иные слова (здесь могли бы помочь записи для караоке, но их сравнительно немного). Чтобы выровнять текст относительно звуковой дорожки, авторы применяют специальную модель для автоматического выравнивания, использование которой, впрочем, не всегда позволяет достичь идеальной точности.

В январе 2023 г. свою новую нейросеть для генерации музыки представили исследователи из Google. Сеть получила название MusicLM. Она способна генерировать аудиозаписи с частотой дискретизации 24 кГц на основе текстовых описаний, таких как «успокаивающая мелодия скрипки, сопровождаемая гитарным риффом с дисторшн-эффектом» [a calming violin melody backed by a distorted guitar riff]. Авторы модели также опубликовали набор данных MusicCaps, состоящий из 5 521 пары «текстовое описание — музыка» [2981] .

2981

Agostinelli A., Denk T. I., Borsos Z., Engel J., Verzetti M., Caillon A., Huang Q., Jansen A., Roberts A., Tagliasacchi M., Sharifi M., Zeghidour N., Frank C. (2023). MusicLM: Generating Music From Text // https://arxiv.org/abs/2301.11325

Несмотря на то что Jukebox и MusicLM стали большими шагами вперёд в отношении качества музыки и возможности управлять результатами композиции, разрыв между созданной ими музыкой и музыкой, сочинённой и исполненной людьми, всё ещё значителен. Хотя сгенерированные песни демонстрируют локальную музыкальную согласованность, следуют традиционным последовательностям аккордов и даже могут содержать впечатляющие соло, в них отсутствуют характерные признаки крупномасштабной семантической структуры (например, припевы). Автокодировщики нередко вносят в звуковой ряд заметный шум. Кроме того, скорость синтеза чрезвычайно медленная. В экспериментах авторов модели для создания одной минуты звука требовалось около 9 часов, поэтому Jukebox пока что нельзя использовать в интерактивных приложениях. Помимо этого, модель может сочинять песни только на английском языке. И всё же в числе отобранных авторами исследования композиций есть замечательные образцы. Чего стоят хотя бы ожившие голоса Луи Армстронга и Фрэнка Синатры, поющие современные тексты в своём узнаваемом стиле! При этом прелесть ИИ заключается в том, что в будущем результаты будут только улучшаться. Талантливый композитор или исполнитель не столь долговечен, как человеческие знания и технологии. Композиторы и исполнители современности не всегда могут достичь столь же выдающихся результатов, как их предшественники, в отношении же моделей машинного обучения технический прогресс обещает нам движение только вперёд, без отступлений и компромиссов.

6.6.12 Машина создаёт всё: мультимодальные модели

В конце 2020 г. исследователи из Microsoft обнародовали работу, посвящённую созданию модели M3P (Multitask Multilingual Multimodal Pre-training, Многозадачное многоязычное мультимодальное предобучение) [2982] . Здесь мы снова, как и в случае с моделью Z-code M3, видим в названии три M, но теперь третья M обозначает не MoE, а мультимодальность. Таким образом, вероятно, в отношении некоторых моделей уже сейчас можно употребить термин M4: например, WuDao 2.0 является одновременно многозадачной, многоязычной, мультимодальной и MoE-моделью.

2982

Ni M., Huang H., Su L., Cui E., Bharti T., Wang L., Gao J., Zhang D., Duan N. (2020). M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-training // https://arxiv.org/abs/2006.02635

Вышедшая в мае 2022 г. работа [2983] исследователей из DeepMind под лаконичным названием «Универсальный агент» [A Generalist Agent] представила миру модель под названием Gato (gato по-испански означает «кот»; в статье это название никак не расшифровывается). Модель обучали выполнению 604 различных задач, в числе которых ведение диалога, написание подписей к изображениям, игра в игры Atari и даже складывание блоков при помощи роборуки. Хотя модель по современным меркам была весьма небольшой (всего 1,2 млрд параметров), она смогла превзойти людей в 450 из 604 вышеупомянутых задач. Архитектурно Gato — это трансформер, в котором словарь включает в себя токены, относящиеся к разным модальностям (фрагменты текстовых последовательностей, фрагменты изображений, действия роборуки и т. д.). Способность Gato управлять различными устройствами подводит нас к ещё одной букве M, а именно к такому свойству модели, как «мультивоплощение» [multi-embodiment]. Если бы Gato была ещё и MoE-моделью, то её смело можно было бы отнести к типу M5.

2983

Reed S., Zolna K., Parisotto E., Colmenarejo S. G., Novikov A., Barth-Maron G., Gimenez M., Sulsky Y., Kay J., Springenberg J. T., Eccles T., Bruce J., Razavi A., Edwards A., Heess N., Chen Y., Hadsell R., Vinyals O., Bordbar M., de Freitas N. (2022). A Generalist Agent // https://arxiv.org/abs/2205.06175

Эстафету исследователей из DeepMind подхватили их коллеги из Google. Немного раньше они экспериментировали с бимодальной текстово-визуальной моделью под названием PaLI (Pathways Language and Image model, Языковая и визуальная модель на основе системы Pathways) [2984] , и, взяв за основу свою большую (540 млрд параметров) языковую модель PaLM, они расширили её, добавив новые модальности (изображения, а также модальности для сенсоров и действий). Итоговая модель с 562 млрд параметров получила название PaLM-E, где буква E является сокращением от слова embodied [воплощённая] [2985] .

2984

Chen X., Wang X., Changpinyo S., Piergiovanni A., Padlewski P., Salz D., Goodman S., Grycner A., Mustafa B., Beyer L., Kolesnikov A., Puigcerver J., Ding N., Rong K., Akbari H., Mishra G., Xue L., Thapliyal A., Bradbury J., Kuo W., Seyedhosseini M., Jia C., Ayan B. K., Riquelme C., Steiner A., Angelova A., Zhai X., Houlsby N., Soricut R. (2022). PaLI: A Jointly-Scaled Multilingual Language-Image Model // https://arxiv.org/abs/2209.06794

2985

Driess D., Xia F., Sajjadi M. S. M., Lynch C., Chowdhery A., Ichter B., Wahid A., Tompson J., Vuong Q., Yu T., Huang W., Chebotar Y., Sermanet P., Duckworth D., Levine S., Vanhoucke V., Hausman K., Toussaint M., Greff K., Zeng A., Mordatch I., Florence P. (2023). PaLM-E: An Embodied Multimodal Language Model // https://arxiv.org/abs/2303.03378

В конце 2022 г. исследователи из Google порадовали общественность ещё одной многозадачной трансформерной моделью — RT-1 (Robotic Transformer-1, Трансформер для роботов — 1) [2986] , предназначенной для управления роботом, решающим задачи в реальном мире. В июле 2023 г. была представлена вторая версия модели — RT-2 [2987] , а в начале октября 2023 г. был опубликован набор данных под названием RT-X [2988] . Он был создан DeepMind совместно с партнёрами из 33 академических лабораторий и содержит в себе примерно миллион примеров решений 22 моделями роборук 150 000 задач, относящихся к более чем 500 навыкам. Исследователи смогли показать, что добавление в обучающую выборку трансформерной модели данных, относящихся не только к целевому, но и к другим типам роботов, приводит к существенному росту доли успешно решаемых задач. Чтобы исследовать этот эффект передачи знаний, авторы изучили работу роборуки под управлением модели RT-2, обученной с привлечением данных, полученных на других роборуках. Оказалось, что этот подход позволяет примерно в три раза повысить долю успешных решений на новых для системы задачах.

2986

Brohan A., Brown N., Carbajal J., Chebotar Y., Dabis J., Finn C., Gopalakrishnan K., Hausman K., Herzog A., Hsu J., Ibarz J., Ichter B., Irpan A., Jackson T., Jesmonth S., Joshi N. J., Julian R., Kalashnikov D., Kuang Y., Leal I., Lee K., Levine S., Lu Y., Malla U., Manjunath D., Mordatch I., Nachum O., Parada C., Peralta J., Perez E., Pertsch K., Quiambao J., Rao K., Ryoo M., Salazar G., Sanketi P., Sayed K., Singh J., Sontakke S., Stone A., Tan C., Tran H., Vanhoucke V., Vega S., Vuong Q., Xia F., Xiao T., Xu P., Xu S., Yu T., Zitkovich B. (2022). RT-1: Robotics Transformer for Real-World Control at Scale // https://arxiv.org/abs/2212.06817

2987

Brohan A., Brown N., Carbajal J., Chebotar Y., Chen X., Choromanski K., Ding T., Driess D., Dubey A., Finn C., Florence P., Fu C., Arenas M. G., Gopalakrishnan K., Han K., Hausman K., Herzog A., Hsu J., Ichter B., Irpan A., Joshi N., Julian R., Kalashnikov D., Kuang Y., Leal I., Lee L., Lee T. E., Levine S., Lu Y., Michalewski H., Mordatch I., Pertsch K., Rao K., Reymann K., Ryoo M., Salazar G., Sanketi P., Sermanet P., Singh J., Singh A., Soricut R., Tran H., Vanhoucke V., Vuong Q., Wahid A., Welker S., Wohlhart P., Wu J., Xia F., Xiao T., Xu P., Xu S., Yu T., Zitkovich B. (2023). RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control // https://arxiv.org/abs/2307.15818

2988

Vuong Q., Sanketi P. (2023). Scaling up learning across many different robot types / DeepMind blog, October 3, 2023 // https://www.deepmind.com/blog/scaling-up-learning-across-many-different-robot-types

Нейросети, используемые для моделирования мультимодальных последовательностей, в последнее время принято обозначать термином MLLM (Multimodal Large Language Models, Мультимодальные большие языковые модели). За последние годы появилось довольно много MLLM, помимо PaLI тут стоит упомянуть вышедшие в 2023 г. FROMAGe [2989] от Руслана Салахутдинова и его команды из Университета Карнеги — Меллона, Qwen-VL от исследователей из Alibaba Cloud [2990] , а также Kosmos-1 [2991] и Kosmos-2 [2992] от исследователей из Microsoft.

2989

Koh J. Y., Salakhutdinov R., Fried D. (2023). Grounding Language Models to Images for Multimodal Inputs and Outputs // https://arxiv.org/abs/2301.13823

2990

Bai J., Bai S., Yang S., Wang S., Tan S., Wang P., Lin J., Zhou C., Zhou J. (2023). Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities // https://arxiv.org/abs/2308.12966

2991

Huang S., Dong L., Wang W., Hao Y., Singhal S., Ma S., Lv T., Cui L., Mohammed O. K., Patra B., Liu Q., Aggarwal K., Chi Z., Bjorck J., Chaudhary V., Som S., Song X., Wei F. (2023). Language Is Not All You Need: Aligning Perception with Language Models // https://arxiv.org/abs/2302.14045

2992

Peng Z., Wang W., Dong L., Hao Y., Huang S., Ma S., Wei F. (2023). Kosmos-2: Grounding Multimodal Large Language Models to the World // https://arxiv.org/abs/2306.14824

В универсальности дизайна Gato и PaLM-E и RT-1 усматривается глубинная аналогия с нервной системой живых организмов. Соматосенсорная кора нашего мозга получает на вход поток сигналов от сенсорных систем организма, а моторная кора, в свою очередь, генерирует импульсы для наших мышц. В некотором роде наш мозг, подобно генеративной трансформерной модели, также решает задачу продолжения последовательности, в данном случае — последовательности электрохимических импульсов длиною в нашу жизнь.

Для того чтобы модели могли работать с самыми разными модальностями представления данных, активно исследуются подходы, при которых модель должна самостоятельно определять пространственную структуру данных. В случае с текстом следующий токен последовательности зависит более всего от предыдущего; в случае чёрно-белого изображения, записанного в виде последовательности чисел, представляющей собой градации серого цвета, следующий токен последовательности будет примерно одинаково сильно зависеть как от предыдущего токена, так и от токена, отстоящего от текущего на число позиций, равное ширине изображения (т. е. цвет пикселя примерно одинаково зависит от пикселя, расположенного слева от него, и от пикселя, расположенного сверху); в случае же цветного изображения, представленного путём разложения цвета на несколько цветовых каналов, появится ещё и зависимость между токенами, относящимися к разным каналам. Почему бы не поручить нейросетевой модели самой разбираться с тем, какие именно пространственные зависимости существуют в используемой последовательности? Тогда она сможет эффективно работать и с разными типами информации, и с разными способами её представления. Для решения этой задачи исследователи из DeepMind разработали модель под названием Perceiver (дословно: «Восприниматель») [2993] , а также её усовершенствованную версию — Hierarchical Perceiver (Иерархический восприниматель) [2994] . В этих исследованиях мы видим, как выстраивается мостик между такими, казалось бы, частными задачами, как генерация изображений или генерация текста, и задачей создания систем общего искусственного интеллекта.

2993

Jaegle A., Gimeno F., Brock A., Zisserman A., Vinyals O., Carreira J. (2021). Perceiver: General Perception with Iterative Attention // https://arxiv.org/abs/2103.03206

2994

Carreira J., Koppula S., Zoran D., Recasens A., Ionescu C., Henaff O., Shelhamer E., Arandjelovic R., Botvinick M., Vinyals O., Simonyan K., Zisserman A., Jaegle A. (2022). Hierarchical Perceiver // https://arxiv.org/abs/2202.10890

Поделиться с друзьями: