ЖАНРЫ

Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:

Но теперь технологии будут оживлены. У системы будет потенциальная свобода действий, если вы её дадите. То, что мы создаём инструменты, обладающие такой, знаете ли, свободой воли, является настоящим шагом в истории нашего вида [2734] .

Современные NLP-модели, основанные на трансформерах, существенно раздвинули границы доступного машинам в области естественного языка, в том числе в отношении творческих задач. При этом возможности машин во многом остаются недоиспользованными — из-за нехватки специалистов и вычислительных мощностей многие идеи пока что повисают в воздухе. Да и те, кто генерирует идеи, не всегда в курсе возможностей, предоставляемых современными моделями. Такая ситуация сложилась в силу быстрого прогресса в области обработки естественного языка. Статьи, рассказы и стихи, написанные машинами, будут всё в большей мере становиться частью нашей обыденной жизни уже в ближайшие десятилетия, и нам ещё предстоит осознать то, как именно это изменит человеческое общество.

2734

Heaven W. D. (2023). DeepMind’s cofounder: Generative AI is just a phase. What’s next is interactive AI / MIT Technology Review, September 15, 2023 // https://www.technologyreview.com/2023/09/15/1079624/deepmind-inflection-generative-ai-whats-next-mustafa-suleyman/

При этом важно заметить, что появление эффективных генеративных текстовых моделей вовсе не означает, что машины заменят писателей или поэтов. Куда более реалистичным видится сценарий, в котором такие модели будут использоваться писателями и поэтами для повышения производительности и улучшения качества своего труда. Уже много лет люди, профессионально занимающиеся написанием текстов, используют в работе электронных помощников, и это не только текстовые редакторы и системы проверки орфографии. Например, для авторов, занятых написанием русскоязычных текстов в информационном стиле (например, описаний товаров и услуг для коммерческих сайтов), существует сервис «Главред» (glvrd.ru), который позволяет отследить стилистические огрехи или оценить читаемость текста. Для тех, кто пишет на английском языке, есть онлайн-сервис Grammarly (grammarly.com). Ежедневно к его услугам прибегает 30 млн человек [2735] . Есть и другие инструменты, которыми с удовольствием пользуются писатели. Для тех, кто работает над объёмными литературными произведениями, существуют программы (такие, например, как WriteItNow или WriteWay), помогающие писателю выстраивать сюжетную линию, формировать календарь событий, вести учёт меняющихся во времени отношений между героями.

2735

https://www.grammarly.com/about

NLP-модели могут помогать не только писателю или редактору, но и читателю. Мы уже привыкли к таким инструментам, как поиск по текстовым документам или автоперевод, но благодаря достижениям в области обработки естественного языка в последнее десятилетие появились новые полезные возможности. Например, приложение Summly, созданное ещё в начале 2010-х гг., стало одним из первых инструментов для суммаризации (реферирования) текстов: оно позволяло сжать длинный текст до нескольких ключевых предложений. Summly может читать за вас новости, «отжимать из них воду» и создавать короткие дайджесты длиной не более 400 слов. Интересно, что разработал эту систему английский школьник Ник Д’Алойсио. В 2013 г. основанный школьником стартап приобрела компания Yahoo!, и сумма сделки, по слухам, составила 30 млн долларов [2736] . В январе 2014 г. Д’Алойсио объявил о запуске Yahoo News Digest [Дайджест новостей Yahoo] — усовершенствованной версии Summly. Это приложение предоставляло мобильным пользователям сводку важных новостей дня в форме дайджеста, выходящего два раза в день [2737] . В том же году приложение завоевало престижную награду Apple Design Award [2738] . В наши дни существует множество инструментов для суммаризации текстов на разных языках [2739] , [2740] , в том числе и на русском (один из таких инструментов был разработан нашей командой [2741] ). Обычно их основой являются большие языковые трансформерные модели.

2736

Swisher K. (2013). Yahoo Paid $30 Million in Cash for 18 Months of Young Summly Entrepreneur’s Time / All Things D, March 25, 2013 // http://allthingsd.com/20130325/yahoo-paid-30-million-in-cash-for-18-months-of-young-summly-entrepreneurs-time/

2737

Newton C. (2014). Yahoo's sleek News Digest app swims against the stream / The Verge, Jan 8, 2014. // https://www.theverge.com/2014/1/7/5284300/yahoos-sleek-news-digest-app-swims-against-the-stream

2738

Panzarino M. (2014). Yahoo Wins Another Apple Design Award For News Digest App / TechCrunch, June 3, 2014. // https://techcrunch.com/2014/06/02/yahoo-wins-another-apple-design-award-for-news-digest-app/

2739

Text Summarization (2023). // https://paperswithcode.com/task/text-summarization

2740

Yadav D., Desai J., Yadav A. K. (2021). Automatic Text Summarization Methods: A Comprehensive Review // https://arxiv.org/abs/2204.01849

2741

Ахметгареева А. (2022). Практические применения генеративных моделей: как мы делали суммаризатор текстов / Хабр, 19 мая 2022. // https://habr.com/ru/companies/sberdevices/articles/666420/

В последние годы получила развитие ещё одна функция языковых моделей, представляющая пользу как для читателей, так и для писателей. Речь идёт о проверке фактов (фактчекинге). Современные языковые модели способны обнаруживать в текстах сомнительные с точки зрения достоверности или спорные утверждения, сверяя их с информацией источников, считающихся достойными доверия [2742] , [2743] , [2744] , [2745] , [2746] , [2747] . Такие инструменты могут предохранять читателей от заблуждений, а писателям (журналистам, блогерам и т. д.) позволяют создавать более качественный и проверенный контент.

2742

Kuzmin G., Larionov D., Pisarevskaya D., Smirnov I. (2020). Fake news detection for the Russian language // https://aclanthology.org/2020.rdsm-1.5.pdf

2743

Hoy N., Koulouri T. (2021). A Systematic Review on the Detection of Fake News Articles // https://arxiv.org/abs/2110.11240

2744

Xu W., Wu J., Liu Q., Wu S., Wang L. (2022). Evidence-aware Fake News Detection with Graph Neural Networks // https://arxiv.org/abs/2201.06885

2745

Ghadiri Z., Ranjbar M., Ghanbarnejad F., Raeisi S. (2022). Automated Fake News Detection using cross-checking with reliable sources // https://arxiv.org/abs/2201.00083

2746

Gong S., Sinnott R. O., Qi J., Paris C. (2023). Fake News Detection Through Graph-based Neural Networks: A Survey // https://arxiv.org/abs/2307.12639

2747

Singhania S., Fernandez N., Rao S. (2023). 3HAN: A Deep Neural Network for Fake News Detection // https://arxiv.org/abs/2306.12014

Языковые модели также можно использовать для выявления спама или атак мошенников.

Словом, по мере развития генеративных текстовых моделей эпоха литературного творчества людей вовсе не заканчивается, а скорее переходит на новый уровень — так же, как это произошло с появлением печатного станка или текстовых редакторов для персональных компьютеров.

Во многом дальнейшая судьба таких сервисов, как ChatGPT или GigaChat, зависит от того, как общество воспринимает такие системы и как относится к ним. На мой взгляд, чрезвычайно важно прийти к пониманию того, чем современные генеративные нейросетевые модели являются и чем они совершенно точно не являются. Они — инструмент для генерации контента, подобный графическим или текстовым редакторам, но куда более продвинутый. Раньше людям приходилось рисовать всё от руки, самим выполнять штриховку и закраску, сегодня же этот труд можно переложить на плечи машины. Генеративные модели — это чрезвычайно удобные инструменты, которые потенциально могут нам помочь решить немало задач, сэкономив уйму времени. Это средства автоматизации, направленные на снижение трудозатрат при выполнении тех или иных задач. Это инструмент усиления возможностей нашего интеллекта: человек с калькулятором будет в большинстве случаев считать куда эффективнее коллеги без него, а человек с разумом, усиленным большой генеративной нейросетью, выполнит многие интеллектуальные задачи лучше человека, который не использует такой продвинутый инструмент. Также современные нейросети — это средства для генерации развлекательного контента. Такого рода системы сегодня вовсю используются просто для развлечения, генерации мемов, шуток. Такое направление нельзя недооценивать: движителем развития технологий во все времена часто становились развлечения. Вдобавок нейросетевые модели — демонстрация возможностей современных технологий искусственного интеллекта всему человечеству, включая инвесторов, учёных, специалистов из смежных областей науки и технологии.

При этом подобные системы не являются средствами массовой информации или официальными источниками мнений своих создателей. Высказывания ChatGPT не являются официальной точкой зрения компании OpenAI. Генеративные нейросети не являются сверхразумами, священными оракулами, источниками истины. Напрасно ждать от систем искусственного интеллекта, что они станут арбитрами, которые решат все проблемы человечества и отсеют правильные мнения от неправильных. Ни одну нынешнюю нейросетевую модель нельзя считать искусственной личностью — у них нет самосознания, нет собственных целей. И разумеется, нейросети — не средства пропаганды тех или иных идей. Множество людей, как только появилась возможность, бросилось задавать ChatGPT вопросы с целью выявления её идейных предпочтений. Таковы уж люди: в баталиях вокруг нейросетей мы наблюдаем отражение человеческого общества, ведь генеративные модели обучались на данных, собранных людьми. Иногда зеркало кого-то пугает, но к отражению нужно просто привыкнуть, оценить ту пользу, которую можно извлечь из наличия зеркал. И это, безусловно, вызов человечеству: сумеет ли оно извлечь из такого совершенного инструмента, как генеративные модели, пользу, а не вред?

6.6.7 Машина как художник. Первые шаги: раскраска и стилизация

Впрочем, если литературные успехи машин пока ещё не столь известны широкой публике, об их достижениях в изобразительном искусстве знают сегодня почти все. Возможно, дело тут в большей наглядности результатов или в том, что революция глубокого обучения началась именно с успехов в обработке изображений. А может быть, дело в том, что здесь более заметен быстрый и внушительный прогресс — какие-никакие тексты машины умели писать ещё в эпоху GOFAI, а вот успехи с генерацией изображений были куда более скромными. Конечно, основываясь на генераторе псевдослучайных чисел и небольшом наборе графических примитивов (точка, отрезок, окружность и т. п.), можно было создавать различные узоры, напоминающие картинки калейдоскопа. В принципе, и сам калейдоскоп вполне можно считать специализированной машиной для генерации изображений. Название «калейдоскоп» происходит от греческих слов ????? — красивый, ????? — вид и ?????? — смотрю, наблюдаю. Это устройство стало побочным продуктом опытов с поляризацией света, которые проводил в начале XIX в. шотландский физик Дейвид Брюстер. Брюстер запатентовал калейдоскоп в 1816 г., и с тех пор это удивительное в своей простоте устройство начало триумфальное шествие по миру.

Со временем было предложено множество модификаций калейдоскопа, а появление «алгоритмических калейдоскопов» открыло совершенно новые возможности. Теперь любители калейдоскопического жанра не были больше скованы ограничениями механических систем. В какой-то мере к этому же жанру можно отнести моду на визуализацию различных математических функций. Особенной популярностью здесь пользуются фракталы — множества, обладающие свойством самоподобия. Множество Мандельброта, множество Жюлиа, треугольник и ковёр Серпинского, губка Менгера, кривые Коха, Пеано, Леви и Гильберта, а также многие другие математические формализмы способны порождать удивительные узоры, приятные глазу. Многие природные объекты обладают структурой, напоминающей фракталы (поэтому их часто называют квазифракталами), — снежинки, кораллы, морские звёзды и ежи, ракушки, некоторые растения и их цветы. В общем, совмещение фрактальных моделей с продвинутыми средствами визуализации, безусловно, способно подарить нам множество весьма изящных произведений генеративного искусства. Однако отношения машин с реалистическим искусством в эпоху GOFAI не сложились. Заметный шаг вперёд удалось сделать лишь в эру глубокого обучения.

Дети, постигающие премудрости изобразительного искусства, от каляк-маляк обычно переходят к книжкам-раскраскам. Если нейронная сеть способна распознавать на изображениях различные объекты, то, быть может, она сможет и раскрасить чёрно-белое изображение? Действительно, при работе с раскраской ключевым умением является именно узнавание объекта. Опознав на картинке солнце, мы берём жёлтый фломастер, а увидев ёлочку — зелёный. Получить обучающую выборку в эпоху цифровой фотографии и интернета проще простого, достаточно взять множество цифровых изображений и обесцветить их, получив тем самым множество пар бесцветных и цветных картинок. Неудивительно, что число работ по нейросетевой раскраске изображений стало быстро увеличиваться по мере роста популярности свёрточных нейронных сетей.

В начале 2016 г. свою первую нейросетевую модель для раскраски фотографий представил [2748] на суд общественности американский программист Райан Даль, известный в компьютерном мире как первоначальный разработчик популярной программной платформы Node.js. Даль использовал для раскраски модель VGG-16, предварительно обученную распознаванию изображений из массива ImageNet. Ему даже не пришлось переобучать модель — вместо этого он воспользовался идеей, предложенной уже упоминавшимися нами создателями сети ZFNet Робом Фергюсом и Мэтью Зейлером. Дело в том, что обученная свёрточная сеть, предназначенная для решения задачи классификации, помимо собственно метки класса, способна предоставить нам некоторую дополнительную информацию. Для каждого пикселя входного изображения можно извлечь соответствующие ему значения функций активации из разных слоёв сети. Эта идея была окончательно оформлена в 2015 г. авторами статьи [2749] «Гиперколонки для [задач] сегментации объектов и точной локализации» (Hypercolumns for Object Segmentation and Fine-grained Localization). В этой работе предлагается использовать вектор, составленный из значений функций активации из разных слоёв, соответствующий каждому пикселю, в качестве источника информации для сегментации изображений и выявления местоположения различных объектов. Этот вектор получил название «гиперколонка» [hypercolumn]. По сути, гиперколонка — это набор интенсивностей каждого из признаков, выявляемых сетью для поля свёртки, центром которого является наш пиксель. Более глубокие слои свёрточной сети отвечают, как мы уже говорили ранее, за более абстрактные признаки. Например, автомобильные колёса и фигуры людей распознаются в районе третьего свёрточного слоя. Информация о выявляемых признаках, ассоциированных с каждым пикселем входного изображения, является отличным источником информации о цвете. Модель Даля работала с изображением размером 224 x 224 пикселя, при этом размер гиперколонки, извлекаемой из сети VGG-16, составлял 963 значения. Итоговый «тензор» с размерностью 224 x 224 x 963 подавался на вход отдельной свёрточной сети, выходом которой являлась карта цветов. Эксперименты показали, что такая сеть в большинстве случаев позволяла достичь вполне адекватной раскраски.

2748

Dahl R. (2016). Automatic Colorization // https://tinyclouds.org/colorize/

2749

Hariharan B., Arbelaez P., Girshick R., Malik J. (2015). Hypercolumns for Object Segmentation and Fine-grained Localization // https://arxiv.org/abs/1411.5752

Рис. 147. Примеры раскраски изображений (слева направо): чёрно-белое изображение, вариант раскраски от модели Райана Даля, картинка в своих настоящих цветах

Впрочем, ранние модели для нейросетевой раскраски изображений обладали и рядом недостатков. Например, объекты, чей цвет очевидным образом определить было нельзя (например, цвет одежды людей может быть практически каким угодно, как и, например, цвет автомобилей и т. п.), часто приобретали некий среднестатистический «серо-буро-малиновый» цвет, равноудалённый от цветов соответствующих объектов, представленных в обучающей выборке. Возникали и другие дефекты раскраски, что стало мотивацией для дальнейших исследований в этой области.

Поделиться с друзьями: