ЖАНРЫ

Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:

Платформы, подобные MTurk, часто считают характерным примером краудсорсинга (crowdsourcing, от crowd — толпа и sourcing — использование ресурсов). Это слово, изобретённое в 2005-м и впервые употреблённое в публичном пространстве в 2006 г., прочно вошло в лексикон предпринимателей, футурологов, философов и журналистов, хотя до сих пор по поводу его определения существуют некоторые разногласия. Общепринято, что под краудсорсингом понимается объединение людей (обычно в интернете) для выполнения какой-либо задачи совместными усилиями. Расхождения в определении начинаются с вопросов о том, в обязательном ли порядке труд участников является добровольным и безвозмездным, обязательно ли плоды этого труда являются общественным достоянием, кто может выступать в роли инициатора краудсорсинга. На самом деле противоречия были заложены в понятие фактически «от рождения». Один из его «отцов» Джефф Хау в 2006 г. писал:

Мне нравится использовать два определения для краудсорсинга:

Версия «белой книги» [White Paper]: краудсорсинг — это процесс передачи работы, традиционно выполняемой назначенным агентом (обычно сотрудником), на аутсорсинг неопределённой, как правило, большой группе людей в форме открытого призыва.

Версия Soundbyte: применение принципов открытого программного обеспечения [Open Source] к областям деятельности, не относящимся к программному обеспечению [1756] .

1756

Howe J. (2006). Crowdsourcing: A Definition / Crowdsourcing Blog, June 2, 2006 // http://crowdsourcing.typepad.com/cs/2006/06/crowdsourcing_a.html

Под «белой книгой» в данном случае понимается статья [1757] Хау в издании Wired, которая увидела свет в январе 2006-го и впервые сделала термин «краудсорсинг» достоянием общественности.

Словарь Мерриам — Уэбстера даёт [1758] определение, максимально приближенное именно к определению «белой книги»; если же мы выберем определение от Soundbyte, то MTurk внезапно перестанет быть краудсорсинговой платформой. Чтобы справиться с возникшими затруднениями, два храбрых исследователя из Университета Валенсии, Энрике Эстельес-Аролас и Фернандо Гонсалес-Ладрон-де-Гевара, предприняли смелую партизанскую операцию, опубликовав в Journal of Information Science работу под названием «К интегрированному определению краудсорсинга» (Towards an integrated crowdsourcing definition), в которой проанализировали 209 текстов, а также 40 найденных ими определений понятия «краудсорсинг». Авторы статьи выделили в каждом из определений основные признаки и рассмотрели образуемые определениями группы. Результатом работы стало новое, сорок первое определение краудсорсинга, звучащее следующим образом: «Краудсорсинг — это тип интерактивной онлайн-деятельности, в которой физическое лицо, учреждение, некоммерческая организация или компания посредством гибкого открытого призыва предлагают группе лиц с различными знаниями, степенью разнородности и количеством участников добровольно выполнить некоторую задачу. Выполнение задачи различной сложности и состава, в котором группа должна участвовать, внося свой вклад в форме работы, денег, знаний и/или опыта, всегда подразумевает взаимную выгоду. Участник получит удовлетворение некоторых потребностей, например экономических, потребности в социальном признании, увеличении самооценки или развитии индивидуальных навыков, в то время как краудсорсер получит и использует в своих интересах то, что участник принёс предприятию в зависящей от вида предпринятой деятельности форме» [1759] .

1757

Howe J. (2006). The Rise of Crowdsourcing / Wired, 06.01.06 // https://www.wired.com/2006/06/crowds/

1758

Crowdsourcing (2020) / Merriam-Webster.com Dictionary, Merriam-Webster // https://www.merriam-webster.com/dictionary/crowdsourcing

1759

Estelles-Arolas E., Gonzalez-Ladron-de-Guevara F. (2012). Towards an integrated crowdsourcing definition / Journal of Information Science 38(2), April 2012 // https://doi.org/10.1177/016555150000000

Лично мне больше всего нравится именно это определение, поскольку чтение его перед сном позволяет мне получить удовлетворение некоторой потребности, а именно потребности в скорейшем наступлении сна, что, в свою очередь, позволяет мне с большим успехом впоследствии добиться наиболее полного удовлетворения потребностей в социальном признании, развитии индивидуальных навыков, а также экономических потребностей.

Ну а если серьёзно, то современные нейросетевые модели для решения задач в области обработки естественного языка нередко используют в качестве элемента обучающей выборки полный текст «Википедии», исследователи обращаются к помощи волонтёров в рамках проектов «гражданской науки», корпоративные разработчики используют внутренние данные и популярные площадки для разметки данных, расплачиваясь с разметчиками при помощи микротранзакций, приверженцы открытости в науке и разработке программного обеспечения выкладывают в общий доступ собственные массивы данных, хитрые маркетологи занимаются веб-скрейпингом (извлечением данных со страниц веб-ресурсов) или сбором пользовательских данных через игры, тесты и другие вирусные развлечения в социальных сетях, а владельцы социальных сетей вяло судятся с теми, кто пытается использовать без спроса публичные данные из профилей пользователей. Многочисленные животворящие источники данных питают индустрию машинного обучения, обеспечивая её бурное цветение.

6 Час настал. Да грянет бал!

— Бал! — пронзительно визгнул кот, и тотчас Маргарита вскрикнула и на несколько секунд закрыла глаза. Бал упал на неё сразу в виде света, вместе с ним — звука и запаха. Уносимая под руку Коровьевым, Маргарита увидела себя в тропическом лесу. Красногрудые зеленохвостые попугаи цеплялись за лианы, перескакивали по ним и оглушительно кричали: «Я восхищён!»

Михаил Булгаков. Мастер и Маргарита

6.1 ИИ сейчас — большой интерес, обширные вложения и хорошие прогнозы

В 2019 г. Джеффри Дин из Google поделился с публикой своей презентацией под названием «Глубокое обучение для решения сложных проблем» (Deep Learning to Solve Challenging Problems). На первом же слайде презентации был приведён график, показывающий количество научных работ в области машинного обучения, размещаемых ежегодно на сервисе для публикации препринтов (предшествующих публикации предварительных версий статей) arXiv.org. В 2018 г. их число превысило 35 000, что означает, что в 2018 г. в день на arXiv.org публиковалось около 100 новых статей по данной тематике. Это более чем в 30 раз превосходит показатель 2009 г. Вспомогательная шкала на графике, представленном Дином, позволяет оценить, во сколько раз увеличилось число статей по сравнению с базовым 2009 г. Всего за девять лет количество статей выросло примерно в 32 раза.

Рис. 117. Рост числа статей в области машинного обучения

Таким образом, рост числа статей происходил немного быстрее, чем количество элементов микросхем в законе Мура (в два раза каждые два года), причём отрыв особенно усилился после 2015 г. [1760]

Впрочем, показатель, избранный Дином, нельзя признать до конца удачным. Дело в том, что за это же время общее количество препринтов статей на arXiv.org также существенно выросло — с примерно 65 000 в 2009 г. до почти 140 000 в 2018 г. [1761] Поэтому если посмотреть на долю публикаций по машинному обучению от общего их числа, то рост будет немного более скромным, но всё же более чем впечатляющим — с 1,7 до 25%.

1760

Dean J. (2019). Deep Learning to Solve Challenging Problems // https://www2019.thewebconf.org/media/Deep_Learning_for_Solving_Important_Problems.pdf

1761

arXiv submission rate statistics (2019). Data for 1991 through 2018, updated 1 January 2019 / ArXiv // https://arxiv.org/help/stats/2018_by_area

Если использовать для анализа другой источник, а именно Scopus от Elsevier — крупнейшую в мире базу данных рецензируемых и цитируемых публикаций, то наблюдаемый здесь рост будет уже не столь впечатляющий, но по-прежнему многократный. По данным стэнфордского ежегодного доклада Artificial Intelligence Index Report за 2019 г. (AIIR-2019), в конце 1990-х гг. на тематику, связанную с ИИ, приходилось менее 1% научных статей и около 3% публикаций по итогам научных конференций. К 2018 г. оба показателя выросли приблизительно втрое, до 3 и 9% соответственно [1762] . Такая существенная разница в показателях arXiv.org и Scopus, по всей видимости, объясняется двумя факторами. Во-первых, область ИИ ещё 10–20 лет назад была в меньшей мере связана с машинным обучением. В наши дни некоторые публицисты вообще ставят знак равенства между ИИ и машинным обучением, хотя машинное обучение — это лишь одна из отраслей ИИ. Многие системы ИИ, упомянутые нами ранее, либо вовсе обходились без применения машинного обучения (например, Logical Theorist), либо использовали его в качестве неосновной техники (например, Deep Blue или Chinook). Поэтому графики, построенные для arXiv.org и Scopus, всё-таки отражают динамику разных показателей. Во-вторых, современное сообщество специалистов в области машинного обучения активно выступает за максимальную открытость исследований в данной области. И это проявляется не только в создании проектов, подобных OpenAI (некоммерческой исследовательской компании из Сан-Франциско, основанной Илоном Маском, президентом венчурного фонда Y Combinator Сэмом Альтманом и рядом других видных исследователей и предпринимателей), но и, например, в бойкоте, объявленном журналу Nature Machine Intelligence со стороны ведущих исследователей в области машинного обучения (в числе которых, например, Джеффри Хинтон, Ян Лекун, Йошуа Бенджио и другие знаменитые учёные) в знак протеста против политики закрытого доступа к публикациям [1763] .

1762

Stanford Human-Centered Artificial Intelligence (HAI) (2019). Artificial Intelligence Index Report 2019 // https://hai.stanford.edu/sites/default/files/ai_index_2019_report.pdf

1763

Hutson M. (2018). Why are AI researchers boycotting a new Nature journal—and shunning others? / Science, May. 17, 2018 //https://openaccess.engineering.oregonstate.edu/signatures

В различных областях информатики доля публикаций, доступных в виде препринтов на arXiv.org, весьма различна. Машинное обучение — один из лидеров по данному показателю. Более 60% работ, относящихся к этой области, выложено авторами в публичный доступ. Для многих других областей информатики этот показатель близок к нулю. При этом в целом популярность arXiv.org среди исследователей в области информатики быстро растёт. В 2007 г. на arXiv.org в виде препринтов был доступен всего 1% публикаций по информатике, а в 2017 г. — уже 23% [1764] . Таким образом, существенный вклад в неравенство показателей Scopus и arXiv.org вносит, по всей видимости, растущая открытость исследований в области машинного обучения.

1764

Sutton C., Gong L. (2017). Popularity of arXiv.org within Computer Science // https://arxiv.org/abs/1710.05225

Так или иначе, в новом тысячелетии мы видим многократный рост количества публикаций, посвящённых ИИ и машинному обучению. Это, впрочем, не единственный показатель, свидетельствующий о наступлении новой весны ИИ. Помимо улучшения конкретных инженерных метрик (например, качества распознавания котиков на картинках), о которых мы поговорим немного позже, крайне важной является динамика экономических показателей, свидетельствующих о растущем влиянии прогресса в области ИИ на мировую экономику.

Авторы AIIR-2021 (аналогичного доклада Artificial Intelligence Index Report уже за 2021 г.) уделяют около десятка страниц своего отчёта анализу динамики рынка труда для специальностей, связанных с ИИ. Для этого они используют данные LinkedIn [1765] , включив в анализ страны, для которых покрытие рынка труда данными LinkedIn составило более 40% и в каждый из рассмотренных месяцев (2016 и 2020 гг.) набиралось хотя бы 10 человек, у которых в профиле присутствовал хотя бы один навык из области ИИ и которые в тот же месяц добавили в свою анкету новое место работы с датой начала, соответствующей этому же месяцу (для простоты мы будем называть владельцев таких профилей «людьми, получившими новую работу в области ИИ»). Также в анализ были включены Индия и Китай, хотя покрытие их рынка труда данными LinkedIn составляло менее 40%. В итоге в списке оказалось 25 стран. Для них авторы AIIR-2021 посчитали «индекс найма в ИИ» (AI Hiring Index), сначала рассчитав, какую долю в каждом из проанализированных месяцев составляли профили людей, получивших новую работу в области ИИ, от общего числа профилей LinkedIn для данной страны, а затем разделив полученное среднемесячное значение для 2020 г. на среднемесячное значение 2016 г. В итоге для всех 25 стран были получены значения в диапазоне от 3,4 (Бразилия) до примерно 1,25 (Китай) с медианным значением около 2 (смысл данных значений — это индекс, насколько чаще люди начали находить работу в сфере ИИ в 2020 г. по сравнению с 2016 г.).

1765

* Социальная сеть для поиска и установления деловых контактов, запрещённая в Российской Федерации.

Поделиться с друзьями: