Искусственный интеллект: перезагрузка. Как создать машинный разум, которому действительно можно доверять
Шрифт:
Одна из причин, по которой люди часто переоценивают возможности искусственного интеллекта, заключается в том, что сообщения, появляющиеся в СМИ, часто до такой степени преувеличивают его возможности, что любое самое скромное продвижение в технологиях начинает выглядеть как «прорыв тысячелетия». Рассмотрим следующую пару заголовков, описывающих «невероятный прогресс» в области машинного чтения.
Отныне роботы смогут читать лучше, чем люди, подвергая риску существование миллионов рабочих мест.
Компьютеры становятся лучшими читателями, чем мы сами.
Первое из этих утверждений является куда более вопиющим преувеличением, чем второе, но оба они представляют собой откровенную дичь, подавая незначительный прогресс в области компьютерного чтения как новость мировой значимости. Начнем с того, что в действительности в эксперименте не был задействован ни один робот, а сам тест оценивал лишь один крошечный аспект машинного чтения. Речь даже не шла о каком-либо понимании текста искусственным интеллектом, не говоря уже о самой отдаленной угрозе каким бы то ни было рабочим местам.
А случилось, собственно, вот что. Две компании, Microsoft и Alibaba, только что создали программы, которые добились незначительного (и не внезапного) прогресса (82,65 % точности против предыдущего показателя в 82,136 %) в конкретном тестировании одного узкого аспекта чтения, известного как SQuAD (the Stanford Question Answering Dataset, то есть набор вопросов и ответов, разработанный Стэндфордским университетом). Вероятно, мы можем здесь говорить о достижении уровня человеческой эффективности в этой конкретной задаче, в которой искусственный интеллект раньше немного отставал от людей, но одна из компаний выпустила по этому поводу пресс-релиз, который сделал незначительное достижение звучащим почти революционно, объявив о создании «искусственного интеллекта, который может читать документ и отвечать на вопросы о нем так же хорошо, как и человек».
Реальность была намного менее будоражащей. Компьютерам показывали короткие отрывки текста, взятые из задания, предназначенного для исследовательских целей, и затем задавали вопросы о них. Подвох был в том, что в каждом случае правильные ответы находились прямо в тексте, что превращало задание не более чем в подчеркивание нужных слов. Незатронутой оставалась реальная проблема машинного чтения: обнаружение значений слов или предложений, которые подразумеваются, но не видны в явной форме.
Предположим, например, что мы даем вам лист бумаги с небольшим отрывком текста:
Двое детей, Хлоя и Александр, пошли гулять. Они оба увидели собаку и дерево. Еще Александр увидел кошку и показал ее Хлое. А та пошла эту кошку погладить [2] .
Ответить на вопросы типа «Кто пошел погулять?», естественно, очень легко, ведь ответ («Хлоя и Александр») прямо прописан в тексте. Однако любой компетентный (на самом деле – просто обычный) читатель должен так же легко ответить на вопросы, ответы на которые отсутствуют в тексте в утвердительной форме, например: «Видела ли Хлоя кошку?» или «Испугала ли кошка детей?» Если вы не можете этого сделать, значит, вы просто не обратили внимания на то, о чем шла речь. Поскольку SQuAD не включал в себя никаких вопросов подобного рода, то он не являлся по-настоящему серьезным тестом на способность к чтению; и на самом деле новые системы искусственного интеллекта попросту не смогли бы с ним справиться. Чтобы продемонстрировать различие между машиной и человеком, Гэри предложил этот тест своей дочери Хлое, которой тогда было четыре с половиной года. Настоящая Хлоя без труда сделала вывод о том, что Хлоя вымышленная действительно видела кошку. (Ее старший брат, которому тогда еще не исполнилось шести лет, пошел еще дальше, размышляя о том, что произойдет, если собака на самом деле окажется кошкой, – ни одна из форм нынешнего искусственного интеллекта не сможет даже близко подойти к этому.)
2
Кажущиеся еще более простыми вопросы типа «Что увидел Александр?» были бы целиком за допустимыми для компьютеров пределами, потому что ответ на них (собака, дерево и кошка) требует выделения двух несмежных фрагментов текста, в то время как SQuAD облегчал машинам работу, ограничивая вопросы теми, на которые можно ответить, используя связанный текстовый фрагмент.
Практически каждый раз, когда один из мировых технологических гигантов выпускает пресс-релиз, мы имеем повторение того, о чем шла речь выше: незначительный прогресс изображается во многих (к счастью, не во всех) СМИ как настоящая революция. Например, пару лет назад Facebook представила абсолютно сырую программу, которая читала простые рассказы и отвечала на вопросы о них. За этим последовало множество восторженных заголовков, таких как «Представители Facebook полагают, что компания разгадала секрет того, как сделать чат-боты менее тупыми» (Slate) и «Facebook AI Software учится и отвечает на вопросы. Программное обеспечение, способное прочитать краткий пересказ "Властелина колец" и ответить на вопросы о нем, может кардинально улучшить поиск в Facebook» (Technology Review).
Тут действительно можно было бы говорить о настоящем прорыве – будь все это правдой. Программа, которая могла бы усвоить книгу Толкина хотя бы в версии Reader's Digest или Cliffs-Notes (не говоря уже о полноразмерных произведениях), была бы серьезным достижением в области искусственного интеллекта.
Но, увы, программы, действительно способной на такие подвиги, что-то нигде не видно. Тот пересказ, который на самом деле читала система Facebook, представлял собой всего лишь следующие строки:
Бильбо отправился в пещеру. Голлум обронил там кольцо. Бильбо взял кольцо. Бильбо вернулся в Шир. Бильбо оставил кольцо там. Фродо получил кольцо. Фродо отправился на Роковую Гору. Фродо бросил кольцо туда. Саурон умер. Фродо вернулся в Шир. Бильбо отправился в Серые Гавани. Конец.
И даже при таком примитивном раскладе все, что могла сделать программа, – это отвечать на элементарные вопросы, ответы на которые содержались непосредственно в приведенных выше предложениях, например: «Где кольцо?», «Где сейчас Бильбо?» и «Где сейчас Фродо?» И забудьте о вопросах наподобие «Почему Фродо бросил кольцо?».
Конечная цель шумихи, поднятой в средствах массовой информации и сильно преувеличивающей технологический прогресс, заключается в том, чтобы общественность поверила, что проблема создания искусственного интеллекта гораздо ближе к решению, чем есть на самом деле.
Всякий раз, когда вы слышите об очередном успехе, достигнутом искусственным интеллектом, попробуйте задать, скажем, шесть вопросов из следующего списка.
1. Если отбросить риторику, что на самом деле совершила система искусственного интеллекта в этот раз?
2. Насколько универсальным оказался результат? Например, задание якобы на тестирование чтения включает в себя все составляющие нормального чтения или только незначительные и частные его аспекты?
3. Создана ли демонстрационная версия, на которой я могу протестировать систему, пользуясь собственными примерами? Если ее нет, успех выглядит более чем сомнительным.
4. Если исследователи (или их представители в прессе) утверждают, что система искусственного интеллекта что-то умеет лучше, чем люди, то о каких людях идет речь и насколько система превосходит подобных людей?
5. Насколько успех в решении конкретной задачи, о которой сообщается в новом исследовании, ведет нас к созданию универсального, подлинного искусственного интеллекта?
6. Насколько устойчива система, о которой пишут в прессе? Может ли она хорошо работать с другими наборами данных без огромной работы по предварительной их подготовке? Например, может ли игровой автомат, который овладел игрой в шахматы, успешно играть в приключенческую игру типа Zelda? Может ли система распознавания животных правильно идентифицировать существо, которое она никогда раньше не воспринимала как животное? Будет ли система автопилота, которая обучалась в дневное время на шоссе с указателями, способна ездить ночью, или по снегу, или если на ее карте нет указателя объезда?