Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
5. RuCoS (Russian reading comprehension with Commonsense, Понимание прочитанного на основе здравого смысла для русского языка) — аналог ReCoRD, составленный на основе подборки статей с новостных сайтов.
6. TERRa (Textual Entailment Recognition for Russian, Распознавание текстуальной импликации для русского языка) — аналог RTE, созданный авторами Russian SuperGLUE на основе подборки новостей и художественной литературы.
7. RUSSE (Russian Semantic Evaluation, Оценка семантики для русского языка) — задачи распознавания смысла слова в контексте. Первая версия этого набора тестов (RUSSE’15) [2205] была разработана ещё в 2015 г., в состав же Russian SuperGLUE вошла его более современная версия [2206] — RUSSE’18. Его разработкой занималась большая группа исследователей из университетов и частных компаний.
2205
Panchenko A., Loukachevitch N. V., Ustalov D., Paperno D., Meyer C. M., Konstantinova N. (2018). RUSSE: The First Workshop on Russian Semantic Similarity / Proceeding of the International Conference on Computational Linguistics DIALOGUE 2015, pp. 89—105 // https://arxiv.org/abs/1803.05820
2206
Panchenko A., Lopukhina A., Ustalov D., Lopukhin K., Arefyev N., Leontyev A., Loukachevitch N. (2018). RUSSE’2018: a Shared Task on Word Sense Induction for the Russian Language / https://arxiv.org/abs/1803.05795
8. RWSD (Russian Winograd Schema Dataset, Русскоязычный датасет схем Винограда) — переводной вариант датасета WSC.
Первое место в таблице лидеров Russian SuperGLUE на сентябрь 2023 г. принадлежит людям (их результат оценивается в 0,811 балла), второе место (0,762 балла) занимает трансформерная модель FRED-T5 (о ней мы расскажем несколько позже), а третье — ансамбль трансформерных моделей под названием Golden Transformer v2.0 (0,755 балла) [2207] .
2207
RussianSuperGLUE leaderboard, Retreived 2022-01-31 // https://russiansuperglue.com/leaderboard/2
Помимо русскоязычного варианта SuperGLUE, в настоящее время созданы французский (FLUE) [2208] , китайский (CLUE) [2209] и польский (KLEJ) [2210] аналоги этого теста. Также исследователи разработали датасеты XGLUE (Cross-lingual GLUE, Межъязыковой GLUE) [2211] и XTREME (Cross-lingual TRansfer Evaluation of Multilingual Encoders, Межъязыковая оценка переноса для многоязычных кодировщиков) [2212] , ориентированные на многоязычные модели.
2208
Le H., Vial L., Frej J., Segonne V., Coavoux M., Lecouteux B., Allauzen A., Crabbe B., Besacier L., Schwab D. (2019). FlauBERT: Unsupervised Language Model Pre-training for French // https://arxiv.org/abs/1912.05372
2209
Xu L., Hu H., Zhang X., Li L., Cao C., Li Y., Xu Y., Sun K., Yu D., Yu C., Tian Y., Dong Q., Liu W., Shi B., Cui Y., Li J., Zeng J., Wang R., Xie W., Li Y., Patterson Y., Tian Z., Zhang Y., Zhou H., Liu S., Zhao Z., Zhao Q., Yue C., Zhang X., Yang Z., Richardson K., Lan Z. (2020). CLUE: A Chinese Language Understanding Evaluation Benchmark // https://arxiv.org/abs/2004.05986
2210
Rybak P., Mroczkowski R., Tracz J., Gawlik I. (2020). KLEJ: Comprehensive Benchmark for Polish Language Understanding // https://arxiv.org/abs/2005.00630
2211
Liang Y., Duan N., Gong Y., Wu N., Guo F., Qi W., Gong M., Shou L., Jiang D., Cao G., Fan X., Zhang R., Agrawal R., Cui E., Wei S., Bharti T., Qiao Y., Chen J.-H., Wu W., Liu S., Yang F., Campos D., Majumder R., Zhou M. (2020). XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training, Understanding and Generation // https://arxiv.org/abs/2004.01401
2212
Hu J., Ruder S., Siddhant A., Neubig G., Firat O., Johnson M. (2020). XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization // https://arxiv.org/abs/2003.11080
Сверхчеловеческий уровень понимания естественного языка, демонстрируемый моделями машинного обучения в тестах, подобных SuperGLUE, пока что вызывает некоторые вопросы. Например, Татьяна Шаврина и Валентин Малых обращают внимание на то, что метрики, положенные в основу SuperGLUE, несовершенны — арифметическое усреднение результатов, полученных моделями в разных типах тестов, приводит к заметной переоценке возможностей моделей, и в действительности люди всё же пока что понимают естественный язык лучше машин [2213] . Поэтому не исключено, что в ближайшее время наборы тестов будут подвергнуты очередному пересмотру — за счёт добавления новых, более сложных заданий, а также за счёт улучшения самих способов оценки результатов.
2213
Shavrina T., Malykh V. (2021). How not to Lie with a Benchmark: Rearranging NLP Leaderboards // https://arxiv.org/abs/2112.01342
Впрочем, некоторые виды задач на понимание естественного языка пока что являются довольно сложными даже для лучших нейросетевых моделей. Например, созданный ещё в 2020 г. набор тестов MMLU (Massive Multitask Language Understanding, Массовое мультизадачное понимание языка), охватывающий 57 типов заданий (задачи из области арифметики, информатики, юриспруденции, истории США и т. д.), всё ещё остаётся крепким орешком. Лучший результат здесь демонстрирует GPT-4 с 86,4% правильных ответов — что пока не дотягивает до уровня людей-экспертов с результатом в 89,8% [2214] , [2215] . Впрочем, последние исследования показывают, что при помощи некоторых алгоритмических трюков можно получить практически «бесплатную» прибавку в несколько процентных пунктов к результатам лучших моделей, а также что в самом наборе тестов есть некоторое количество дефектов и ошибок [2216] .
2214
Hendrycks D., Burns C., Basart S., Zou A., Mazeika M., Song D., Steinhardt J. (2020). Measuring Massive Multitask Language Understanding // https://arxiv.org/abs/2009.03300
2215
OpenAI (2023). GPT-4 Technical Report // https://arxiv.org/abs/2303.08774
2216
AI Explained (2023). SmartGPT: Major Benchmark Broken - 89.0% on MMLU + Exam's Many Errors / YouTube, 28.08.2023 // https://www.youtube.com/watch?v=hVade_8H8mE
В середине 2022 г. благодаря невиданной доселе коллаборации учёных (442 автора из 132 научных коллективов) свет увидел самый большой набор тестов для исследования возможностей генеративных языковых моделей. Он описан в статье «За пределами игры в имитацию: количественная оценка и экстраполяция возможностей языковых моделей» [Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models] [2217] и включает в себя 204 различных типа задач. Набор получил название BIG-bench не только из-за своего размера. Слово BIG в данном случае является аббревиатурой от Beyond the Imitation Game [За пределами игры в имитацию], что отсылает нас к тесту Тьюринга и намекает на то, что данный набор тестов является результатом развития методологии, предложенной Тьюрингом.
2217
Srivastava A., Rastogi A., Rao A., Shoeb A. A. M., Abid A., Fisch A., Brown A. R., Santoro A., Gupta A., Garriga-Alonso A., Kluska A., Lewkowycz A., Agarwal A., Power A., Ray A., Warstadt A., Kocurek A. W., Safaya A., Tazarv A., Xiang A., Parrish A., Nie A., Hussain A., Askell A., Dsouza A., Slone A., Rahane A., Iyer A. S., Andreassen A., Madotto A., Santilli A., Stuhlmuller A., Dai A., La A., Lampinen A., Zou A., Jiang A., Chen A., Vuong A., Gupta A., Gottardi A., Norelli A., Venkatesh A., Gholamidavoodi A., Tabassum A., Menezes A., Kirubarajan A., Mullokandov A., Sabharwal A., Herrick A., Efrat A., Erdem A., Karakas A., Roberts B. R., Loe B. S., Zoph B., Bojanowski B., Ozyurt B., Hedayatnia B., Neyshabur B., Inden B., Stein B., Ekmekci B., Lin B. Y., Howald B., Orinion B., Diao C., Dour C., Stinson C., Argueta C., Ramirez C. F., Singh C., Rathkopf C., Meng C., Baral C., Wu C., Callison-Burch C., Waites C., Voigt C., Manning C. D., Potts C., Ramirez C., Rivera C. E., Siro C., Raffel C., Ashcraft C., Garbacea C., Sileo D., Garrette D., Hendrycks D., Kilman D., Roth D., Freeman D., Khashabi D., Levy D., Gonzalez D. M., Perszyk D., Hernandez D., Chen D., Ippolito D., Gilboa D., Dohan D., Drakard D., Jurgens D., Datta D., Ganguli D., Emelin D., Kleyko D., Yuret D., Chen D., Tam D., Hupkes D., Misra D., Buzan D., Mollo D. C., Yang D., Lee D.-H., Schrader D., Shutova E., Cubuk E. D., Segal E., Hagerman E., Barnes E., Donoway E., Pavlick E., Rodola E., Lam E., Chu E., Tang E., Erdem E., Chang E., Chi E. A., Dyer E., Jerzak E., Kim E., Manyasi E. E., Zheltonozhskii E., Xia F., Siar F., Martinez-Plumed F., Happe F., Chollet F., Rong F., Mishra G., Winata G. I., de Melo G., Kruszewski G., Parascandolo G., Mariani G., Wang G., Jaimovitch-Lopez G., Betz G., Gur-Ari G., Galijasevic H., Kim H., Rashkin H., Hajishirzi H., Mehta H., Bogar H., Shevlin H., Schutze H., Yakura H., Zhang H., Wong H. M., Ng I., Noble I., Jumelet J., Geissinger J., Kernion J., Hilton J., Lee J., Fisac J. F., Simon J. B., Koppel J., Zheng J., Zou J., Kocon J., Thompson J., Wingfield J., Kaplan J., Radom J., Sohl-Dickstein J., Phang J., Wei J., Yosinski J., Novikova J., Bosscher J., Marsh J., Kim J., Taal J., Engel J., Alabi J., Xu J., Song J., Tang J., Waweru J., Burden J., Miller J., Balis J. U., Batchelder J., Berant J., Frohberg J., Rozen J., Hernandez-Orallo J., Boudeman J., Guerr J., Jones J., Tenenbaum J. B., Rule J. S., Chua J., Kanclerz K., Livescu K., Krauth K., Gopalakrishnan K., Ignatyeva K., Markert K., Dhole K. D., Gimpel K., Omondi K., Mathewson K., Chiafullo K., Shkaruta K., Shridhar K., McDonell K., Richardson K., Reynolds L., Gao L., Zhang L., Dugan L., Qin L., Contreras-Ochando L., Morency L.-P., Moschella L., Lam L., Noble L., Schmidt L., He L., Colon L. O., Metz L., Senel L. K., Bosma M., Sap M., ter Hoeve M., Farooqi M., Faruqui M., Mazeika M., Baturan M., Marelli M., Maru M., Quintana M. J. R., Tolkiehn M., Giulianelli M., Lewis M., Potthast M., Leavitt M. L., Hagen M., Schubert M., Baitemirova M. O., Arnaud M., McElrath M., Yee M. A., Cohen M., Gu M., Ivanitskiy M., Starritt M., Strube M., Swedrowski M., Bevilacqua M., Yasunaga M., Kale M., Cain M., Xu M., Suzgun M., Walker M., Tiwari M., Bansal M., Aminnaseri M., Geva M., Gheini M., Varma T M., Peng N., Chi N. A., Lee N., Krakover N. G.-A., Cameron N., Roberts N., Doiron N., Martinez N., Nangia N., Deckers N., Muennighoff N., Keskar N. S., Iyer N. S., Constant N., Fiedel N., Wen N., Zhang O., Agha O., Elbaghdadi O., Levy O., Evans O., Casares P. A. M., Doshi P., Fung P., Liang P. P., Vicol P., Alipoormolabashi P., Liao P., Liang P., Chang P., Eckersley P., Htut P. M., Hwang P., Milkowski P., Patil P., Pezeshkpour P., Oli P., Mei Q., Lyu Q., Chen Q., Banjade R., Rudolph R. E., Gabriel R., Habacker R., Risco R., Milliere R., Garg R., Barnes R., Saurous R. A., Arakawa R., Raymaekers R., Frank R., Sikand R., Novak R., Sitelew R., LeBras R., Liu R., Jacobs R., Zhang R., Salakhutdinov R., Chi R., Lee R., Stovall R., Teehan R., Yang R., Singh S., Mohammad S. M., Anand S., Dillavou S., Shleifer S., Wiseman S., Gruetter S., Bowman S. R., Schoenholz S. S., Han S., Kwatra S., Rous S. A., Ghazarian S., Ghosh S., Casey S., Bischoff S., Gehrmann S., Schuster S., Sadeghi S., Hamdan S., Zhou S., Srivastava S., Shi S., Singh S., Asaadi S., Gu S. S., Pachchigar S., Toshniwal S., Upadhyay S., Debnath S., Shakeri S., Thormeyer S., Melzi S., Reddy S., Makini S. P., Lee S.-H., Torene S., Hatwar S., Dehaene S., Divic S., Ermon S., Biderman S., Lin S., Prasad S., Piantadosi S. T., Shieber S. M., Misherghi S., Kiritchenko S., Mishra S., Linzen T., Schuster T., Li T., Yu T., Ali T., Hashimoto T., Wu T.-L., Desbordes T., Rothschild T., Phan T., Wang T., Nkinyili T., Schick T., Kornev T., Tunduny T., Gerstenberg T., Chang T., Neeraj T., Khot T., Shultz T., Shaham U., Misra V., Demberg V., Nyamai V., Raunak V., Ramasesh V., Prabhu V. U., Padmakumar V., Srikumar V., Fedus W., Saunders W., Zhang W., Vossen W., Ren X., Tong X., Zhao X., Wu X., Shen X., Yaghoobzadeh Y., Lakretz Y., Song Y., Bahri Y., Choi Y., Yang Y., Hao Y., Chen Y., Belinkov Y., Hou Y., Hou Y., Bai Y., Seid Z., Zhao Z., Wang Z., Wang Z. J., Wang Z., Wu Z. (2022). Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models // https://arxiv.org/abs/2206.04615
Результаты тестирования современных моделей машинного обучения на этом наборе тестов показывают, что, хотя прогресс в последние годы очень значителен, сохраняется множество задач, в которых люди пока что уверенно превосходят даже самые совершенные нейросети. При этом если существующие темпы роста возможностей моделей будут сохраняться до конца 2020-х гг., то этот разрыв, скорее всего, будет ликвидирован.
Авторы ещё одной коллекции тестов для больших языковых моделей — HELM (Holistic Evaluation of Language Models, Комплексная оценка языковых моделей) — делают ставку на развитую систему классификации тестовых заданий (по годам создания, языкам, типам решаемых задач и методологиям оценки). Кроме того, они используют для оценки ответов моделей целых семь показателей: точность [accuracy], калибровку [calibration], устойчивость [robustness], справедливость [fairness], предвзятость [bias], токсичность [toxicity] и эффективность [efficiency]. Всё это позволяет авторам агрегатора тестов производить оценку языковых моделей в зависимости от сценариев их предполагаемого использования [2218] .
2218
Liang P., Bommasani R., Lee T., Tsipras D., Soylu D., Yasunaga M., Zhang Y., Narayanan D., Wu Y., Kumar A., Newman B., Yuan B., Yan B., Zhang C., Cosgrove C., Manning C. D., Re C., Acosta-Navas D., Hudson D. A., Zelikman E., Durmus E., Ladhak F., Rong F., Ren H., Yao H., Wang J., Santhanam K., Orr L., Zheng L., Yuksekgonul M., Suzgun M., Kim N., Guha N., Chatterji N., Khattab O., Henderson P., Huang Q., Chi R., Xie S. M., Santurkar S., Ganguli S., Hashimoto T., Icard T., Zhang T., Chaudhary V., Wang W., Li X., Mai Y., Zhang Y., Koreeda Y. (2022). Holistic Evaluation of Language Models // https://arxiv.org/abs/2211.09110
Другое направление развития таких тестов — добавление дополнительных модальностей, например зрительной. Одним из хорошо зарекомендовавших себя видов такого рода заданий является ответ на вопросы, заданные к некоторой картинке. Например, к фотографии пиццы можно задать вопросы: «На сколько кусков нарезана эта пицца?» или «Является ли эта пицца вегетарианской?» В научной литературе такой тип заданий обычно именуется «ответом на визуальные вопросы» (Visual Question Answering, VQA) [2219] . Если посмотреть на таблицу лидеров для задачи VQA, основанную на популярном датасете COCO (Common Objects in COntext, Обычные объекты в контексте), то в ней всё ещё лидируют люди: трансформерная модель VLMo (Vision-Language pretrained Model, Предобученная модель «зрение — язык») [2220] демонстрирует точность ответов, равную 81,3%, при 83% у людей [2221] . Справедливости ради стоит отметить, что за 2021 г. моделям удалось прибавить почти четыре процентных пункта, поэтому и здесь торжество ИИ не за горами.
2219
Goyal Y., Khot T., Summers-Stay D., Batra D., Parikh D. (2016). Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering // https://arxiv.org/abs/1612.00837
2220
Wang W., Bao H., Dong L., Wei F. (2021). VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts // https://arxiv.org/abs/2111.02358
2221
Shrivastava A., Goyal Y., Batra D., Parikh D., Agrawal A. (2021). Welcome to the VQA Challenge 2021! / Visual Question Answering // https://visualqa.org/challenge.html
Впрочем, создатели сложных автоматизированных тестов не отчаиваются: в начале 2022 г. они порадовали научное сообщество новым многоязычным набором сложных заданий, получившим название IGLUE (Image-Grounded Language Understanding Evaluation, Базирующаяся на изображениях оценка понимания языка) [2222] . Постепенное усложнение автоматизированных тестов должно помочь исследователям в деле создания новых, ещё более эффективных моделей для решения задач обработки естественного языка.
2222
Bugliarello E., Liu F., Pfeiffer J., Reddy S., Elliott D., Ponti E. M., Vulic I. (2021). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages / https://arxiv.org/abs/2201.11732
6.3.4 Современные чат-боты и прогнозы Тьюринга
6.3.4.1 Успехи чат-ботов — отличаем правду от вымысла
В наши дни трудно найти человека, который никогда не сталкивался бы в своей жизни с диалоговыми (разговорными) моделями ИИ, ведь именно такие модели являются «сердцами» современных чат-ботов. Справочный бот на сайте интернет-магазина, робот-оператор колл-центра банка, режим «болталки» в виртуальном ассистенте, рекламный бот в социальной сети — всё это олицетворения диалоговых моделей. Некоторые из этих моделей не сложнее Элизы или Перри, а некоторые основаны на трансформерах и других современных нейросетевых моделях.
Прогресс в области создания диалоговых моделей за последнее десятилетие действительно велик. Нередко пресса всерьёз заявляет о том, что тому или иному чат-боту удалось пройти тест Тьюринга [2223] , [2224] , чем вызывает [2225] , [2226] нехилый баттхёрт у специалистов по ИИ и машинному обучению. Под влиянием подобных заявлений прессы периодически выдвигаются предложения о замене «устаревшего» теста Тьюринга на какую-либо более стильную и молодёжную процедуру.
2223
Schofield J. (2014). Computer chatbot 'Eugene Goostman' passes the Turing test / ZDNet, 8 June 2014 // https://www.zdnet.com/article/computer-chatbot-eugene-goostman-passes-the-turing-test/
2224
Котляр П. (2014). Мальчик Женя из Одессы одолел Тьюринга. Компьютерная программа впервые в истории прошла знаменитый тест Тьюринга на человечность / газета.ru, 09.06.2014 // https://www.gazeta.ru/science/2014/06/09_a_6064069.shtml
2225
Masnick M. (2014). No, A 'Supercomputer' Did NOT Pass The Turing Test For The First Time And Everyone Should Know Better / techdirt, Jun 9th 2014 // https://www.techdirt.com/articles/20140609/07284327524/no-computer-did-not-pass-turing-test-first-time-everyone-should-know-better.shtml
2226
Mann A. (2014). That Computer Actually Got an F on the Turing Test / Wired, 06.09.14 // https://www.wired.com/2014/06/turing-test-not-so-fast/