ЖАНРЫ

Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:

5. RuCoS (Russian reading comprehension with Commonsense, Понимание прочитанного на основе здравого смысла для русского языка) — аналог ReCoRD, составленный на основе подборки статей с новостных сайтов.

6. TERRa (Textual Entailment Recognition for Russian, Распознавание текстуальной импликации для русского языка) — аналог RTE, созданный авторами Russian SuperGLUE на основе подборки новостей и художественной литературы.

7. RUSSE (Russian Semantic Evaluation, Оценка семантики для русского языка) — задачи распознавания смысла слова в контексте. Первая версия этого набора тестов (RUSSE’15) [2205] была разработана ещё в 2015 г., в состав же Russian SuperGLUE вошла его более современная версия [2206] — RUSSE’18. Его разработкой занималась большая группа исследователей из университетов и частных компаний.

2205

Panchenko A., Loukachevitch N. V., Ustalov D., Paperno D., Meyer C. M., Konstantinova N. (2018). RUSSE: The First Workshop on Russian Semantic Similarity / Proceeding of the International Conference on Computational Linguistics DIALOGUE 2015, pp. 89—105 // https://arxiv.org/abs/1803.05820

2206

Panchenko A., Lopukhina A., Ustalov D., Lopukhin K., Arefyev N., Leontyev A., Loukachevitch N. (2018). RUSSE’2018: a Shared Task on Word Sense Induction for the Russian Language / https://arxiv.org/abs/1803.05795

8. RWSD (Russian Winograd Schema Dataset, Русскоязычный датасет схем Винограда) — переводной вариант датасета WSC.

Первое место в таблице лидеров Russian SuperGLUE на сентябрь 2023 г. принадлежит людям (их результат оценивается в 0,811 балла), второе место (0,762 балла) занимает трансформерная модель FRED-T5 (о ней мы расскажем несколько позже), а третье — ансамбль трансформерных моделей под названием Golden Transformer v2.0 (0,755 балла) [2207] .

2207

RussianSuperGLUE leaderboard, Retreived 2022-01-31 // https://russiansuperglue.com/leaderboard/2

Помимо русскоязычного варианта SuperGLUE, в настоящее время созданы французский (FLUE) [2208] , китайский (CLUE) [2209] и польский (KLEJ) [2210] аналоги этого теста. Также исследователи разработали датасеты XGLUE (Cross-lingual GLUE, Межъязыковой GLUE) [2211] и XTREME (Cross-lingual TRansfer Evaluation of Multilingual Encoders, Межъязыковая оценка переноса для многоязычных кодировщиков) [2212] , ориентированные на многоязычные модели.

2208

Le H., Vial L., Frej J., Segonne V., Coavoux M., Lecouteux B., Allauzen A., Crabbe B., Besacier L., Schwab D. (2019). FlauBERT: Unsupervised Language Model Pre-training for French // https://arxiv.org/abs/1912.05372

2209

Xu L., Hu H., Zhang X., Li L., Cao C., Li Y., Xu Y., Sun K., Yu D., Yu C., Tian Y., Dong Q., Liu W., Shi B., Cui Y., Li J., Zeng J., Wang R., Xie W., Li Y., Patterson Y., Tian Z., Zhang Y., Zhou H., Liu S., Zhao Z., Zhao Q., Yue C., Zhang X., Yang Z., Richardson K., Lan Z. (2020). CLUE: A Chinese Language Understanding Evaluation Benchmark // https://arxiv.org/abs/2004.05986

2210

Rybak P., Mroczkowski R., Tracz J., Gawlik I. (2020). KLEJ: Comprehensive Benchmark for Polish Language Understanding // https://arxiv.org/abs/2005.00630

2211

Liang Y., Duan N., Gong Y., Wu N., Guo F., Qi W., Gong M., Shou L., Jiang D., Cao G., Fan X., Zhang R., Agrawal R., Cui E., Wei S., Bharti T., Qiao Y., Chen J.-H., Wu W., Liu S., Yang F., Campos D., Majumder R., Zhou M. (2020). XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training, Understanding and Generation // https://arxiv.org/abs/2004.01401

2212

Hu J., Ruder S., Siddhant A., Neubig G., Firat O., Johnson M. (2020). XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization // https://arxiv.org/abs/2003.11080

Сверхчеловеческий уровень понимания естественного языка, демонстрируемый моделями машинного обучения в тестах, подобных SuperGLUE, пока что вызывает некоторые вопросы. Например, Татьяна Шаврина и Валентин Малых обращают внимание на то, что метрики, положенные в основу SuperGLUE, несовершенны — арифметическое усреднение результатов, полученных моделями в разных типах тестов, приводит к заметной переоценке возможностей моделей, и в действительности люди всё же пока что понимают естественный язык лучше машин [2213] . Поэтому не исключено, что в ближайшее время наборы тестов будут подвергнуты очередному пересмотру — за счёт добавления новых, более сложных заданий, а также за счёт улучшения самих способов оценки результатов.

2213

Shavrina T., Malykh V. (2021). How not to Lie with a Benchmark: Rearranging NLP Leaderboards // https://arxiv.org/abs/2112.01342

Впрочем, некоторые виды задач на понимание естественного языка пока что являются довольно сложными даже для лучших нейросетевых моделей. Например, созданный ещё в 2020 г. набор тестов MMLU (Massive Multitask Language Understanding, Массовое мультизадачное понимание языка), охватывающий 57 типов заданий (задачи из области арифметики, информатики, юриспруденции, истории США и т. д.), всё ещё остаётся крепким орешком. Лучший результат здесь демонстрирует GPT-4 с 86,4% правильных ответов — что пока не дотягивает до уровня людей-экспертов с результатом в 89,8% [2214] , [2215] . Впрочем, последние исследования показывают, что при помощи некоторых алгоритмических трюков можно получить практически «бесплатную» прибавку в несколько процентных пунктов к результатам лучших моделей, а также что в самом наборе тестов есть некоторое количество дефектов и ошибок [2216] .

2214

Hendrycks D., Burns C., Basart S., Zou A., Mazeika M., Song D., Steinhardt J. (2020). Measuring Massive Multitask Language Understanding // https://arxiv.org/abs/2009.03300

2215

OpenAI (2023). GPT-4 Technical Report // https://arxiv.org/abs/2303.08774

2216

AI Explained (2023). SmartGPT: Major Benchmark Broken - 89.0% on MMLU + Exam's Many Errors / YouTube, 28.08.2023 // https://www.youtube.com/watch?v=hVade_8H8mE

В середине 2022 г. благодаря невиданной доселе коллаборации учёных (442 автора из 132 научных коллективов) свет увидел самый большой набор тестов для исследования возможностей генеративных языковых моделей. Он описан в статье «За пределами игры в имитацию: количественная оценка и экстраполяция возможностей языковых моделей» [Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models] [2217] и включает в себя 204 различных типа задач. Набор получил название BIG-bench не только из-за своего размера. Слово BIG в данном случае является аббревиатурой от Beyond the Imitation Game [За пределами игры в имитацию], что отсылает нас к тесту Тьюринга и намекает на то, что данный набор тестов является результатом развития методологии, предложенной Тьюрингом.

2217

Srivastava A., Rastogi A., Rao A., Shoeb A. A. M., Abid A., Fisch A., Brown A. R., Santoro A., Gupta A., Garriga-Alonso A., Kluska A., Lewkowycz A., Agarwal A., Power A., Ray A., Warstadt A., Kocurek A. W., Safaya A., Tazarv A., Xiang A., Parrish A., Nie A., Hussain A., Askell A., Dsouza A., Slone A., Rahane A., Iyer A. S., Andreassen A., Madotto A., Santilli A., Stuhlmuller A., Dai A., La A., Lampinen A., Zou A., Jiang A., Chen A., Vuong A., Gupta A., Gottardi A., Norelli A., Venkatesh A., Gholamidavoodi A., Tabassum A., Menezes A., Kirubarajan A., Mullokandov A., Sabharwal A., Herrick A., Efrat A., Erdem A., Karakas A., Roberts B. R., Loe B. S., Zoph B., Bojanowski B., Ozyurt B., Hedayatnia B., Neyshabur B., Inden B., Stein B., Ekmekci B., Lin B. Y., Howald B., Orinion B., Diao C., Dour C., Stinson C., Argueta C., Ramirez C. F., Singh C., Rathkopf C., Meng C., Baral C., Wu C., Callison-Burch C., Waites C., Voigt C., Manning C. D., Potts C., Ramirez C., Rivera C. E., Siro C., Raffel C., Ashcraft C., Garbacea C., Sileo D., Garrette D., Hendrycks D., Kilman D., Roth D., Freeman D., Khashabi D., Levy D., Gonzalez D. M., Perszyk D., Hernandez D., Chen D., Ippolito D., Gilboa D., Dohan D., Drakard D., Jurgens D., Datta D., Ganguli D., Emelin D., Kleyko D., Yuret D., Chen D., Tam D., Hupkes D., Misra D., Buzan D., Mollo D. C., Yang D., Lee D.-H., Schrader D., Shutova E., Cubuk E. D., Segal E., Hagerman E., Barnes E., Donoway E., Pavlick E., Rodola E., Lam E., Chu E., Tang E., Erdem E., Chang E., Chi E. A., Dyer E., Jerzak E., Kim E., Manyasi E. E., Zheltonozhskii E., Xia F., Siar F., Martinez-Plumed F., Happe F., Chollet F., Rong F., Mishra G., Winata G. I., de Melo G., Kruszewski G., Parascandolo G., Mariani G., Wang G., Jaimovitch-Lopez G., Betz G., Gur-Ari G., Galijasevic H., Kim H., Rashkin H., Hajishirzi H., Mehta H., Bogar H., Shevlin H., Schutze H., Yakura H., Zhang H., Wong H. M., Ng I., Noble I., Jumelet J., Geissinger J., Kernion J., Hilton J., Lee J., Fisac J. F., Simon J. B., Koppel J., Zheng J., Zou J., Kocon J., Thompson J., Wingfield J., Kaplan J., Radom J., Sohl-Dickstein J., Phang J., Wei J., Yosinski J., Novikova J., Bosscher J., Marsh J., Kim J., Taal J., Engel J., Alabi J., Xu J., Song J., Tang J., Waweru J., Burden J., Miller J., Balis J. U., Batchelder J., Berant J., Frohberg J., Rozen J., Hernandez-Orallo J., Boudeman J., Guerr J., Jones J., Tenenbaum J. B., Rule J. S., Chua J., Kanclerz K., Livescu K., Krauth K., Gopalakrishnan K., Ignatyeva K., Markert K., Dhole K. D., Gimpel K., Omondi K., Mathewson K., Chiafullo K., Shkaruta K., Shridhar K., McDonell K., Richardson K., Reynolds L., Gao L., Zhang L., Dugan L., Qin L., Contreras-Ochando L., Morency L.-P., Moschella L., Lam L., Noble L., Schmidt L., He L., Colon L. O., Metz L., Senel L. K., Bosma M., Sap M., ter Hoeve M., Farooqi M., Faruqui M., Mazeika M., Baturan M., Marelli M., Maru M., Quintana M. J. R., Tolkiehn M., Giulianelli M., Lewis M., Potthast M., Leavitt M. L., Hagen M., Schubert M., Baitemirova M. O., Arnaud M., McElrath M., Yee M. A., Cohen M., Gu M., Ivanitskiy M., Starritt M., Strube M., Swedrowski M., Bevilacqua M., Yasunaga M., Kale M., Cain M., Xu M., Suzgun M., Walker M., Tiwari M., Bansal M., Aminnaseri M., Geva M., Gheini M., Varma T M., Peng N., Chi N. A., Lee N., Krakover N. G.-A., Cameron N., Roberts N., Doiron N., Martinez N., Nangia N., Deckers N., Muennighoff N., Keskar N. S., Iyer N. S., Constant N., Fiedel N., Wen N., Zhang O., Agha O., Elbaghdadi O., Levy O., Evans O., Casares P. A. M., Doshi P., Fung P., Liang P. P., Vicol P., Alipoormolabashi P., Liao P., Liang P., Chang P., Eckersley P., Htut P. M., Hwang P., Milkowski P., Patil P., Pezeshkpour P., Oli P., Mei Q., Lyu Q., Chen Q., Banjade R., Rudolph R. E., Gabriel R., Habacker R., Risco R., Milliere R., Garg R., Barnes R., Saurous R. A., Arakawa R., Raymaekers R., Frank R., Sikand R., Novak R., Sitelew R., LeBras R., Liu R., Jacobs R., Zhang R., Salakhutdinov R., Chi R., Lee R., Stovall R., Teehan R., Yang R., Singh S., Mohammad S. M., Anand S., Dillavou S., Shleifer S., Wiseman S., Gruetter S., Bowman S. R., Schoenholz S. S., Han S., Kwatra S., Rous S. A., Ghazarian S., Ghosh S., Casey S., Bischoff S., Gehrmann S., Schuster S., Sadeghi S., Hamdan S., Zhou S., Srivastava S., Shi S., Singh S., Asaadi S., Gu S. S., Pachchigar S., Toshniwal S., Upadhyay S., Debnath S., Shakeri S., Thormeyer S., Melzi S., Reddy S., Makini S. P., Lee S.-H., Torene S., Hatwar S., Dehaene S., Divic S., Ermon S., Biderman S., Lin S., Prasad S., Piantadosi S. T., Shieber S. M., Misherghi S., Kiritchenko S., Mishra S., Linzen T., Schuster T., Li T., Yu T., Ali T., Hashimoto T., Wu T.-L., Desbordes T., Rothschild T., Phan T., Wang T., Nkinyili T., Schick T., Kornev T., Tunduny T., Gerstenberg T., Chang T., Neeraj T., Khot T., Shultz T., Shaham U., Misra V., Demberg V., Nyamai V., Raunak V., Ramasesh V., Prabhu V. U., Padmakumar V., Srikumar V., Fedus W., Saunders W., Zhang W., Vossen W., Ren X., Tong X., Zhao X., Wu X., Shen X., Yaghoobzadeh Y., Lakretz Y., Song Y., Bahri Y., Choi Y., Yang Y., Hao Y., Chen Y., Belinkov Y., Hou Y., Hou Y., Bai Y., Seid Z., Zhao Z., Wang Z., Wang Z. J., Wang Z., Wu Z. (2022). Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models // https://arxiv.org/abs/2206.04615

Результаты тестирования современных моделей машинного обучения на этом наборе тестов показывают, что, хотя прогресс в последние годы очень значителен, сохраняется множество задач, в которых люди пока что уверенно превосходят даже самые совершенные нейросети. При этом если существующие темпы роста возможностей моделей будут сохраняться до конца 2020-х гг., то этот разрыв, скорее всего, будет ликвидирован.

Авторы ещё одной коллекции тестов для больших языковых моделей — HELM (Holistic Evaluation of Language Models, Комплексная оценка языковых моделей) — делают ставку на развитую систему классификации тестовых заданий (по годам создания, языкам, типам решаемых задач и методологиям оценки). Кроме того, они используют для оценки ответов моделей целых семь показателей: точность [accuracy], калибровку [calibration], устойчивость [robustness], справедливость [fairness], предвзятость [bias], токсичность [toxicity] и эффективность [efficiency]. Всё это позволяет авторам агрегатора тестов производить оценку языковых моделей в зависимости от сценариев их предполагаемого использования [2218] .

2218

Liang P., Bommasani R., Lee T., Tsipras D., Soylu D., Yasunaga M., Zhang Y., Narayanan D., Wu Y., Kumar A., Newman B., Yuan B., Yan B., Zhang C., Cosgrove C., Manning C. D., Re C., Acosta-Navas D., Hudson D. A., Zelikman E., Durmus E., Ladhak F., Rong F., Ren H., Yao H., Wang J., Santhanam K., Orr L., Zheng L., Yuksekgonul M., Suzgun M., Kim N., Guha N., Chatterji N., Khattab O., Henderson P., Huang Q., Chi R., Xie S. M., Santurkar S., Ganguli S., Hashimoto T., Icard T., Zhang T., Chaudhary V., Wang W., Li X., Mai Y., Zhang Y., Koreeda Y. (2022). Holistic Evaluation of Language Models // https://arxiv.org/abs/2211.09110

Другое направление развития таких тестов — добавление дополнительных модальностей, например зрительной. Одним из хорошо зарекомендовавших себя видов такого рода заданий является ответ на вопросы, заданные к некоторой картинке. Например, к фотографии пиццы можно задать вопросы: «На сколько кусков нарезана эта пицца?» или «Является ли эта пицца вегетарианской?» В научной литературе такой тип заданий обычно именуется «ответом на визуальные вопросы» (Visual Question Answering, VQA) [2219] . Если посмотреть на таблицу лидеров для задачи VQA, основанную на популярном датасете COCO (Common Objects in COntext, Обычные объекты в контексте), то в ней всё ещё лидируют люди: трансформерная модель VLMo (Vision-Language pretrained Model, Предобученная модель «зрение — язык») [2220] демонстрирует точность ответов, равную 81,3%, при 83% у людей [2221] . Справедливости ради стоит отметить, что за 2021 г. моделям удалось прибавить почти четыре процентных пункта, поэтому и здесь торжество ИИ не за горами.

2219

Goyal Y., Khot T., Summers-Stay D., Batra D., Parikh D. (2016). Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering // https://arxiv.org/abs/1612.00837

2220

Wang W., Bao H., Dong L., Wei F. (2021). VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts // https://arxiv.org/abs/2111.02358

2221

Shrivastava A., Goyal Y., Batra D., Parikh D., Agrawal A. (2021). Welcome to the VQA Challenge 2021! / Visual Question Answering // https://visualqa.org/challenge.html

Впрочем, создатели сложных автоматизированных тестов не отчаиваются: в начале 2022 г. они порадовали научное сообщество новым многоязычным набором сложных заданий, получившим название IGLUE (Image-Grounded Language Understanding Evaluation, Базирующаяся на изображениях оценка понимания языка) [2222] . Постепенное усложнение автоматизированных тестов должно помочь исследователям в деле создания новых, ещё более эффективных моделей для решения задач обработки естественного языка.

2222

Bugliarello E., Liu F., Pfeiffer J., Reddy S., Elliott D., Ponti E. M., Vulic I. (2021). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages / https://arxiv.org/abs/2201.11732

6.3.4 Современные чат-боты и прогнозы Тьюринга

6.3.4.1 Успехи чат-ботов — отличаем правду от вымысла

В наши дни трудно найти человека, который никогда не сталкивался бы в своей жизни с диалоговыми (разговорными) моделями ИИ, ведь именно такие модели являются «сердцами» современных чат-ботов. Справочный бот на сайте интернет-магазина, робот-оператор колл-центра банка, режим «болталки» в виртуальном ассистенте, рекламный бот в социальной сети — всё это олицетворения диалоговых моделей. Некоторые из этих моделей не сложнее Элизы или Перри, а некоторые основаны на трансформерах и других современных нейросетевых моделях.

Прогресс в области создания диалоговых моделей за последнее десятилетие действительно велик. Нередко пресса всерьёз заявляет о том, что тому или иному чат-боту удалось пройти тест Тьюринга [2223] , [2224] , чем вызывает [2225] , [2226] нехилый баттхёрт у специалистов по ИИ и машинному обучению. Под влиянием подобных заявлений прессы периодически выдвигаются предложения о замене «устаревшего» теста Тьюринга на какую-либо более стильную и молодёжную процедуру.

2223

Schofield J. (2014). Computer chatbot 'Eugene Goostman' passes the Turing test / ZDNet, 8 June 2014 // https://www.zdnet.com/article/computer-chatbot-eugene-goostman-passes-the-turing-test/

2224

Котляр П. (2014). Мальчик Женя из Одессы одолел Тьюринга. Компьютерная программа впервые в истории прошла знаменитый тест Тьюринга на человечность / газета.ru, 09.06.2014 // https://www.gazeta.ru/science/2014/06/09_a_6064069.shtml

2225

Masnick M. (2014). No, A 'Supercomputer' Did NOT Pass The Turing Test For The First Time And Everyone Should Know Better / techdirt, Jun 9th 2014 // https://www.techdirt.com/articles/20140609/07284327524/no-computer-did-not-pass-turing-test-first-time-everyone-should-know-better.shtml

2226

Mann A. (2014). That Computer Actually Got an F on the Turing Test / Wired, 06.09.14 // https://www.wired.com/2014/06/turing-test-not-so-fast/

Поделиться с друзьями: