Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
Впрочем, в наши дни для оценки качества диалоговых моделей активно продолжают использовать и простые попарные (side-by-side) сравнения по принципу: «какие реплики нравятся вам больше?» Например, на платформе Chat Arena [Чат-арена] любой желающий может дать сравнительную оценку ответов разных моделей, на основе чего формируется рейтинг LMSys (Large Model Systems Organization, Организация систем больших моделей) [2281] .
Словом, как и во многих других творческих задачах, проблема оценки качества полученных результатов в диалоговых системах стоит довольно остро. Тем не менее значительный прогресс, произошедший в этой области за последние годы, заметен невооружённым глазом. Идеи BlenderBot и Meena получили дальнейшее развитие в следующем поколении диалоговых моделей, таких как LaMDA [2282] , Anthropic assistant [2283] , WebGPT [2284] , BlenderBot 2 [2285] , BlenderBot 3 [2286] , Sparrow [2287] и, наконец, ChatGPT [2288] , [2289] и его многочисленные аналоги, о которых мы поговорим чуть позже.
2281
LMSYS (2023). Chatbot Arena Leaderboard Updates (Week 2) // https://lmsys.org/blog/2023-05-10-leaderboard/
2282
Thoppilan R., Freitas D. D., Hall J., Shazeer N., Kulshreshtha A., Cheng H., Jin A., Bos T., Baker L., Du Y., Li Y., Lee H., Zheng H. S., Ghafouri A., Menegali M., Huang Y., Krikun M., Lepikhin D., Qin J., Chen D., Xu Y., Chen Z., Roberts A., Bosma M., Zhao V., Zhou Y., Chang C., Krivokon I., Rusch W., Pickett M., Srinivasan P., Man L., Meier-Hellstern K., Morris M. R., Doshi T., Santos R. D., Duke T., Soraker J., Zevenbergen B., Prabhakaran V., Diaz M., Hutchinson B., Olson K., Molina A., Hoffman-John E., Lee J., Aroyo L., Rajakumar R., Butryna A., Lamm M., Kuzmina V., Fenton J., Cohen A., Bernstein R., Kurzweil R., Aguera-Arcas B., Cui C., Croak M., Chi E., Le Q. (2022). LaMDA: Language Models for Dialog Applications // https://arxiv.org/abs/2201.08239
2283
Askell A., Bai Y., Chen A., Drain D., Ganguli D., Henighan T., Jones A., Joseph N., Mann B., DasSarma N., Elhage N., Hatfield-Dodds Z., Hernandez D., Kernion J., Ndousse K., Olsson C., Amodei D., Brown T., Clark J., McCandlish S., Olah C., Kaplan J. (2021). A General Language Assistant as a Laboratory for Alignment // https://arxiv.org/abs/2112.00861
2284
Nakano R., Hilton J., Balaji S., Wu J., Ouyang L., Kim C., Hesse C., Jain S., Kosaraju V., Saunders W., Jiang X., Cobbe K., Eloundou T., Krueger G., Button K., Knight M., Chess B., Schulman J. (2021). WebGPT: Browser-assisted question-answering with human feedback // https://arxiv.org/abs/2112.09332
2285
Shaster K., Weston J. (2021). Blender Bot 2.0: An open source chatbot that builds long-term memory and searches the internet / Meta AI blog, July 16, 2021. // https://ai.meta.com/blog/blender-bot-2-an-open-source-chatbot-that-builds-long-term-memory-and-searches-the-internet/
2286
Shuster K., Xu J., Komeili M., Ju D., Smith E. M., Roller S., Ung M., Chen M., Arora K., Lane J., Behrooz M., Ngan W., Poff S., Goyal N., Szlam A., Boureau Y., Kambadur M., Weston J. (2022). BlenderBot 3: a deployed conversational agent that continually learns to responsibly engage // https://arxiv.org/abs/2208.03188
2287
Glaese A., McAleese N., Trebacz M., Aslanides J., Firoiu V., Ewalds T., Rauh M., Weidinger L., Chadwick M., Thacker P., Campbell-Gillingham L., Uesato J., Huang P., Comanescu R., Yang F., See A., Dathathri S., Greig R., Chen C., Fritz D., Elias J. S., Green R., Mokra S., Fernando N., Wu B., Foley R., Young S., Gabriel I., Isaac W., Mellor J., Hassabis D., Kavukcuoglu K., Hendricks L. A., Irving G. (2022). Improving alignment of dialogue agents via targeted human judgements // https://arxiv.org/abs/2209.14375
2288
OpenAI (2022). Introducing ChatGPT / OpenAI blog, November 30, 2022. // https://openai.com/blog/chatgpt
2289
Liu Y., Han T., Ma S., Zhang J., Yang Y., Tian J., He H., Li A., He M., Liu Z., Wu Z., Zhu D., Li X., Qiang N., Shen D., Liu T., Ge B. (2023). Summary of ChatGPT/GPT-4 Research and Perspective Towards the Future of Large Language Models // https://arxiv.org/abs/2304.01852
6.4 Машина учится говорить
Врач: ...Юра, смотри на свои руки, смотри на свои пальцы, которые напрягаются всё больше и больше. Сейчас я скажу «три», и руки станут неподвижными. Внимание: один, два, три, и руки неподвижны. Ты не можешь двигать руками. Ты пытаешься шевелить руками, но руки твои неподвижны. Тебе трудно делать тонкие дифференцированные движения. Твои руки абсолютно неподвижны. А теперь я сниму это состояние, и ты будешь говорить. Только громко и чётко, свободно и легко, не боясь своего голоса и своей речи. Если ты будешь говорить сейчас, ты будешь на всю жизнь говорить. Громко и чётко! Внимание. На меня смотри. При слове «три» я снимаю напряжение с твоих рук и с твоей речи. Раз, два, три — громко и чётко — я могу говорить! Давай!
Юра: Я-мо-гу-го-во-рить!
6.4.1 Первые попытки синтеза речи
Мечты о говорящих машинах стары как мир. В древнекитайском трактате «Ле-цзы» (??, буквально — «[Трактат] учителя Ле»), составленном предположительно в IV в., можно найти упоминание человекообразного автоматона, созданного древним мастером по имени Ян Ши в годы правления императора Му-вана (IX в. до н. э.). Среди прочих талантов этого устройства была способность петь (не фальшивя). Другой говорящий человекоподобный механизм, в соответствии со средневековой легендой, был создан Альбертом Великим, знаменитым философом, теологом и учёным, наставником Фомы Аквинского. Для изготовления устройства, получившего название «андроид» (т. е. «подобный человеку»), Альберт Великий обратился за помощью к «ангелам преисподней» [2290] . Поминая историю с говорящей головой Сильвестра II, это был уже не первый случай, когда подрядчики из ада помогали святым отцам с устройствами для синтеза речи. Если же не принимать в расчёт эти и другие легендарные приспособления древних, то первенство в создании говорящих устройств принадлежит механикам конца XVIII в., одним из которых был уже знакомый нам изобретатель «шахматного автомата» Вольфганг фон Кемпелен. Причём, в отличие от самого знаменитого изобретения фон Кемпелена, его говорящие приспособления не были плодами высокотехнологичного мошенничества. Изобретатель оставил после себя обстоятельный трактат под названием «Механизм человеческой речи вместе с описанием говорящей машины» (Mechanismus der menschlichen Sprache: nebst der Beschreibung seiner sprechenden Maschine) [2291] , благодаря которому созданное им устройство неоднократно воспроизводилось. Например, в 2007 г. усилиями немецких учёных Фабиана Бракхане и Доминика Бауэра была создана реплика «говорящей» машины фон Кемпелена [2292] .
2290
Brewster D. (1870). Letters on Natural Magic Addressed to Sir Walter Scott, Bart. Harper & brothers // https://books.google.ru/books?id=fftYAAAAYAAJ
2291
Kempelen v. W. (1791). Wolfgangs von Kempelen k. k. wirklichen Hofraths Mechanismus der menschlichen Sprache: nebst der Beschreibung seiner sprechenden Maschine. J. V. Degen // https://books.google.ru/books/about/Wolfgangs_von_Kempelen_k_k_wirklichen_Ho.html?id=W75CAQAAMAAJ
2292
Van Hal T. (2019). Early Modern Views on Language and Languages (ca. 1450—1800) / Oxford Research Encyclopaedia of Linguistics (2019). Oxford University Press, pp. 1—22 // https://doi.org/10.1093/acrefore/9780199384655.013.381
В результате своих исследований фон Кемпелен пришёл к выводу, что человеческая речь возникает в результате взаимодействия речевого тракта и ротовой полости, кроме того, при произнесении взрывных согласных могут быть задействованы язык и губы. Идея Кемпелена заключалась в механическом моделировании речевого аппарата человека. Созданная фон Кемпеленом машина была способна «произносить» отдельные звуки, слова и даже целые фразы.
Внешне машина фон Кемпелена представляла собой деревянный ящик с двумя отверстиями для рук оператора. К нему была присоединена напорная камера — кожаные мехи, выполнявшие роль лёгких. Аналогом голосовых связок был вибрирующий язычок, а роль речевого тракта выполняла кожаная трубка. Изменяя руками её форму, можно было производить гласные звуки. Согласные же получались при прохождении воздуха через четыре сужающихся прохода, которые нужно было зажимать пальцами.
Фон Кемпелен утверждал, что для того, чтобы научиться управляться с машиной, обычно достаточно двух-трёх недель тренировок. Машина была способна вполне отчётливо «произносить» несколько сотен слов, причём не только коротких, таких как mama [мама] или papa [папа], но и довольно длинных, таких, например, как Mississippi [Миссисипи] или Constantinopel [Константинополь]. При этом голос машины звучал монотонно — длину вибрирующего язычка можно было изменять, но не во время работы [2293] .
2293
Broecke M. v. d., Heuven V. J. v., Zonneveld W. (2011). Sound Structures: Studies for Antonie Cohen. Walter de Gruyter // https://books.google.ru/books?id=rh5BKurBD0kC
Машину фон Кемпелена наблюдали в действии многие известные люди. Так, немецкий писатель Гёте писал: «Говорящая машина Кемпелена… хотя и не слишком красноречива, но очень хорошо произносит некоторые детские слова и звуки». Барон Гримм находил голос машины довольно приятным и даже мелодичным [2294] .
Впрочем, фон Кемпелен не был единственным учёным, работавшим на излёте XVIII в. над созданием говорящих машин. Его работа в этом направлении была начата, по всей видимости, в 1769 г., а около 1770 г. австрийский механик Фридрих фон Кнаусс изготовил и показал при венском императорском дворе четыре говорящих автоматона в форме человеческих голов. К сожалению, история не сохранила детального описания этих устройств и их возможностей. По всей видимости, устройства не были особенно удачными, поскольку, в отличие от других знаменитых автоматонов фон Кнаусса (механического флейтиста и механического писца), мы не находим у современников изобретателя восторженных воспоминаний о говорящих головах [2295] .
2294
Hankins T. L., Silverman R. J. (2014). Instruments and the Imagination. Princeton University Press // https://books.google.ru/books?id=bUoABAAAQBAJ
2295
Bedini S. (1999). Patrons, Artisans, and Instruments of Science, 1600-1750. Ashgate/Variorum //http://xroads.virginia.edu/~DRBR/b_edini.html
Чуть больше известно о говорящей машине, изготовленной в 1771 г. выдающимся английским естествоиспытателем Эразмом Дарвином, дедом создателя теории эволюции Чарльза Дарвина. Она представляла собой деревянный рот, снабжённый губами из мягкой кожи. Вот как описывал машину сам Дарвин: «В тыльной части машины располагались две „ноздри“, которые при необходимости можно было быстро зажать пальцами. Между двумя гладкими дощечками была натянута шёлковая лента в дюйм длиной и четверть дюйма шириной; когда струя воздуха из кузнечных мехов достигала ленты, та начинала вибрировать между дощечками, издавая приятные звуки, напоминающие человеческий голос. Голова произносила звуки „р“, „b“, „m“, а также „а“, которые складывались в простые слова. Когда губы медленно сжимались, тон становился очень жалобным, что производило на слушателей сильное впечатление».
Очевидцы вспоминали, что слова «мама» и «папа», произносимые машиной, напоминали звуки детского голоса. Исследования Дарвина показали, что для воспроизведения звуков человеческой речи машина должна обладать способностью выполнять 13 различных видов движения. Дарвин считал, что этими движениями можно управлять при помощи клавиатуры, совмещённой с клавиатурой клавесина. Таким образом, устройство сможет и петь, и аккомпанировать [2296] .
Английский промышленник Мэттью Болтон, ознакомившись с машиной Дарвина, предложил тому премию во исполнение нижеследующего соглашения: «Я обещаю заплатить доктору Дарвину из Личфилда тысячу фунтов за то, что он предоставит мне (в течение двух лет с даты настоящего документа) инструмент, который способен произносить молитву Господу, Символ веры и Десять заповедей обычным языком, и его уступит мне, и только мне, право собственности на указанное изобретение со всеми вытекающими отсюда преимуществами».
2296
Шилов В. В. (2017). Удивительная история информатики и автоматики // https://books.google.ru/books?id=rUiCAQAAQBAJ
Данное обязательство было подписано Болтоном и заверено двумя свидетелями [2297] .
К сожалению, Дарвин вскоре уехал из Личфилда, и занятость другими делами не позволила ему продолжить работу над машиной. Таким образом, премия Болтона осталась невостребованной.
Дарвин и Болтон были членами так называемого Лунного общества Бирмингема (Lunar Society of Birmingham) — неформального клуба учёных, изобретателей и промышленников, действовавшего с 1765 по 1813 г. (впрочем, по этому поводу мнения историков разнятся) и включавшего в себя видных деятелей британского Просвещения.
2297
Dickinson H. W. (2010). Matthew Boulton. Cambridge University Press // https://books.google.ru/books?id=smcX52oUHYwC
Изначально общество называлось «Лунный кружок» (Lunar Circle), но с 1775 г. обзавелось более солидным названием. Общество называлось «Лунным», поскольку его собрания происходили в дни полнолуния (в отсутствие уличного освещения свет полной Луны делал дорогу домой после ужина проще и безопасней). Члены общества в шутку называли себя «лунатиками» [lunaticks], то есть сумасшедшими (сегодня это слово в английском языке пишется как lunatic и приобрело более выраженный негативный оттенок). Помимо Болтона и Дарвина членами общества были изобретатель паровой машины (и партнёр Болтона по бизнесу) Джеймс Уатт, выдающийся химик Джозеф Пристли, один из основоположников промышленного дизайна Джозайя Уэджвуд, механик и геолог Джон Уайтхёрст, а также другие знаменитые учёные и предприниматели [2298] , [2299] , [2300] , [2301] .
2298
Hart-Davis A. (2001). James Watt and the Lunaticks of Birmingham / Science, Vol. 292, Iss. 5514, pp. 55—56 // https://doi.org/10.1126/science.1060460
2299
Robinson E. (1962). The Lunar Society: Its Membership and Organisation / Transactions of the Newcomen Society, Vol. 35, Iss. 1, pp. 153—178 // https://doi.org/10.1179/tns.1962.009
2300
Schofield R. E. (1966). The Lunar Society of Birmingham; A Bicentenary Appraisal / Notes and Records of the Royal Society of London, Vol. 21, No. 2 (Dec., 1966), pp. 144—161 // https://doi.org/10.1098/rsnr.1966.0015
2301
Uglow J. S. (2002). The Lunar Men: the friends who made the future. Faber and Faber // https://books.google.ru/books/about/The_Lunar_Men.html?id=UZi0QgAACAAJ
Во Франции изготовлением говорящих механических голов занимался аббат Микаль, успехи которого воспеты известным публицистом роялистской направленности Антуаном Риваролем. О жизни самого аббата известно немного — уроженец Дофине, младший сын богатых родителей, он получил звание почётного каноника [chanoine honoraire] Кафедрального собора Святого Маврикия во Вьене [Cathedrale Saint-Maurice de Vienne] [2302] , [2303] , [2304] . Это звание обычно даётся церковным деятелям, которые не проживают рядом с храмом и не принимают непосредственного участия в деятельности прихода. Доля в церковных сборах [benefice], а также некоторый личный доход позволяли Микалю жить в Париже и тратить свободное время на хобби — конструирование механических игрушек.
2302
de Saint-Fond B. F. (1783). To Benjamin Franklin from Barthelemy Faujas de Saint-Fond, 16 June 1783 / National archives. Founders online // https://founders.archives.gov/documents/Franklin/01-40-02-0107
2303
Vial H., Capon G. (1902). Journal d'un Bourgeois de Popincourt (Lefebvre de Beauvray) avocat au Parlement 1784-1787. Extrait de la Correspondance historique et archeologique. Paris. Librairie Lucien Gougy 5, Quai Conti, 5 // https://gallica.bnf.fr/ark:/12148/bpt6k6471432r/f9.image.texteImage
2304
Ramsay G. J. (2019). Mechanical Speech Synthesis in Early Talking Automata / Acoustics Today, Vol. 15, Iss. 2, Summer 2019, pp. 11—19 // https://acousticstoday.org/wp-content/uploads/2019/06/Mechanical-Speech-Synthesis-in-Early-Talking-Automata-Gordon-J.-Ramsay.pdf