Вторая эра машин. Работа, прогресс и процветание в эпоху новейших технологий
Шрифт:
Весь этот контент, создаваемый пользователями, не только помогает нам выражать себя и общаться друг с другом; он также способствует претворению в реальность технологий, ранее существовавших лишь в мире научной фантастики. К примеру, Siri постепенно совершенствуется, анализируя огромное количество звуковых файлов, создаваемых пользователями при взаимодействии с системой распознавания голоса. База данных Watson состоит примерно из 200 миллионов страниц документов (в том числе полной копии содержимого «Википедии») и «весит» около четырех терабайт. [98] В течение некоторого времени в лексикон Watson входил даже словарь современного сленга, однако эта часть пользовательского контента была удалена после того, как, к изрядному смущению инженеров, Watson стал включать в свои ответы ругательства. [99]
98
“IBM Watson vanquishes Human Jeopardy Foes”, PC World, 16 февраля 2011 г., http://www.pcworld.com/article/219893/ibm_watson_vanquishes_human_jeopardy_foes.html.
99
“IBM’s Watson Memorized the Entire ‘Urban Dictionary,’ Then His Overlords had to Delete It”, The Atlantic, January 10, 2013, http://www.theatlantic.com/technology/archive/2013/01/ibms-watson-memorized-the-entire-urban-dictionary-then-hisoverlords-had-to-delete-it/267047/.
Возможно, нам не стоит слишком сильно удивляться росту и популярности пользовательского контента: в конце концов, мы, люди, любим делиться и взаимодействовать. Куда более удивительным кажется то, что и машинам нравится общаться друг с другом.
Межмашинное взаимодействие (machine-to-machine, M2M) – универсальный термин для описания устройств, обменивающихся данными через интернет. На принципе M2M основана работа Waze; когда приложение активируется на смартфоне, оно начинает постоянно отправлять информацию на серверы Waze без какого-либо вмешательства со стороны человека. Подобным же образом, когда вы ищете недорогие авиабилеты на агрегаторе Kayak, сервис отправляет запросы на серверы различных авиакомпаний, а те отвечают в реальном времени, опять же без какого-либо вмешательства человека. Банкомат, прежде чем выдать нам наличные, уточняет у банка, сколько денег у вас есть на счету; цифровые термометры в фургонах-рефрижераторах постоянно демонстрируют супермаркетам, что товары в дороге не слишком сильно нагреваются; сенсоры на фабриках, где производят полупроводники, передают штаб-квартирам компаний сведения о каждом случае брака; кроме того, в реальном времени и без перерывов происходит бесчисленное количество других типов M2M– коммуникации. Согласно статье, опубликованной в июле 2012 года в газете The New York Times,
совокупный объем бесед между роботами в беспроводных сетях мира… может вскоре превысить объем всей голосовой коммуникации между людьми в этом канале. [100]
Когда метрической системы не хватает: взрывной рост данных
Дигитализация практически всего: документов, новостей, музыки, фотографий, видео, карт, новостей в личной жизни, социальных сетей, запросов на получение информации и ответов на них, данных со всевозможных сенсоров и так далее – представляет собой одно из самых важных явлений последних лет. Чем дальше мы входим во вторую эру машин, тем сильнее расширяется и ускоряется дигитализация, и при взгляде на статистику, связанную с ней, у нас просто перехватывает дыхание. Согласно данным компании Cisco Systems, всемирный интернет-трафик увеличился в 12 раз всего за 5 лет с 2006 по 2011 год, достигнув объема в 23,9 экзабайт в месяц. [101]
100
Kevin J. O’Brien, “Talk to Me, One Machine Said to the Other”, New York Times, 29 июля 2012 г., http://www.nytimes.com/2012/07/30/technology/talk-to-me-one-machine-said-to-the-other.html.
101
“VNI Forecasthighlights”,Cisco,(по состоянию на 28 июня 2013 г.).
Экзабайт – огромное число, это примерно 200 тысяч баз данных компьютера Watson. Однако даже этого числа не хватает, чтобы описать общей объем нынешней и будущей дигитализации. Компания IDC, занимающаяся технологическими исследованиями, рассчитала, что в 2012 году в мире имелось 2,7 зеттабайт (2,7 сикстильона байтов) цифровых данных – почти вдвое больше, чем в 2011-м. И все эти данные не просто хранятся на жестких дисках наших компьютеров – они активно перемещаются. По прогнозам Cisco, глобальный трафик по межсестевому протоколу Internet достигнет к 2016 году 1,3 зеттабайт. [102] Для сравнения: это больше 250 миллиардов DVD-дисков с информацией. [103]
102
“VNI Forecasthighlights”,Cisco,(по состоянию на 28 июня 2013 г.).
103
Infographic, “The Dawn of the Zettabyte Era”, Cisco Blogs,(по состоянию на 28 июня 2013 г.).
Все эти цифры ясно дают понять, что дигитализация создает по-настоящему большие объемы данных. По сути, если такой же быстрый темп роста сохранится и в будущем, нам перестанет хватать метрической системы. Когда в 1991 году на XIX Конференции мер и весов был расширен список приставок для числительных, самой большой из них была «йотта», обозначающая один септильон, или 1024. [104] В нашей «эре зеттабайт» мы находимся всего в одном шаге от этого значения.
104
Russ Rowlett, “How many? A Dictionary of Units of Measurement”, 16 апреля 2005 г., http://www.unc.edu/~rowlett/units/prefixes.html.
Бинарная наука
Взрывное расширение дигитализации, происходящее в последнее время, производит сильное впечатление, однако насколько оно важно? Действительно ли все эти экза- и зеттабайты цифровых данных полезны? Да, они невероятно полезны. Одна из главных причин, которые позволяют нам считать дигитализацию основной силой, формирующей вторую эру машин, состоит в том, что дигитализация улучшает процесс овладевания знанием. Она обеспечивает легкий доступ к огромным массивам данных, а данные – это источник жизненной силы науки. В данном случае под «наукой» мы понимаем работу над формулированием теорий и гипотез и их последующую проверку (говоря менее формально, мы делаем догадки о том, как что-то работает, а потом проверяем, верны ли они).
Некоторое время назад Эрик предположил, что данные поиска в интернете могут сигнализировать о будущих изменениях в ценах на недвижимость и объеме ее предложения по всей стране. Он исходил из того, что если семейная пара собирается переехать в другой город и купить там дом, то супруги вряд ли надеются провернуть это за пару дней. Они начнут собирать нужную информацию заранее, за несколько месяцев до переезда. В наши дни поиск такой первоначальной информации в интернете происходит постоянно: вы начинаете с того, что вбиваете в поисковой строке «риелтор в Финиксе», «районы Финикса» или просто «цена дом две спальни Финикс».
Чтобы протестировать свою гипотезу, Эрик поинтересовался у Google, может ли он получить данные по статистике поиска. Ему ответили, что никакого специального разрешения здесь не требуется и что эти данные бесплатно доступны онлайн. Эрик и его аспирант Линн Ву (оба – совсем не специалисты в области экономики недвижимости) построили простую статистическую модель, чтобы изучить данные, использующие контент, создаваемый пользователями в ходе их поисковых запросов через Google. Их модель связывала изменения в количестве поисковых запросов определенного рода с последующими изменениями цен на недвижимость и предсказывала, что если количество запросов, подобных описанным выше, сегодня выросло, то цены на дома и объем предложения в Финиксе будут расти в ближайшие три месяца. Оказалось, что эта простая модель вполне работает: фактически она предсказывала уровень продаж на 23,6 % точнее, чем прогнозы, публикуемые экспертами Национальной ассоциации риэлторов.
Подобных же успехов при использовании доступных цифровых данных добиваются и исследователи в других областях. Команда под руководством Руми Чунара из Гарвардской медицинской школы исследовала пути распространения холеры после землетрясения 2010 года на Гаити и выяснила, что информация об эпидемии в «Твиттере» была не менее точной, чем данные официальных отчетов; кроме того, эта информация появлялась как минимум на две недели раньше. [105] Ситарам Асур и Бернардо Губерман из Лаборатории социальной инженерии компании Hewlett Packard обнаружили, что твиты могут также использоваться для прогнозирования дохода от проданных билетов в кинотеатры. По словам ученых, их исследование «наглядно продемонстрировало, как социальные сети отражают коллективную мудрость, которая, если ее направить в нужное русло, может чрезвычайно мощно и точно предсказывать, что произойдет в будущем». [106]
105
Rumi Chunara, Jason R. Andrews, and John S. Brown-stein, “Social and News Media Enable Estimation of Epidemiological Patterns early in the 2010 Haitian Cholera Outbreak”, American Journal of Tropical Medicine and Hygiene 86, no. 1 (2012): стр. 39–45, doi:10.4269/ajtmh.2012.11–0597.
106
Sitaram Asur and Bernardo A. Huberman, “Predicting the Future with Social Media”, arXiv e-print, Cornell University Library, 29 марта 2010 г., http://arxiv.org/abs/1003.5699.
Дигитализация может также помочь нам лучше понимать прошлое. Так, по состоянию на март 2012 года компания Google отсканировала свыше 20 миллионов книг, опубликованных за несколько столетий. [107] Этот огромный массив цифровых слов и фраз формирует основу для так называемой культуромики, или «применения техники сбора данных с высокой пропускной способностью и их анализа для изучения человеческой культуры». [108] Команда профессионалов из нескольких отраслей под руководством Жана-Батиста Мишеля и Эреца Либермана Эйдена проанализировала свыше 5 миллионов книг, опубликованных на английском языке начиная с 1800 года. Помимо прочего, они обнаружили, что количество слов в английском языке за период между 1950 и 2000 годами выросло более чем на 70 %, что прославиться в наши дни можно быстрее и легче, чем в прошлом (но и проходит эта слава быстрее), и что в XX веке интерес к вопросам эволюции стабильно снижался до тех пор, пока Уотсон и Крик не открыли структуру ДНК. [109]
107
Jennifer Howard, “Google Begins to Scale Back Its Scanning of Books From University Libraries”, Chronicle of Higher Education, 9 марта 2012 г., http://chronicle.com/article/Google-Begins-to-Scale-Back/131109/.
108
“Culturomics”,(по состоянию на 28 июня 2013 г.).
109
Jean-Baptiste Michel et al., “Quantitative Analysis of Culture Using millions of Digitized Books”, Science 331, no. 6014 (2011): стр. 176–182, doi:10.1126/science.1199644.
Все это – примеры более ясного понимания и точного предсказания (или более качественной науки), возникшие благодаря дигитализации. Хэл Вариан, главный экономист Google, многие годы изучал это явление. Он также умеет отлично описывать то, что видит. Одно из наших любимых высказываний Вариана звучит так: «Я утверждаю и буду утверждать, что самой модной и привлекательной профессией в следующие 10 лет будет статистика. И я не шучу». [110] Когда мы видим объемы постоянно создающихся цифровых данных и думаем о том, сколько еще открытий при их исследовании нас ожидает, то не можем не согласиться с ним.
110
Steve Lohr, “For Today’s Graduate, Just One Word: Statistics”, New York Times, 6 августа 2009 г., http://www.nytimes.com/2009/08/06/technology/06stats.html.