ЖАНРЫ

Большие данные, цифровизация и машинное обучение для собственников и топ-менеджеров, Или как зарабатывать больше с помощью информации
Шрифт:

• Инженеры по данным, которые создают огромные хранилища, вмещающие сотни терабайт информации. Они же пишут программы по сбору и конвертации этих данных в более удобные форматы, чтобы другие сотрудники могли ими пользоваться.

• Аналитики данных, которые занимаются построением и анализом графиков и диаграмм по уже собранным данным, чтобы лучше понимать бизнес-процессы и увеличивать прибыль компании.

• Специалисты по машинному обучению, которые могут создавать и обучать на собранных данных системы для предсказания каких-либо значимых для бизнеса параметров и их величин.

Иногда в тексте вместо общего названия «программисты» вам встретится более конкретное «специалист по данным». А какое именно направление имеется в виду, вы поймете из контекста.

Большие данные

Английское словосочетание Big Data дословно переводится как «большие данные». По сути – это подробная информация о предмете. К примеру, большие данные для торгового центра включают в себя сведения о чеках покупателей, о количестве посетителей и даже о температуре внутри здания в течение всего дня. При этом данные не ограничиваются стенами торгового центра, в них могут быть добавлены заметки о количестве людей, пользующихся ближайшей станцией метро. Или даже информация о частоте стрижки городскими службами расположенных в радиусе ста метров от торгового центра кустов. Эти с виду бесполезные данные, скрупулезно собираемые в течение продолжительного периода времени, и называются «большими данными».

При этом они представляют собой не только числа. Это могут быть:

• Текстовые отзывы клиентов и их обращения в службу поддержки.

• Комментарии в социальных сетях.

• Записи телефонных разговоров с клиентом.

• Фотографии – от аватаров клиентов до снимков товаров.

• Видео с камер наблюдения.

Вся эта информация может легко занимать десятки терабайт. И чем старше фирма, тем больше у нее накоплено данных для проведения ценных исследований: в современном мире намного дороже удалять старую информацию, чем хранить ее вечно. Это как раз тот случай, когда «своя ноша не тянет».

Из-за непрерывно поступающих данных компании стараются минимизировать объемы хранящейся информации для снижения расходов на электронные носители. Для этого, например, аудио- и видеозаписи с помощью специальных алгоритмов переводятся в более компактный вид. Из аудиофайлов выделяют речь. Из видеозаписей, например с камер наблюдения, можно получить данные о количестве находящихся в магазине посетителей. Поэтому если преобразовывают формат, то нет нужды хранить само исходное видео или аудио. Более того, даже обычная текстовая информация, которая и так занимает немного места, отлично сжимается благодаря современным алгоритмам. Это сильно уменьшает занятый объем хранилища компании. Однако, несмотря на затраты, сейчас даже у небольших предприятий, далеких от информационных технологий, можно найти в кладовке работающий сервер, забитый несколькими терабайтами данных.

Непосвященному человеку куча устаревшей информации на серверах компании может показаться мусором. Но на самом деле это нефть 21 века. Огромные массивы накопленных данных используются для предсказания будущего, в котором бизнес сможет развиваться лучше и заработать больше. Делаются такие прогнозы не напрямую человеком, а посредством компьютера, в который вложены специальные математические алгоритмы. Даже если на график, на котором отображено ежедневное изменение тысячи параметров за последний год, посмотрит хорошо подготовленный специалист, он увидит лишь забор из линий. А компьютер, машина, не напрягаясь сможет сделать верный вывод о влиянии этих параметров на чистую прибыль компании. Но если бы данные вообще не были собраны, то и никакого вывода сделать было бы нельзя. Именно для этого всевозможная информация и хранится в компании, потому что без нее невозможно натренировать машинный интеллект, сделать с его помощью прогноз на будущее и получить выгоду для бизнеса.

Далеко не все данные, которые попадают на серверы компании, представлены в удобном для использования виде. Поэтому «склады» этих данных разделяют на несколько типов, между которыми непрерывно перекачивается информация, изменяя свою форму (или, говоря профессиональным языком, формат). Первый склад называется «озеро данных» (с английского ”Data Lake”). В него попадает вообще все, во всех возможных форматах. Там могут находиться файлы текстовых документов PDF или DOC вперемешку с JPEG-изображениями и MP4-видеофайлами. Как можно догадаться, если бессистемно поставлять подобные потоки информации в хранилище и не определить заранее, как и куда сохранять, то озеро данных очень быстро превратится в болото. Чтобы этого не произошло, нужен специальный программист, он же «инженер по данным». А если быть совсем точным, «директор по данным» (с английского ”Chief Data Officer”). Он следит как за порядком на этом «водохранилище», так и за правами доступа к нему. Весь процесс называется «управление данными» (с английского ”Data Governance”).

Итак, озеро данных – это первый «склад», куда попадает информация. После чего начинается процесс ее трансформации в более удобные формы для последующего размещения в следующем складе под названием «хранилище данных» (с английского ”Data Warehouse”). Сам процесс преобразования информации и ее перемещения между «складами» называется ETL (англ. термин ”Extract, Transform, Load” – дословно «извлечение, преобразование, загрузка»). И в конце, когда данные оказываются в хранилище в удобной для чтения форме, с ними уже могут начинать работать другие специалисты. На основе этих данных строят графики, их анализируют, на них тренируют модели машинного обучения, а также используют их для построения статистики и бизнес-отчетов.

Обычно ETL-процессы автоматизируются специальными программами, которые пишут инженеры по данным. К примеру, каждый квартал компания скачивает публичный бухгалтерский отчет конкурентов в PDF-формате. Делается это для того, чтобы держать руку на пульсе, следить за рынком. Очевидно, что в такой ситуации невозможно попросить конкурента выкладывать информацию в более удобном формате. Поэтому инженер по данным пишет программу, которая сначала скачивает PDF-файл в «озеро данных», потом достает пару-тройку нужных значений из него и сохраняет в «хранилище». После чего обновляет графики, которые строятся по этим данным. И в конце удаляет исходный PDF-файл из озера. Подобная программа срабатывает по расписанию, автоматически, непрерывно доставляя свежую информацию руководству и аналитикам. А в хранилище не остается больших ненужных файлов, все преобразуется в максимально компактный и удобный вид.

Машинное обучение

Итак, мы определились как со способом хранения данных, так и с причиной их преобразования в более удобный и компактный формат. Но остались вопросы: какова цель хранения данных, почему их не стоит удалять по прошествии длительного времени, зачем их бесконечно копить? Кратко на эти вопросы можно ответить так: собранные «большие данные» нужны для обучения машин. После прохождения такого обучения компьютеры способны прогнозировать параметры спроса, предлагать меры по улучшению продуктов и услуг, а также выдвигать идеи для построения новых стратегий по продажам. Наличие подобных обученных машин ведет к увеличению прибыли, снижению издержек производства, улучшению бизнес-процессов, и, как следствие всего этого, компания начинает теснить своих конкурентов.

Попробуем понять принцип машинного обучения с помощью небольшого примера. Предположим, в компьютер загрузили фотографии собаки. Затем машине сказали: «Это фотографии собаки». Компьютер запомнит такой образ собаки и само слово. Для контроля этих знаний надо провести экзамен – загрузить в машину фото другой собаки. И компьютер, используя созданную во время обучения логическую модель, скажет: «С вероятностью 95 % это похоже на собаку». Если тренирующий машину специалист будет удовлетворен таким уровнем точности ответа, он завершит обучение и сохранит текущее состояние машины в файл, чтобы воспользоваться им при необходимости в будущем. В этом файле натренированной модели машинного обучения находится логика определения собак по изображению на фотографии. При этом данную модель можно улучшить в будущем, переобучить: сделать ее более точной, используя больше изображений.

Готовая модель с созданной в процессе обучения логикой сохраняется в файл, в память компьютера. Это делается специально, чтобы в следующий раз, когда понадобится прогноз, не приходилось проводить обучение с самого нуля. Обратите внимание, что тренировка машины похожа на процесс обучения человека: чтобы получить качественное образование, необходимо выполнить как можно больше контрольных, пройти много тестов и сдать кучу экзаменов. В случае с изображениями собаки, для достижения более-менее уверенного распознавания потребуется показать машине тысячи фотографий с этими и другими животными. Такой процесс обучения может растянуться на несколько дней даже на мощных компьютерах. А вот само предсказание с помощью готовой модели занимает считанные доли секунды. И может осуществляться на ограниченных вычислительных ресурсах, даже на мобильных телефонах. При этом файл модели редко превышает размер в пару сотен мегабайт.

Поделиться с друзьями: