Большие данные, цифровизация и машинное обучение для собственников и топ-менеджеров, Или как зарабатывать больше с помощью информации
Шрифт:
Недавно Samsung зарегистрировала неблагозвучный для русского уха бренд Gnusmas [9] , название которого представляет собой перевернутое Samsung. Возможно, производитель не знал, что в нашей стране это слово стало довольно популярным и используется в негативном ключе, в том числе в качестве нарицательного для отзывов о неудачных продуктах рассматриваемой нами компании. А теперь представьте, что произойдет, если Samsung официально попросит всех владельцев ее устройств использовать слово Gnusmas в качестве ругательства, чтобы выражать недовольство продуктами компании на просторах интернета. Очевидно, что с наличием контрольного слова поиск и обработка отзывов, оставленных во всемирной паутине, будут занимать намного меньше времени. Благодаря чему отдел качества сможет быстрее получать обратную связь от пользователей, и данные станут точнее. Наличие такого слова-метки в интернет-публикациях – бесценная находка для компании, позволяющая действительно улучшить выпускаемые ею продукты за счет анализа огромного количества реальных откликов.
9
Samsung G·nusmas .
К слову, обычно небольшие компании, у которых еще нет наработок в области искусственного интеллекта, используют сервисы «Google Alerts» или «Яндекс.Медиана» для обнаружения в интернете с помощью контрольных слов отзывов о своих товарах. Такие сервисы автоматически отправляют пользователю уведомление на почту, если в глобальной сети появляется заданное контрольное слово. То есть если у вашего товара достаточно уникальное название, можно настроить отслеживание прямо по нему и собирать обратную связь. Полученные отзывы необходимо классифицировать на положительные и отрицательные, определяя в каждом, какое преимущество или недостаток продукта озвучены как основные. В небольшой компании с этим может справиться один человек, но с ростом популярности продукта приходится создавать свой машинный интеллект для столь кропотливой и нудной работы. В любом случае без обработки и сбора больших данных по комментариям пользователей невозможно улучшить продукт и удовлетворить клиентов.
Отделение по работе с клиентами и партнерами
Именно в отделении по работе с клиентами и партнерами, в которое в том числе входит отдел по связям с общественностью, работают над тем, чтобы организация стала всемирно известной. И это действие напрямую влияет на стоимость привлечения новых клиентов.
Имидж создается различными способами: от публикаций в прессе до участия в общественных движениях, а иногда даже за счет обнародования некоторой закрытой информации с целью привлечения внимания партнеров и поиска клиентов-почитателей. Например, если компания собирает большие данные о своем продукте, то в публичный доступ может попасть часть уже обработанных сведений. Чтобы любители могли потренироваться в создании собственной системы для предсказаний, используя машинное обучение. Именно так и поступил «Сбербанк» [10] , который выложил на соревновательную платформу Kaggle набор больших данных о недвижимости в России. Сейчас это один из самых популярных тренажеров, на котором учат будущих специалистов по данным на различных отечественных курсах по машинному обучению.
10
Sberbank Russian Housing Market Dataset .
По опубликованному набору можно сразу понять, как профессионалы в банке относятся к большим данным. Достаточно взглянуть на количество параметров, рассматриваемых для каждой квартиры:
• Описание квартир – 14 параметров.
• Описание ближайшей недвижимости – 24 параметра.
• Макроэкономические факторы, касающиеся недвижимости, – 101 параметр.
• Дополнительное описание ближайшей недвижимости – 288 параметров.
Данные представлены в форме таблиц, где квартиры – это строчки, а их параметры – колонки. Подобный вид является обычным для больших данных. Именно такие таблицы затем передаются машине для обучения, цель которого – натренировать ее на предсказание цены квартиры в зависимости от значений параметров.
В опубликованном наборе данных часть параметров не зависит от времени: количество комнат, географическое положение дома, расстояние от квартиры до ближайшей атомной станции, музея и университета. Таких пунктов почти триста. То есть в таблицах будет три сотни колонок, описывающих каждую квартиру.
Стоит обратить внимание на то, что значения некоторых изменяющихся параметров могут записываться несколько раз в привязке ко времени. Например, уровень безработицы или рождаемости в стране в разные дни [11] :
11
В таблице приведены вымышленные числа, они не связаны с реальными данными рождаемости и безработицы.
В таких временных данных тоже содержится скрытая информация. Например, если пару лет назад резко снизилась безработица, а сейчас увеличилась рождаемость, то спрос на квартиры увеличится. Обычному человеку не под силу заметить такую тонкую взаимосвязь между всеми этими цифрами и предсказать их влияние на стоимость «однушки» на окраине столицы. А машина с легкостью определяет значимость и вклад каждого параметра в цену квартиры. После обучения она сможет предсказывать эту величину самостоятельно, принимая в расчет лишь значения параметров. Человек будет в буквальном смысле спрашивать машину: «Сколько, по твоему мнению, сейчас стоит квартира в 5 минутах ходьбы от атомной станции, в 10 минутах пешком от университета, если безработица сегодня составляет 5.6 %, а коэффициент рождаемости равен 2.3?» Натренированный алгоритм – результат машинного обучения – в ответ на такой вопрос выдаст конкретную стоимость квартиры.
Банк вряд ли многое потерял из-за публикации этой информации о недвижимости. Зато теперь во многих школах программирования по всему миру используют этот набор данных в качестве наглядной демонстрации для студентов возможностей машинного обучения.
С помощью больших данных можно привлечь интерес не только студентов, но и партнеров. Даже если компания не может напрямую делиться с ними собранной информацией, то всегда есть вариант создать предсказательный сервис, который будет использовать алгоритмы, обученные на этих данных. В таком случае партнерские системы отправляют запрос алгоритму и получают ответ в виде прогноза. Партнеры не видят всех таблиц данных, но, поверьте, они очень благодарны за доступ к подобному алгоритму (подробнее об этой схеме мы поговорим в разделе «Торговля большими данными»).
Таким образом, предоставив хотя бы ограниченный доступ к своим большим данным в каком угодно виде, можно улучшить имидж организации. Благодаря чему компания без финансовых вложений сможет снизить стоимость привлечения новых клиентов и удержания старых.
Отделение создания и построения компании
Отделение создания и построения компании выполняет функции найма и адаптации сотрудников. Оно анализирует организацию технологического процесса во всей компании с целью повысить эффективность каждого из отделов, комплектует подразделения сотрудниками, следя за тем, чтобы везде хватало рабочих рук. Именно отделение создания и построения компании часто отвечает за оборудование и связь между сотрудниками, а следовательно, и за формирование единой информационной системы предприятия (об этом в следующих главах).
В современных компаниях это отделение уже давно не использует бумажный документооборот, потому что найти хорошего сотрудника на сайте по поиску работы – это как найти иголку в стоге сена. Основная проблема в том, что на одного адекватного работника приходится сотня неподходящих. Точнее, статистика такова:
• 90 % кандидатов на работу вообще не отвечают на электронные письма.
• 5 % – не слышат, что им говорят на собеседовании, и не понимают, о чем их просят.
• 2 % – совсем неадекватные, агрессивные и т. п.
• 2 % – подходят на должность, компетентны, но их не устраивают условия.
• 1 % – подходят и согласны работать, отвечают требованиям, адекватны.
Из этой статистики видно, насколько несладко приходится специалистам по подбору кадров при создании и построении компании. Целых 90 % работы проделывается впустую. Поэтому в этой сфере уже давно применяются алгоритмы автоматического поиска сотрудников. Специальные программы анализируют тексты резюме кандидатов и выявляют среди них наиболее подходящие. После чего другая программа вступает в переписку с отобранными кандидатами. И если те отвечают хотя бы на несколько вопросов-предложений, то контакт передается оператору – реальному сотруднику отдела кадров.
Естественно, что для всего этого – написания и подготовки программы рассылки, получения и обработки резюме кандидатов – требуются программисты. Готовый продукт должен анализировать находящиеся в публичном доступе тексты резюме огромного количества соискателей на соответствие специальному шаблону. Конечно, точного совпадения ждать не стоит, но алгоритмы машинного обучения могут оценить, с какой вероятностью кандидат подходит на предлагаемую должность. Таким образом, на первой же стадии поиска происходит обработка больших данных.