Экономика символического обмена
Шрифт:
Наряду с клиент-клиентскими системами применяется коллаборативная фильтрация второго типа – модельного [335] . В этой схеме с помощью некоего индекса сходства пользователей объединяют в кластеры. Покупки и оценки, данные потребителями из одного сегмента, используются для вычисления рекомендаций. По утверждению Г. Линдена и его соавторов, кластерные модели легче масштабируются (т. е. они лучше приспособлены к работе с крупными базами данных) в сравнении с поклиентской коллаборативной фильтрацией, так как сверяют профиль пользователя с относительно небольшим количеством сегментов, а не с целой пользовательской базой [336] . Сложный и дорогой кластерный подсчет ведется в оффлайновом режиме, что разгружает систему. Но качество рекомендаций при этом снижается, и вот почему. Кластерная модель группирует пользователей в сегмент, сравнивает конкретного пользователя с этим сегментом и выдает всем членам сегмента общие рекомендации. Так как пользователи, объединенные в кластер, не обладают идеальным сходством, рекомендации тоже не идеальны. Их качество можно повысить, разбивая пользователей на высокооднородные подгруппы, но тогда их будет много, и анализ связи пользователь-сегмент обойдется так же дорого, как и поиск сходных потребителей методом субъект-субъектной (поклиентской) коллаборативной фильтрации [337] .
335
Billsus D., Pazzani M. Learning Collaborative Information Filters; Breese J. S., Heckerman D., Kadie C. Empirical Analysis of Predictive Algorithms for Collaborative Filtering; Getoor L., Sahami M. Using Probabilistic Relational Models for Collaborative Filtering // Proc. Workshop Web Usage Analysis and User Profiling (WEBKDD ’99), Aug. 1999; Goldberg K., Roeder T., Gupta D., Perkins C. Eigentaste: A Constant Time Collaborative Filtering Algorithm // Journal of Information Retrieval, Vol. 4, № 2, July 2001. P. 133–151; Hofmann T. Collaborative Filtering via Gaussian Probabilistic Latent Semantic Analysis // Proc. 26th Ann. Intl ACM SIGIR Conf., 2003; Marlin B. Modeling User Rating Profiles for Collaborative Filtering // Proc. 17th Ann. Conf. Neural Information Processing Systems (NIPS ’03), 2003; Pavlov D., Pennock D. A Maximum Entropy Approach to Collaborative Filtering in Dynamic, Sparse, High-Dimensional Domains // Proc. 16th Ann. Conf. Neural Information Processing Systems (NIPS ’02), 2002.
336
Linden G., Smith B., York J. Amazon.com Recommendations. Item-to-Item Collaborative Filtering // IEEE Internet Computing, February 2003.
337
Каждый товар может рассматриваться как один из узлов байесовой сети, а положение узла соответствует предполагаемой величине оценки товара. Плохо здесь то, что каждый пользователь может быть отнесен к отдельному кластеру, хотя некоторые системы способны рассматривать пользователя сразу в нескольких амплуа. Например, в системе, занимающейся рекомендацией книг, пользователь может интересоваться одной темой для работы и совершенно другой – для досуга. Кроме того, предлагается метод КФ, основанный на машинном самообучении (например, система искусственных нейронных сетей), вкупе с методами извлечения релевантных признаков (таких, как алгебраические модели сокращения матриц до матриц меньшего размера с сохранением репрезентативности). По некоторым оценкам, не являющимся окончательными, модельные методики превосходят анамнестические в точности рекомендаций. См., например: Billsus D., Pazzani M. Learning Collaborative Information Filters и Breese J. S., Heckerman D., Kadie C. Empirical Analysis of Predictive Algorithms for Collaborative Filtering.
Работа по совершенствованию коллаборативной фильтрации полным ходом ведется во всем мире. Известны попытки внедрения статистической схемы [338] , а также более сложных вероятностных методов [339] . Объединение анамнестического и модельного принципов дает лучшие результаты, чем каждый из них в отдельности.
2.7.3.1. Проблемы и недостатки
Коллаборативные рекомендации по целому ряду параметров превосходят контентные. В частности, они могут работать с любыми продуктами, даже c теми, которые вообще пока не известны данному потребителю. Технология может использоваться и для экспертизы самого эксперта [340] . (Если профессиональный критик включается в орбиту рекомендательного сервиса, важно знать, в какой области он специализируется и сколь авторитетен.)
338
Ungar L. H., Foster D. P. Clustering Methods for Collaborative Filtering // Proc. Recommender Systems, Papers from 1998 Workshop, Technical Report WS-98-08 1998.
339
В частности, для выработки рекомендаций предлагают использовать цепи Маркова (Shani G., Brafman R., Heckerman D. An MDP-Based Recommender System // Proc. 18th Conf. Uncertainty in Artificial Intelligence, Aug. 2002). Известен латентно-семантический анализ и группа методов, оперирующих понятиями генеративной семантики. Показано, что коллаборативная фильтрация применима и при относительно небольшом количестве информации о пользователе (Kumar R., Raghavan P., Rajagopalan S., Tomkins A. Recommendation Systems: A Probabilistic Analysis // Journal of Computer and System Sciences, Vol. 63, № 1, 2001. P. 42–61).
340
С помощью взаимной фильтрации формируются круги не только ценителей определенного произведения, точно так же могут формироваться и группы поклонников определенного критика.
Главное достоинство коллаборативной фильтрации состоит в том, что рекомендации персонифицированы. При этом сервис не просто использует повседневную потребительскую активность клиентов, а стимулирует их анализировать свои поступки. Создатели рекомендательных систем для торговли по вполне понятным причинам стараются не утруждать потребителя и свести его рефлексию к минимуму. Но несомненно, что для самого покупателя осмысление выбора – полезное занятие. В частности, культурно-потребительская активность может привести к формированию сообществ по интересам, и это бесконечно позитивно [341] – при условии, что реальное (офф-лайн) знакомство людей с их «вкусовыми» соседями не будет противоречить этике и принципу невмешательства в частную жизнь [342] .
341
Вообще говоря, сближение родственных по духу людей и формирование сообществ по интересам может оказаться главной ценностью коллаборативной технологии, радикально и позитивно меняющей мир.
342
Этика содействия организации обществ по интересам разбирается, в частности, Тервином и Хиллом на примере системы PHOAKS. Главный приоритет здесь – соблюдение невмешательства в частную жизнь (Terveen L., Hill W. Beyond Recommender Systems: Helping People Help Each Other // Carroll J. (ed.) HCI in the New Millennium. Addison-Wesley, 2001).
Но в коллаборативных сервисах имеются и свои ограничения. К их числу относится проблема нового пользователя. Чтобы дать ему точные рекомендации, системе прежде надлежит выяснить его предпочтения. Это препятствие обходят, используя гибридный метод, совмещающий возможности контентного и коллаборативного принципов [343] . Совсем недавно появились методики построения потребительского профиля, в которых используется автоматическая обработка текстов (data-mining), анализ сетевого поведения клиента и т. д. Они позволяют учесть интересы и предпочтения пользователей, не обременяя их лишними вопросами, и тем самым насытить как их собственные профили, так и профили объектов. Эти технологии позволяют отчасти снять еще одну проблему рекомендательных систем – назойливость. Большинство рекомендательных сервисов предполагают пользовательскую активность: MovieLens, например, первым делом просит новичков проставить оценки двум десяткам фильмов [344] .. Для точного расчета необходимы оценки большого количества уже известных продуктов. Эти сведения стараются извлечь косвенными методами [345] . Например, анализируют время, ушедшее на чтение статьи. Но косвенные данные неточны и не заменяют полностью прямых оценок пользователя. Поэтому проблема снижения навязчивости рекомендательных систем при сохранении высокого качества их работы стоит довольно остро.
343
Подробнее см.: Rashid A. M., Albert I., Cosley D., Lam S. K., McNee S. M., Konstan J. A., Riedl J. Getting to Know You: Learning New User Preferences in Recommender Systems // Proc. Intl Conf. Intelligent User Interfaces, 2002; Yu K., Schwaighofer A., Tresp V., Xu X., Kriegel H.-P. Probabilistic Memory-Based Collaborative Filtering // IEEE Transactions on Knowledge and Data Engineering, Vol. 16, № 1, Jan. 2004. P. 56–69.
344
Такой запрос требует от пользователя некоторого количества усилий. В то же время каждая дополнительная оценка увеличивает точность анализа и в этом смысле выгодна клиенту. Поэтому перед разработчиками стоит проблема минимизации необходимого числа оцениваемых единиц, чтобы человек ради получения эффективного результата был готов потратить некоторое время на первоначальные оценки.
345
См.: Caglayan A., Snorrason M., Jacoby J., Mazzu J., Jones R., Kumar K. Learn Sesame — A Learning Agent Engine // Applied Artificial Intelligence, Vol. 11, 1997. P. 393–412; Konstan J. A., Miller B. N., Maltz D., Herlocker J. L., Gordon L. R., Riedl J. GroupLens: Applying Collaborative Filtering to Usenet News // Comm. ACM, Vol. 40, № 3, 1997. P. 77–87; Middleton S. E., Shadbolt N. R., de Roure D. C. Ontological User Profiling in Recommender Systems // ACM Trans. Information Systems, Vol. 22, № 1, 2004. P. 54–88; Oard D. W., Kim J. Implicit Feedback for Recommender Systems // Proc. Recommender Systems. Papers from 1998 Workshop, Technical Report WS-98-08, 1998.
Те же сложности возникают и с новым товаром: его невозможно рекомендовать до тех пор, пока он не наберет достаточного количества оценок [346] .
Есть и еще одна препона – так называемая разреженность оценок. Спрос на рекомендации обычно превышает наличие оценок в системе. Люди предпочитают не давать оценки, а получать их, не вкладываться в формирование базы данных, а пользоваться ею. Отсюда, в частности, проблема «первого оценщика» и вообще «холодного старта». Как побудить человека к этому действию, ведь поначалу он не приобретает ничего взамен и может подождать, пока эти хлопоты возьмет на себя кто-то другой? [347] Хотя если судить по высочайшей спонтанной активности веблоггеров, не стоит переоценивать трудности. И все же так или иначе критическая масса пользователей необходима. Например, в рекомендательных системах по кино часть фильмов оценивается лишь малым числом зрителей, поэтому эти ленты будут рекомендоваться редко, даже если им поставили высокие баллы. В общем, если в базе данных число «экспертов» относительно мало по сравнению с количеством объектов, прогнозы будут неточны. Проблему можно частично купировать, если включить в профиль пользователя дополнительную информацию, к примеру, учитывать социально-демографические данные (это так называемая демографическая фильтрация). Так, рекомендательные системы для ресторанов предлагается пополнять сведениями о возрасте, месте проживания, образовании и работе [348] .
346
Good N., Schafer J. B., Konstan J., Borchers A., Sarwar B., Herlocker J., Riedl J. Combining Collaborative Filtering with Personal Agents for Better Recommendations // Proc. of AAAI’99, July 1999.
347
Avery C., Resnick P., Zeckhauser R. The Market for Evaluations // American Economic Review, Vol. 89(3), 1999. P. 564–584.
348
Pazzani M. A Framework for Collaborative, Content-Based, and Demographic Filtering // Artificial Intelligence Review, December 1999. P. 393–408.
Часть проблем коллаборативной фильтрации носит сугубо технический характер и связана со сложностями вычислений при работе с большими базами данных. Как указывают разработчики конкурирующих друг с другом систем, «почти все современные алгоритмы коллаборативной фильтрации были разработаны на небольших базах данных. Например, MovieLens работает с 35000 клиентов и 3000 товаров, а EachMovie работает с базой из 4000 пользователей и 1600 товаров» [349] . Дорогостоящие вычисления целесообразно выполнять только в офф-лайне, но традиционная поклиентсткая корпоративная фильтрация в таком режиме практически не функционирует, а делать все вычисления в режиме реального времени трудно. Это возможно только если количество измерений невелико, что уменьшает качество рекомендаций. В противном случае обслуживание рекомендательной системы оказывается неоправданно затратным.
349
Linden G., Smith B., York J. Amazon.com Recommendations. Item-to-Item Collaborative Filtering // IEEE Internet Computing, February 2003.
Еще одна проблема, характерная для коллаборативной фильтрации – это рекомендации чего-то принципиально иного. Многие действующие системы дают сбой на этом месте [350] . Например, если при работе с Amazon.com. указать, что у вас в библиотеке есть «Макбет» Шекспира, то в ответ последует поток «услужливых» подсказок других пьес Шекспира [351] . Так же банальны и советы в сфере музыки. В рамках контентных систем идет поиск товаров, связанных общими характеристиками (того же автора, актера, режиссера) либо имеющих те же ключевые слова. Пообъектная коллаборативная фильтрация тоже базируется на сходстве товаров. Поэтому клиенту, купившему DVD с фильмом «Крестный отец», компьютер выдаст список других криминальных драм, фильмов с Марлоном Брандо и картин, снятых Ф. Копполой. Рекомендации часто будут либо слишком общими (все DVD того же жанра), либо чрезмерно зауженными (все книги того же автора), в то время как человек надеется на помощь в нахождении новых, стоящих внимания продуктов. Пытаясь решить эту проблему, некоторые системы, например Daily-Learner, отклоняют объекты на основании слишком большого сходства с тем, что уже известно клиенту [352] .
350
Terveen L., Hill W. Beyond Recommender Systems…
351
Там же.
352
Billsus D., Pazzani M. User Modeling for Adaptive News Access // User Modeling and User-Adapted Interaction,Vol. 10, № 2–3, 2000. P. 147–180. Й. Жанг и др. предложили пять правил избыточности, чтобы определить, содержит ли продукт, отвечающий профилю потребителя, какую-либо новую для него информацию (cм.: Zhang Y., Callan J., Minka T. Novelty and Redundancy Detection in Adaptive Filtering // Proc. 25th Ann. Intl ACM SIGIR Conf., 2002. P. 81–88).
Субъект-субъектная версия коллаборативной фильтрации лишена этого недостатка. Клиент может запросить набор произведений, высоко оцененных его кругом рекомендателей, и обнаружить что-то совершенно новое.
Сотрудники Amazon сообщают, что справились с рядом недочетов пообъектной коллаборативной фильтрации, разработав собственную оригинальную схему (хотя, как показывает опыт с Шекспиром, с внедрением ноу-хау еще не все гладко) [353] . Ими разработан алгоритм коллаборативной фильтрации для работы с громадными базами данных (что актуально для Amazon.com [354] ), способный выдавать качественные, по мнению авторов, рекомендации в режиме реального времени. Смысл в том, что система соотносит каждый из приобретенных пользователем товаров с близкими товарами, купленными другими клиентами, и формирует рекомендательный список [355] .
353
Linden G., Smith B., York J. Amazon.com Recommendations…
354
У Amazon.com десятки миллионов клиентов и несколько миллионов товаров.
355
Для вычисления сходства между двумя товарами применяется тот же метод, что и в традиционной поклиентской коллаборативной фильтрации, с той лишь разницей, что вектор соответствует товару, а не пользователю, а его размерность равна числу пользователей, приобретших данный товар.
Создав (в оффлайновом режиме) таблицу сходных товаров, программа находит среди них те, что перекликаются с покупками и оценками конкретного пользователя. Затем ему подсказывают самые популярные из продуктов, сходных с теми, что он еще не покупал или близких к уже купленным. (При этом, какие именно ему нужны рекомендации, никто не спрашивает!) Вычисление занимает мало времени, поскольку основная работа делается в режиме оффлайн, и в этом секрет масштабируемости пообъектной схемы. На выходе предлагаются только в большой степени сходные и, как уверяют авторы, желанные товары, хотя не ясно, откуда при высоком сходстве возьмутся рекомендации нового, оригинального произведения искусства.
2.7.4. Гибридные методы производства рекомендаций
Эти методы представляют собой комбинацию коллаборативного и контентного подходов и позволяют избежать ограничений, свойственных каждой из систем в отдельности [356] . Преимущества гибридной схемы [357] видны из простого примера. Предположим, один пользователь высоко оценил веб-страницу, освещающую итоги кинофестиваля, второй в тех же целях изучил другой интернет-источник. Коллаборативная фильтрация поклиентского типа ничего ценного отсюда не вылущит, а вот анализ содержания покажет, что объекты сходны, и выявит связь между пользователями.
356
Wei Y. Z., Moreau L., Jennings N. R. A market-based approach to recommender systems // ACM Transactions on Information Systems, Vol. 23, № 3, April 2005. P. 227–266.
357
Дополнительную информацию про гибридные рекомендательные системы см. в приложении 1, раздел 11.3.
Комбинации могут быть разными. Можно произвести расчеты в рамках коллаборативной и контентной схем по отдельности, а затем объединить предсказания. Можно встроить некоторые из контентных принципов в коллаборативную методику, и наоборот [358] . Наконец, в рамках гибридного подхода возможно построение единой рекомендательной модели. [359] Сложность, которая возникает в этом случае, заключается в необходимости получения информации об объектах рекомендаций.
358
Так, некоторые гибридные рекомендательные системы (в частности Fab) основываются на коллаборативной фильтрации, используя в дополнение контентные профили пользователей. Последние необходимы для выявления близости между клиентами, что позволяет решить проблему разреженности оценок.
359
Basu C., Hirsh H., Cohen W. Recommendation as Classification: Using Social and Content-Based Information in Recommendation // Recommender Systems. Papers from 1998 Workshop, Technical Report WS-98-08, AAAI Press 1998; Popescul A., Ungar L. H., Pennock D. M., Lawrence S. Probabilistic Models for Unified Collaborative and Content-Based Recommendation in Sparse-Data Environments // Proc. 17th Conf. Uncertainty in Artificial Intelligence, 2001; Schein A. I., Popescul A., Ungar L. H., Pennock D. M. Methods and Metrics for Cold-Start Recommendations // Proc. 25th Ann. Intl ACM SIGIR Conf., 2002.