Dolgin.indb
Шрифт:
информацию, к примеру, учитывать социально-демографические дан-
ные (это так называемая демографическая фильтрация). Так, рекомен-
дательные системы для ресторанов предлагается пополнять сведения-
ми о возрасте, месте проживания, образовании и работе171.
Часть проблем коллаборативной фильтрации носит сугубо техни-
ческий характер и связана со сложностями вычислений при работе с
большими базами данных. Как указывают разработчики конкурирую-
щих друг с другом систем, «почти все современные алгоритмы колла-
168 Такой запрос требует от пользователя некоторого количества усилий. В то же время
каждая дополнительная оценка увеличивает точность анализа и в этом смысле вы-
годна клиенту. Поэтому перед разработчиками стоит проблема минимизации необ-
ходимого числа оцениваемых единиц, чтобы человек ради получения эффективно-
го результата был готов потратить некоторое время на первоначальные оценки.
169 Good N., Schafer J. B., Konstan J., Borchers A., Sarwar B., Herlocker J., Riedl J. Combining Collaborative Filtering with Personal Agents for Better Recommendations // Proc. of AAAI’99, July 1999.
170 Avery C., Resnick P., Zeckhauser R. Th
e Market for Evaluations // American Economic Review, Vol. 89(3), 1999. P. 564–584.
171 Pazzani M. A Framework for Collaborative, Content-Based, and Demographic Filtering
// Artifi cial Intelligence Review, December 1999. P. 393–408.
188
ГЛАВА 2.7. ОБЗОР РЕКОМЕНДАТЕЛЬНЫХ СИСТЕМ
боративной фильтрации были разработаны на небольших базах дан-
ных. Например, MovieLens работает с 35000 клиентов и 3000 товаров, а
EachMovie работает с базой из 4000 пользователей и 1600 товаров»172.
Дорогостоящие вычисления целесообразно выполнять только в офф-
лайне, но традиционная поклиентсткая корпоративная фильтрация в
таком режиме практически не функционирует, а делать все вычисле-
ния в режиме реального времени трудно. Это возможно только если
количество измерений невелико, что уменьшает качество рекоменда-
ций. В противном случае обслуживание рекомендательной системы
оказывается неоправданно затратным.
Еще одна проблема, характерная для коллаборативной фильтра-
ции – это рекомендации чего-то принципиально иного. Многие дей-
ствующие системы дают сбой на этом месте173. Например, если при ра-
боте с Amazon.com. указать, что у вас в библиотеке есть «Макбет» Шек-
спира, то в ответ последует поток «услужливых» подсказок других пьес
Шекспира174. Так же банальны и советы в сфере музыки. В рамках кон-
тентных систем идет поиск товаров, связанных общими характеристи-
ками (того же автора, актера, режиссера) либо имеющих те же ключе-
вые слова. Пообъектная коллаборативная фильтрация тоже базируется
на сходстве товаров. Поэтому клиенту, купившему DVD с фильмом
«Крестный отец», компьютер выдаст список других криминальных
драм, фильмов с Марлоном Брандо и картин, снятых Ф. Копполой. Ре-
комендации часто будут либо слишком общими (все DVD того же жан-
ра), либо чрезмерно зауженными (все книги того же автора), в то время
как человек надеется на помощь в нахождении новых, стоящих вни-
мания продуктов. Пытаясь решить эту проблему, некоторые системы, например Daily-Learner, отклоняют объекты на основании слишком
большого сходства с тем, что уже известно клиенту175.
Субъект-субъектная версия коллаборативной фильтрации лишена
этого недостатка. Клиент может запросить набор произведений, высо-
172 Linden G., Smith B., York J. Amazon.com Recommendations. Item-to-Item Collaborative Filtering // IEEE Internet Computing, February 2003.
173 Terveen L., Hill W. Beyond Recommender Systems…
174 Там же.
175 Billsus D., Pazzani M. User Modeling for Adaptive News Access // User Modeling and User-Adapted Interaction,Vol. 10, № 2–3, 2000. P. 147–180.
Й. Жанг и др. предложили пять правил избыточности, чтобы определить, содер-
жит ли продукт, отвечающий профилю потребителя, какую-либо новую для него
информацию (cм.: Zhang Y., Callan J., Minka T. Novelty and Redundancy Detection in Adaptive Filtering // Proc. 25th Ann. Intl ACM SIGIR Conf., 2002. P. 81–88).
189
ЧАСТЬ 2. УХУДШАЮЩИЙ ОТБОР В ИНДУСТРИЯХ КУЛЬТУРЫ
ко оцененных его кругом рекомендателей, и обнаружить что-то совер-
шенно новое.
Сотрудники Amazon сообщают, что справились с рядом недочетов
пообъектной коллаборативной фильтрации, разработав собственную
оригинальную схему (хотя, как показывает опыт с Шекспиром, с внед-
рением ноу-хау еще не все гладко)176. Ими разработан алгоритм колла-
боративной фильтрации для работы с громадными базами данных (что
актуально для Amazon.com177), способный выдавать качественные, по
мнению авторов, рекомендации в режиме реального времени. Смысл в
том, что система соотносит каждый из приобретенных пользователем
товаров с близкими товарами, купленными другими клиентами, и фор-
мирует рекомендательный список178.
Создав (в оффлайновом режиме) таблицу сходных товаров, про-
грамма находит среди них те, что перекликаются с покупками и оцен-
ками конкретного пользователя. Затем ему подсказывают самые по-
пулярные из продуктов, сходных с теми, что он еще не покупал или
близких к уже купленным. (При этом, какие именно ему нужны реко-
мендации, никто не спрашивает!) Вычисление занимает мало времени, поскольку основная работа делается в режиме оффлайн, и в этом сек-
рет масштабируемости пообъектной схемы. На выходе предлагаются
только в большой степени сходные и, как уверяют авторы, желанные
товары, хотя не ясно, откуда при высоком сходстве возьмутся рекомен-