Методы бикластеризации для анализа интернет-данных


Формирование бикластеров для рекомендательной системы Интернет-рекламы - часть 2


Рис. 5.7. Исходные данные

Минимальное число заполненных ячеек в строке — 13. Это означает, что фирмы, представленные в наборе данных, покупают минимум 13 рекламных слов. Максимальное число заполненных ячеек в строке — 947. Минимальное число заполненных ячеек в столбце — 18, т.е. одно словосочетание покупает не меньше 18 фирм. Максимальное число непустых ячеек в столбце — 159.

По этим данным требуется построить бикластеры (фирмы, рекламные слова), которые представляют собой сегменты рынка. Далее такие бикластеры можно использовать для создания рекомендаций для фирм, действующих на этом же рынке, но не совершившим покупки слов, входящих в такой бикластер. В случае бикластеризации, допускающей незаполненные ячейки внутри бикластера, рекламные слова, отвечающие таким ячейкам, можно рассматривать в качестве кандидатов для рекомендаций.

Подобные рекомендации можно представлять в виде правил: "если фирма приобрела рекламное словосочетание A, то имеет смысл предложить ей словосочетание B". Такие правила "если-то" хорошо вписываются в парадигму поиска ассоциаций. В существующей научной литературе неоднократно описывались рекомендательные системы, основанные на анализе ассоциативных правил, см. [12]. Эти методы наряду с другими, используемыми в рекомендательных системах, показывают приемлемые результаты. Ниже мы опишем, как можно использовать семантическую и морфологическую информацию, заложенную в описании признаков (рекламных слов), и, тем самым, улучшить качество рекомендационных правил.

Вычислительная модель

Исходный массив данных описывается формальным контекстом

,

(от firms) — множество компаний-рекламодателей, а

(от term) — множество рекламных словосочетаний,

— отношение инцидентности, показывающее, что фирма

купила словосочетание

тогда и только тогда, когда

.

Для решения задачи мы последовательно применяли следущие подходы и алгоритмы:

  1. алгоритм D-miner для выявления крупных рынков средствами ФАП;



  2. Начало  Назад  Вперед



    Книжный магазин