Методы бикластеризации для анализа интернет-данных


Формирование бикластеров для рекомендательной системы Интернет-рекламы - часть 7


Примеры метаправил для рынка медикаментов.

Правило вида

, где
:
{B_VITAMIN} → {B_COMPLEX_VITAMIN, B12_VITAMIN, C_VITAMIN, D_VITAMIN,

DISCOUNT_VITAMIN, E_VITAMIN, HERB_VITAMIN, MINERAL_VITAMIN,

MULTI_VITAMIN, SUPPLEMENT_VITAMIN, VITAMIN}


Правило вида

, где
:
.

Верификация результатов

Для проверки результатов, полученных нами с помощью поиска ассоциативных правил, мы применяем скользящий контроль (cross validation). Для это мы разбиваем исходную выборку случайным образом на 10 частей, далее последовательно используем одну часть в качестве контрольной выборки (test set), а остальные 9 рассматриваем как единую обучающую выборку(training set). При этом ассоциативные правила, полученные нами по обучающей выборке, будем записывать в виде

.

Тогда мерой качества такого ассоциативного правила при проверке на контрольной выборке будет служить величина

. Значение этой величины показывает долю фирм, покупающих множества словосочетаний A и B, из тех фирм, которые приобретали только множество словосочетаний A. Как видим, это не что иное, как определение поддержки ассоциативного правила на контрольной выборке:

Мы построили 10 множеств ассоциативных правил для 10-ти различных выборок по 1800 фирм каждая и вычислили величину достоверности таких правил на контрольной выборке, содержащей 200 объектов. Ассоциативные правила мы искали для значений минимальной поддержки 27 (

от размера выборки) и минимальной достоверности 0,9 (

). Агрегированной мерой качества полученных правил служило среднее значение достоверности для всего порожденного множества:

где

— множество ассоциативных правил полученных по

-ой обучающей выборке. Также мы рассмотрели правила с достоверностью не ниже 50% и вычислили ее среднее значение по полученному множеству. Окончательно полученные значения усреднялись для всех 10-ти случаев —
.

Таблица 5.3:

Результаты скользящего контроля для ассоциативных правил

Число Число mean_conf Число правил mean_conf
правил подтвержденных правил min_conf=50% (min_conf=50%)

1

147170 73025 0,77 65556 0,84
2 69028 68709 0,93 68495 0,93
3 89332 89245 0,95 88952 0,95
4 107036 93078 0,84 86144 0,90
5 152455 126275 0,82 113008 0,90
6 117174 114314 0,89 111739 0,91
7 131590 129826 0,95 128951 0,96
8 134728 120987 0,96 106155 0,97
9 101346 67873 0,72 52715 0,92
10 108994 107790 0,93 106155 0,94

means

115885 99112 0,87 92787 0,92
<


Начало  Назад  Вперед



Книжный магазин