Методы бикластеризации для анализа интернет-данных


         

Для проверки результатов, полученных нами


Примеры метаправил для рынка медикаментов.

Правило вида
, где
:
{B_VITAMIN} → {B_COMPLEX_VITAMIN, B12_VITAMIN, C_VITAMIN, D_VITAMIN,

DISCOUNT_VITAMIN, E_VITAMIN, HERB_VITAMIN, MINERAL_VITAMIN,

MULTI_VITAMIN, SUPPLEMENT_VITAMIN, VITAMIN}

Правило вида
, где
:
.

Верификация результатов

Для проверки результатов, полученных нами с помощью поиска ассоциативных правил, мы применяем скользящий контроль (cross validation). Для это мы разбиваем исходную выборку случайным образом на 10 частей, далее последовательно используем одну часть в качестве контрольной выборки (test set), а остальные 9 рассматриваем как единую обучающую выборку(training set). При этом ассоциативные правила, полученные нами по обучающей выборке, будем записывать в виде
.

Тогда мерой качества такого ассоциативного правила при проверке на контрольной выборке будет служить величина
. Значение этой величины показывает долю фирм, покупающих множества словосочетаний A и B, из тех фирм, которые приобретали только множество словосочетаний A. Как видим, это не что иное, как определение поддержки ассоциативного правила на контрольной выборке:



Мы построили 10 множеств ассоциативных правил для 10-ти различных выборок по 1800 фирм каждая и вычислили величину достоверности таких правил на контрольной выборке, содержащей 200 объектов. Ассоциативные правила мы искали для значений минимальной поддержки 27 (


от размера выборки) и минимальной достоверности 0,9 (
). Агрегированной мерой качества полученных правил служило среднее значение достоверности для всего порожденного множества:



где


— множество ассоциативных правил полученных по
-ой обучающей выборке. Также мы рассмотрели правила с достоверностью не ниже 50% и вычислили ее среднее значение по полученному множеству. Окончательно полученные значения усреднялись для всех 10-ти случаев —
.



Таблица 5.3:

Результаты скользящего контроля для ассоциативных правил

























































































































































































Число Число mean_conf Число правил mean_conf
правил подтвержденных правил min_conf=50% (min_conf=50%)


1
147170 73025 0,77 65556 0,84
2 69028 68709 0,93 68495 0,93
3 89332 89245 0,95 88952 0,95
4 107036 93078 0,84 86144 0,90
5 152455 126275 0,82 113008 0,90
6 117174 114314 0,89 111739 0,91
7 131590 129826 0,95 128951 0,96
8 134728 120987 0,96 106155 0,97
9 101346 67873 0,72 52715 0,92
10 108994 107790 0,93 106155 0,94


means
115885 99112 0,87 92787 0,92
<

Содержание  Назад  Вперед