Методы бикластеризации для анализа интернет-данных


         

множества индексов соответствующие двум типам


Исходные данные в модели представлены матрицей
, где

и

— множества индексов соответствующие двум типам величин и

— бимодальные значения близости, рассматриваемые как сходство. Задача аналитика — выявить основные связи между членами этих двух множеств, представленными значениями
. Для этой цели используется понятие бимодального кластера или бокс-кластера. Бокс-кластер определяется как Декартово произведение

подмножеств

и
. Любой бокс-кластер связан с подматрицей
.
Рассмотрим множество из

бокс-кластеров

с соответствующими весами интенсивности
. Будем называть такие кластеры аддитивными бокс-кластерами, если они приближают входные данные

в соответствии со следующей моделью (сравните [69],[55]):





(2.3)

с "небольшими" по величине остатками
,
,
. Булевы векторы

соответствуют бокс-кластеру

по следующему правилу:

тогда и только тогда, когда
, и

тогда и только тогда, когда
.
Аддитивная кластеризация использует двойную жадную стратегию оптимизации:
  • кластеры находятся последовательно;

  • каждый кластер формируется инкрементально поэлементным добавлением.

  • В частности, вначале находим только один бокс-кластер
    , который минимизирует следующий критерий наименьших квадратов, основанный на модели (2.3):





    (2.4)

    Для любого

    (например, равного максимальному

    или среднему по всей подматрице

    критерий (2.4) может быть записан следующим образом:




    .

    (2.5)

    Данный критерий выражает идею близости элементов подматрицы

    к одному и тому же значению
    . Одно из преимуществ критерия (2.5) заключается в его немонотонности в традиционном понимании качества подгонки. Рассмотрим, например, его изменение, когда

    добавляется к

    :





    (2.6)

    Значение разности может быть либо отрицательным, либо положительным в зависимости от близости подмножества из строки
    , соответствующего
    , к

    или 0. Если

    отрицательно, то

    должно быть добавлено к
    , так как это уменьшает значение критерия

    в (2.4). Если
    , то

    не добавляется к
    , потому что значение


    Содержание  Назад  Вперед





    Forekc.ru
    Рефераты, дипломы, курсовые, выпускные и квалификационные работы, диссертации, учебники, учебные пособия, лекции, методические пособия и рекомендации, программы и курсы обучения, публикации из профильных изданий