Методы бикластеризации для анализа интернет-данных


         

не зависит от действий на


возрастет. Знак

не зависит от действий на предыдущих шагах, что влечет естественное условие прекращения добавления элементов — изменение

становится положительным для любой внешней строки

(или столбца
).
Рассмотрим критерий аддитивной кластеризации (2.4) более подробно. Очевидно, что (2.5) можно переписать следующим образом.
В последнем выражении первое слагаемое — постоянная величена; раскрывая скобки под знаком суммирования во втором слагаемом приходим к новой записи критерия (2.5). Критерий (2.5) представляет собой разность постоянного члена

и
, где





(2.7)

Теперь для минимизации критерия (2.5) необходимо максимизировать (2.7). Критерий (2.7) позволяет лучше интерпретировать условие оптимальности, основанное на изменении знака (2.6) с отрицательного на положительный, когда

оптимально. В самом деле, приращение (2.7), когда

добавляется к

(

остается без изменений), равно:





(2.8)

Для простоты положим, что

положительно. В этом случае

будет отрицательным, когда среднее значение





(2.9)

меньше, чем
. Аналогичное условие выполняется для столбцов и определяется симметричным образом. Становится очевидным, что означает выбор максимального значения

в качестве
, как, например, в модели [31]. Бокс-кластер

должен включать только те объекты

и
, для которых среднее сходство (average proximity)

(см. (2.9)) и

не меньше половины максимального значения. Такой выбор

приводит к обнаружению бокс-кластеров с большими внутренними значениями сходства. Оптимальное значение
, минимизирующее критерий (2.4) для данного бокс-кластера
, равно среднему внутреннему сходству





(2.10)

Для оптимального значения

из (2.10) при его подстановке в критерий

из (2.7) получим





(2.11)

Как видим, эта форма критерия (2.7) не содержит

(определенного по формуле (2.10) ) и может быть легко преобразована для случая, когда оптимальное значение

отрицательно.
Назад Содержание Вперёд

Содержание  Назад  Вперед