Методы бикластеризации для анализа интернет-данных


Описание модели - часть 2


возрастет. Знак

не зависит от действий на предыдущих шагах, что влечет естественное условие прекращения добавления элементов — изменение

становится положительным для любой внешней строки

(или столбца

).

Рассмотрим критерий аддитивной кластеризации (2.4) более подробно. Очевидно, что (2.5) можно переписать следующим образом.

В последнем выражении первое слагаемое — постоянная величена; раскрывая скобки под знаком суммирования во втором слагаемом приходим к новой записи критерия (2.5). Критерий (2.5) представляет собой разность постоянного члена

и

, где

(2.7)


Теперь для минимизации критерия (2.5) необходимо максимизировать (2.7). Критерий (2.7) позволяет лучше интерпретировать условие оптимальности, основанное на изменении знака (2.6) с отрицательного на положительный, когда

оптимально. В самом деле, приращение (2.7), когда

добавляется к

(

остается без изменений), равно:

(2.8)


Для простоты положим, что

положительно. В этом случае

будет отрицательным, когда среднее значение

(2.9)


меньше, чем

. Аналогичное условие выполняется для столбцов и определяется симметричным образом. Становится очевидным, что означает выбор максимального значения

в качестве

, как, например, в модели [31]. Бокс-кластер

должен включать только те объекты

и

, для которых среднее сходство (average proximity)

(см. (2.9)) и

не меньше половины максимального значения. Такой выбор

приводит к обнаружению бокс-кластеров с большими внутренними значениями сходства. Оптимальное значение

, минимизирующее критерий (2.4) для данного бокс-кластера
, равно среднему внутреннему сходству

(2.10)


Для оптимального значения

из (2.10) при его подстановке в критерий

из (2.7) получим

(2.11)


Как видим, эта форма критерия (2.7) не содержит

(определенного по формуле (2.10) ) и может быть легко преобразована для случая, когда оптимальное значение

отрицательно.

Назад Содержание Вперёд




- Начало -  - Назад -  - Вперед -



Книжный магазин