Методы бикластеризации для анализа интернет-данных




Описание модели


Исходные данные в модели представлены матрицей

, где

и

— множества индексов соответствующие двум типам величин и

— бимодальные значения близости, рассматриваемые как сходство. Задача аналитика — выявить основные связи между членами этих двух множеств, представленными значениями

. Для этой цели используется понятие бимодального кластера или бокс-кластера. Бокс-кластер определяется как Декартово произведение

подмножеств

и

. Любой бокс-кластер связан с подматрицей
.

Рассмотрим множество из

бокс-кластеров

с соответствующими весами интенсивности

. Будем называть такие кластеры аддитивными бокс-кластерами, если они приближают входные данные

в соответствии со следующей моделью (сравните [69],[55]):

(2.3)

с "небольшими" по величине остатками

,
,
. Булевы векторы

соответствуют бокс-кластеру

по следующему правилу:

тогда и только тогда, когда

, и

тогда и только тогда, когда

.

Аддитивная кластеризация использует двойную жадную стратегию оптимизации:

  • кластеры находятся последовательно;
  • каждый кластер формируется инкрементально поэлементным добавлением.
  • В частности, вначале находим только один бокс-кластер

    , который минимизирует следующий критерий наименьших квадратов, основанный на модели (2.3):

    (2.4)

    Для любого

    (например, равного максимальному

    или среднему по всей подматрице

    критерий (2.4) может быть записан следующим образом:

    .

    (2.5)

    Данный критерий выражает идею близости элементов подматрицы

    к одному и тому же значению

    . Одно из преимуществ критерия (2.5) заключается в его немонотонности в традиционном понимании качества подгонки. Рассмотрим, например, его изменение, когда

    добавляется к

    :

    (2.6)

    Значение разности может быть либо отрицательным, либо положительным в зависимости от близости подмножества из строки

    , соответствующего
    , к

    или 0. Если

    отрицательно, то

    должно быть добавлено к

    , так как это уменьшает значение критерия

    в (2.4). Если

    , то

    не добавляется к

    , потому что значение




    Содержание  Назад  Вперед