Методы бикластеризации для анализа интернет-данных

       

Описание модели


Вычислительная модель предполагает, что существует только два возможных уровня генной экспрессии: изменение и отсутствие изменения для данного эксперимента. Множество из m экспериментов для n генов может быть представлено бинарной матрицей

Описание модели

, где ячейка

Описание модели

равна

Описание модели

, если ген

Описание модели

проявился для условия

Описание модели

, иначе 0. Бикластер

Описание модели

соответствует подмножеству генов

Описание модели
, которые проявились для всего подмножества условий
Описание модели
. Другими словами, пара
Описание модели

определяет подматрицу E для которой все элементы равны 1. Отметим, что согласно такому определению каждая ячейка

Описание модели
, имеющая значение 1, является бикластером. Однако такие кластеры тривиальны и не представляют особого интереса, поэтому мы рассматриваем только максимальные по вложению бикластеры, т.е. не содержащиеся ни в одном другом.

Определение 2.19  

Пара

Описание модели

называется максимальным по вложению бикластером тогда и только тогда, когда (1)

Описание модели

и (2)

Описание модели

такой, что (a)

Описание модели

и (b)

Описание модели

.

Отметим, что такие максимальные по вложению бикластеры довольно давно и хорошо исследованы с точки зрения алгебраической структуры в рамках ФАП. Это подтверждает следующее утверждение.

Предложение 2.1  

Определение максимального по вложению бикластера  2.19 и определение формального понятия  2.12 эквивалентны.

Благодаря утверждению 2.1, для бикластеров, предложенных в этой вычислительной модели, можно построить иерархию по отношению покрытия, графически представляющую собой диаграмму решетки формальных понятий.


возрастет. Знак
Описание модели

не зависит от действий на предыдущих шагах, что влечет естественное условие прекращения добавления элементов — изменение
Описание модели

становится положительным для любой внешней строки
Описание модели

(или столбца
Описание модели
).
Рассмотрим критерий аддитивной кластеризации (2.4) более подробно. Очевидно, что (2.5) можно переписать следующим образом.
В последнем выражении первое слагаемое — постоянная величена; раскрывая скобки под знаком суммирования во втором слагаемом приходим к новой записи критерия (2.5). Критерий (2.5) представляет собой разность постоянного члена
Описание модели

и
Описание модели
, где


Описание модели

(2.7)

Теперь для минимизации критерия (2.5) необходимо максимизировать (2.7). Критерий (2.7) позволяет лучше интерпретировать условие оптимальности, основанное на изменении знака (2.6) с отрицательного на положительный, когда
Описание модели

оптимально. В самом деле, приращение (2.7), когда
Описание модели

добавляется к
Описание модели

(
Описание модели

остается без изменений), равно:


Описание модели

(2.8)

Для простоты положим, что
Описание модели

положительно. В этом случае
Описание модели

будет отрицательным, когда среднее значение


Описание модели

(2.9)

меньше, чем
Описание модели
. Аналогичное условие выполняется для столбцов и определяется симметричным образом. Становится очевидным, что означает выбор максимального значения
Описание модели

в качестве
Описание модели
, как, например, в модели [31]. Бокс-кластер
Описание модели

должен включать только те объекты
Описание модели

и
Описание модели
, для которых среднее сходство (average proximity)
Описание модели

(см. (2.9)) и
Описание модели

не меньше половины максимального значения. Такой выбор
Описание модели

приводит к обнаружению бокс-кластеров с большими внутренними значениями сходства. Оптимальное значение
Описание модели
, минимизирующее критерий (2.4) для данного бокс-кластера
Описание модели
, равно среднему внутреннему сходству


Описание модели

(2.10)

Для оптимального значения
Описание модели

из (2.10) при его подстановке в критерий
Описание модели

из (2.7) получим


Описание модели

(2.11)

Как видим, эта форма критерия (2.7) не содержит
Описание модели

(определенного по формуле (2.10) ) и может быть легко преобразована для случая, когда оптимальное значение
Описание модели

отрицательно.
Назад Содержание Вперёд

Содержание раздела