Методы бикластеризации для анализа интернет-данных

       

Ассоциативные правила: общий взгляд


Дадим основные определения.

Определение 2.32 Пусть дан контекст

, где

— множество объектов,

— множество признаков (items),

— отношение инцидентности. Ассоциативным правилом контекста

называется выражение вида

, где
.

Определение 2.33   Поддержкой (support) ассоциативного правила

называется величина

.

Значение

показывает, какая доля объектов

содержит

. Часто поддержку выражают в
.

Определение 2.34   Достоверностью (confidence) ассоциативного правила

называется величина

.



Значение

показывает, какая доля объектов, обладающих

, также содержит
. Величину достоверности также часто выражают в
.

Для аналитика обычно интересны ассоциативные правила с поддержкой supp и степенью достоверности conf не ниже заданных значений min_supp и min_conf соответственно. Для решения этой задачи можно построить все частые множества признаков. Напомним, что множество признаков

называется частым, если оно принадлежит большому числу объектов, то есть

, где

— некоторый порог. Для этапа нахождения частых множеств признаков можно использовать алгоритм Apriori.

Частое ассоциативное правило получают из частого подмножества признаков

разбиением его на два подмножества

, то есть

,

, одно из которых (например,
) объявляют посылкой, а другое (

) — заключением ассоциативного правила. При таком разбиении

на

и

нужно проследить за тем, чтобы достоверность ассоциативного правила

была не ниже заданной.

Отметим, что ассоциативные правила при значениях

и

являются импликациями рассматриваемого контекста. Иногда ассоциативные правила записывают в форме

, где c и s — confidence и support данного правила соответственно.



Содержание раздела