Методы бикластеризации для анализа интернет-данных


Основные определения и свойства - часть 2


Тем не менее, применение максимальных частых множеств признаков оправдано для плотных контекстов, например, для данных телекоммуникационных компаний, данных переписи, данных последовательностей, изучаемых в биоинформатике. Это связано с тем, что для частого множества признаков длины

приходится вычислять

его частых подмножеств на ранних этапах работы алгоритмов, таких как Apriori. Поэтому MFI помогают понять структуру извлекаемых множеств признаков в указанных выше задачах (в случае плотных контекстов, для которых длина частых множеств признаков довольно часто равна 30-40), в то время как поиск всех частых множеств признаков оказывается невозможным.

Отметим два важных для практической реализации свойства частых множеств признаков.

Свойство 2.1 (нисходящее замыкание). Все подмножества частого множества признаков являются частыми.

Название свойства "нисходящее замыкание" (downward closure) обязано тому, что множество частых множеств признаков замкнуто по вложению.

Свойство 2.2 (антимонотонность). Все надмножества множества признаков, не являющего частым, не частые.

Свойство 2.1 позволяет создавать алгоритмы, использующие поуровневый поиск частых множеств признаков. А свойство антимонотонности помогает сократить число шагов такого поиска, т.е. не рассматривать надмножества множеств признаков, не являющихся частыми. Алгоритмы поиска частых множеств признаков, использующие эти два свойства, называются поуровневыми (levelwise).

Пример 2.1   Объектно-признаковая таблица транзакций



Покупатели/товары Пиво Пряники Молоко Мюсли Чипсы
С

1 0 0 0 1
С

0 1 1 1 0
С

1 0 1 1 1
С

1 1 1 0 1
С

0 1 1 1 1

  • Пиво, Чипсы

  • Молоко, Пиво, Чипсы

Назад Содержание Вперёд




- Начало -  - Назад -  - Вперед -



Книжный магазин