Методы бикластеризации для анализа интернет-данных

Автокран в саратове |

Анализ данных посещаемости сайтов с помощью ФАП - часть 4


  • Применение отбора понятий по размеру объема, что соответствует построению решетки понятий, называемой айсбергом. Например, отбор 100 верхних понятий из всех понятий контекста, отсортированных по размеру объема.
  • Использование вложенных диаграмм, хотя и не позволяет сократить число понятий, но является удобным средством для визуализации решеток, учитывающим, например, разные тематики признаков. Например,
    содержит подмножество сайтов тематики

    и

    . В каждом внешнем узле диаграммы, построенной по подконтексту первой тематики, можно увидеть внутреннюю решетку соответствующую подконтексту второй тематики.
  • Возможность комбинирования отбора по устойчивости и построения вложенных диаграмм. См. работу [63]
  • "Склеивание" понятий на основе ассоциативных правил, т.е. фактически, добавление ассоциативного правила как импликации, что приведет к уменьшению размера решетки.
  • Использование импликаций и ассоциативных правил как дополнительное средство выявления зависимостей. Поиск наиболее интересных импликаций следует производить, исходя из расположения понятий в решетке.

  • Остановимся подробнее на понятии индекса устойчивости [48, 49], который мы используем для отбора интересных групп посетителей при построении таксономий. С одной стороны, индекс устойчивости формального понятия служит показателем независимости содержания от частных объектов объема (наличие которых в контексте зависит от случайных факторов). С другой стороны, индекс устойчивости показывает, насколько сильно объем понятия отличается от похожих меньших объемов (если такая разница мала, то объем относится к устойчивой категории). Отметим, что впервые понятие устойчивости было предложено в работе [5].

    Определение 5.1   Пусть

    — формальный контекст,

    некоторое формальное понятие

    . Тогда индекс устойчивости

    понятия

    определяется выражением

    Очевидно, что

    .

    Даже если описание данных зашумлено, то понятия с индексом устойчивости, близким к 1, вероятно, объективно отражают реальное положение дел. Индекс устойчивости показывает, насколько стабильны интересы групп посетителей, даже если некоторые из более не активны.




    - Начало -  - Назад -  - Вперед -



    Книжный магазин