Методы бикластеризации для анализа интернет-данных


Анализ данных посещаемости сайтов с помощью ФАП - часть 2


Необходимо построить "внешнюю" и "внутреннюю" таксономии каждого из сайтов. Под "внешней" таксономией мы будем понимать иерархическую структуру аудитории целевого сайта, выявленную по данным посещений остальных сайтов выборки. Ей будет в точности соответствовать решетка формальныx понятий, построенная по контексту

, где

— множество всех посетителей целевого сайта,

— множество всех сайтов выборки за исключением целевого сайта,

— отношение инцидентности

, имеющее место для

, тогда и только тогда, когда посетитель

"ходил" на сайт

.

Под "внутренней" таксономией будем понимать иерархическую структуру аудитории целевого сайта построенную по данным посещений его собственных страниц (возможно сгруппированных по разделам). Соответствующий контекст определяется сходным образом

, где

— множество всех посетителей целевого сайта,

— множество всех собственных страниц целевого сайта,

— отношение инцидентности

, имеющее место для

тогда и только тогда, когда посетитель

"ходил" на сайт

. Понятию такого контекста соответствует пара
, такая что

множество сайтов

, которые посещали все посетители
, а

множество посетителей

, которые посещали все сайты
.

Исходные данные для построения "внешней" таксономии для каждого сайта представляются в виде файла записей следующего формата:

  • id; \\id посетителя;
  • last_ts; \\время первого захода на сайт;
  • first_ts; \\время последнего захода на сайт;
  • num; \\количество совершенных сессий за все время знакомства с сайтом.

Для построения внутренней таксономии используется аналогичная структура с дополнительным полем url_page, соответствующим посещенной странице данного сайта. По этим данными формируются описанные выше контексты. Ниже описываются способы отбора посетителей и сайтов для формирования контекстов.

Пути решения и возникающие проблемы

Несмотря на то, что выборка из 10000 сайтов сравнительно мала для российского Интернет-пространства, использование всей информации для анализа аудитории конкретного сайта влечет слишком большие вычислительные затраты. А построенные таксономии, представленные диаграммами решеток понятий, громоздки для визуального анализа и последующей интерпретации. Обсудим пути сокращения размера входных данных.




- Начало -  - Назад -  - Вперед -