Методы бикластеризации для анализа интернет-данных




Анализ данных посещаемости сайтов с помощью ФАП - часть 5


Обсудим теперь важные для интерпретации особенности построения решеточных таксономий.

  • При отборе посетителей по порогу посещаемости есть опасность построить таксономию для поведения поисковых роботов, а не реальных людей, интересующих владельца сайта. Когда порог по посещаемости велик, а промежуток времени, в течение которого происходили посещения, короткий, мы, фактически, исследуем поведение "поисковых маньяков" и поисковых роботов. Поэтому необходимо устанавливать разумные пороги по посещаемости как сверху, так и снизу, а также целесообразно использовать относительные пороги.
  • Чтобы выявить схожие аудитории людей, не посещающих целевой сайт, можно расширить исходный контекст добавлением в него таких пользователей, причем таких, которые посещают сайты, уже входящие в контекст.
  • Работа одновременно с внутренней структурой "целевого" сайта и прочими сайтами (признаки — сайты из имеющегося десятитысячного списка и страницы целевого сайта). В случае с сайтом университета это позволит, например, сравнить устремления людей, интересующихся разными факультетами.
  • Работа с контекстом
    , где отмечается клетка на пересечении строки и столбца, если размер пересечения аудиторий двух сайтов не ниже некоторого порога. Это позволит выявить схожие устойчивые аудитории различных сайтов.
  • Для построения исходных контекстов можно отбирать только те сайты из десяти тысяч, размер пересечений аудитории которых с аудиторией целевого сайта не ниже некоторого порога. Это даст сокращение размера контекста и, возможно, повысит релевантность результатов.

    Результаты

    Рассмотрим некоторые результаты, полученные нами в ходе анализа посещаемости сайта ГУ-ВШЭ за ноябрь 2006 года. Мы построили как внутреннюю, так и внешние таксономии сайта. В качестве внешних сайтов мы рассматривали ресурсы новостной тематики, финансовых и образовательных учреждений. Приведем пример внешней таксономии для посетителей ГУ-ВШЭ в терминах ресурсов новостных сайтов. Отметим, что рассматриваемый временной промежуток — месяц, а порог на число посещений сайта ГУ-ВШЭ каждым пользователем равен 20.




    Содержание  Назад  Вперед