Методы бикластеризации для анализа интернет-данных


Формирование бикластеров для рекомендательной системы Интернет-рекламы - часть 8


/p>

Усредненная достоверность правил на контрольной выборке не сильно снижается по сравнению с минимальной достоверностью для обучающей выборки, т.е.

.

В качестве средства валидации для метаправил мы используем меру достоверности. Величина поддержки не играет большой роли, так как мы ищем не столько крупные рынки или наиболее продаваемые словосочетания, сколько устойчивые закономерности при покупке. Правила с достоверностью меньше 0.5 нас не так сильно интересуют, потому что они означают, что в половине случаев покупка может произойти, а в половине — нет (своеобразная игра в подбрасывание монеты).

Для ассоциативных правил мы изначально задались высоким уровнем достоверности — 0.8 и 0.9. Для метаправил значения поддержки и достоверности необходимо вычислить по контексту

. Приведем значения этих мер в сводных таблицах для метаправил, построенных с использованием морфологии. Также в таблице указано число правил, имеющих поддержку отличную от 0.


Таблица 5.4:

Средние значения supp и conf для морфологических метаправил

Тип правила

Среднее значение supp Среднее значение conf Число правил

6

0,26

2389

6

0,24

456

12

0,40

1095

, такие что

15

0,49

7409

, такие что

11

0,36

2006

Зададим уровень минимальной поддержки 0,5 и установим число правил каждой группы, для которых превышен этот порог.


Таблица 5.5:

Средние значения supp и conf для морфологических метаправил при

Тип правила

Среднее значение supp Среднее значение conf Число правил

15

0,64

454

15

0,63

75

18

0,67

393

, такие что

21

0,70

3922

, такие что

20

0,69

673


По таблицам 5.4 и 5.5 легко установить что наиболее достоверными и часто встречающимися являются правила вида

. Отметим, что использование морфологии является полностью автоматическим приемом, позволяющим найти ассоциации заранее. Остается также часть правил, не подтвержденная значениями поддержки и достоверности. Можно провести ее верификацию для более репрезентативных данных, например, на множестве словосочетаний, которые рекомендуются службой Google AdWords, учитывающей частоту запросов по словам-синонимам для многомиллионной аудитории пользователей.




- Начало -  - Назад -  - Вперед -



Книжный магазин