Методы бикластеризации для анализа интернет-данных


Формирование бикластеров для рекомендательной системы Интернет-рекламы - часть 5


3) Построение метаправил на основе морфологии рекламных слов признакового пространства.

Рассмотрим в качестве дополнительного знания имеющееся признаковое пространство, а именно, тот факт, что каждый признак является словом или словосочетанием. Вполне очевидно, что синонимичные словосочетания принадлежат к одному сегменту рынка. Конечно, в штате компаний, занимающихся контекстной рекламой, существуют тематические каталоги, составленные экспертами, но ввиду большого количества рекламных слов (несколько тысяч) наполнение каталога "вручную" является сложной задачей.

Для построения тематического каталога рекламных словосочетаний могут потребоваться словари синонимов, а из-за того, что такие словосочетания не всегда являются словами или сочетаниями двух слов, такие словари редки. К тому же, рекламное словосочетание может включать специфические сокращения, отсутствующие в словарях синонимов общего назначения. Поэтому в качестве первого приближения для решения такой задачи можно использовать стемминг, или выделение основы слова. Опишем последовательность действий при извлечении знаний с помощью стемминга.

Пусть

— некое рекламное словосочетание. Представим это словосочетание в виде множества образующих его слов
. Основу слова

обозначим через

. Множество основ словосочетания

обозначим через

. Построим формальный контекст
, где

— множество всех словосочетаний, а

— множество основ всех словосочетаний из

, т.е.
. Тогда

будет означать, что во множество основ словосочетания

входит основа

.

Построим по такому контексту правила вида

для всех

. Тогда такому метаправилу контекста

соответствует

— ассоциативное правило контекста

. Если величина поддержки и достоверности такого правила в контексте

превышают некоторые пороговые значения, то можно считать ассоциативные правила, построенные по контексту

, не столь интересными (их можно вывести из описания признаков).

В качестве более крупных метаправил мы предлагаем следующие две возможности. Во-первых, можно искать правила вида

, т.е. правила, в правую часть которых входят все термы, имеющие хотя бы одно однокоренное слово с исходным термом. Во-вторых, правила вида
, т.е. правила, термы в правой части которых содержат те же основы, что и исходный терм. Довольно очевидно, что первый тип правил может привести к объединению различных словосочетаний, например "black jack" — игровой бизнес и "black coat" — одежда. Такое объединение произошло благодаря наличию общего слова "black". Второй тип правил относится к более редким зависимостям, например,
. Поэтому меры поддержки и достоверности при построении простых метаправил должны служить их мерой пригодности для дальнейшего использования.




- Начало -  - Назад -  - Вперед -



Книжный магазин