Формирование бикластеров и рекомендаций для рекомендательной системы Интернет-рекламы

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 17: Строка 17:
Пусть <tex>t</tex> - некое рекламное словосочетание. Представим его в виде множества слов его образующих <tex>t=\{w_1, w_2, \ldots, w_n\}</tex>. Основу слова <tex>w_i</tex> обозначим через <tex>s_i=stem(w_i)</tex>, тогда множество основ словосочетания <tex>t</tex> обозначим через <tex>Stem(t)=\bigcup\limits_i stem(w_i)</tex>. Построим формальный контекст <tex>\mathbb{K}_{TS}=(T, S, I_{TS})</tex>, где <tex>T</tex> --- множество всех словосочетаний, а <tex>S</tex> --- множество основ всех словосочетаний из <tex>T</tex>, т.е. <tex>S=\bigcup\limits_i Stem(t_i)</tex>. Тогда <tex>tIs</tex> будет означать, что во множество основ словосочетания <tex>t</tex> входит основа <tex>s</tex>.
Пусть <tex>t</tex> - некое рекламное словосочетание. Представим его в виде множества слов его образующих <tex>t=\{w_1, w_2, \ldots, w_n\}</tex>. Основу слова <tex>w_i</tex> обозначим через <tex>s_i=stem(w_i)</tex>, тогда множество основ словосочетания <tex>t</tex> обозначим через <tex>Stem(t)=\bigcup\limits_i stem(w_i)</tex>. Построим формальный контекст <tex>\mathbb{K}_{TS}=(T, S, I_{TS})</tex>, где <tex>T</tex> --- множество всех словосочетаний, а <tex>S</tex> --- множество основ всех словосочетаний из <tex>T</tex>, т.е. <tex>S=\bigcup\limits_i Stem(t_i)</tex>. Тогда <tex>tIs</tex> будет означать, что во множество основ словосочетания <tex>t</tex> входит основа <tex>s</tex>.
-
Построим по такому контексту правила вида <tex>t \rightarrow s_i^{I_{TS}}</tex> для всех <tex>t \in T</tex>. Тогда такому метаправилу контекста <tex>\mathbb{K}_{TS}</tex> соответствует <tex>t \xrightarrow[]{FT} s_i^{I_{TS}}</tex> --- ассоциативное правило контекста <tex>\mathbb{K}_{FT}</tex>. Если величина поддержки и достоверности такого правила в контексте <tex>\mathbb{K}_{FT}</tex> превышают некоторые пороговые значения, то можно считать ассоциативные правила, построенные по контексту <tex>\mathbb{K}_{FT}</tex>, не столь интересными (их можно вывести из описания признаков).
+
Построим по такому контексту правила вида <tex>t \rightarrow s_i^{I_{TS}}</tex> для всех <tex>t \in T</tex>. Тогда такому метаправилу контекста <tex>\mathbb{K}_{TS}</tex> соответствует <tex>t \rightarrow_{FT} s_i^{I_{TS}}</tex> --- ассоциативное правило контекста <tex>\mathbb{K}_{FT}</tex>. Если величина поддержки и достоверности такого правила в контексте <tex>\mathbb{K}_{FT}</tex> превышают некоторые пороговые значения, то можно считать ассоциативные правила, построенные по контексту <tex>\mathbb{K}_{FT}</tex>, не столь интересными (их можно вывести из описания признаков).
-
В качестве более крупных метаправил предлагаются следующие две возможности. Во-первых, можно искать правила вида <tex>t \xrightarrow[]{FT} \bigcup\limits_i s_i^{I_{TS}}</tex>, т.е. правила, в правую часть которых входят все термы, имеющие хотя бы одно однокоренное слово с исходным термом. Во-вторых, правила вида <tex>t \xrightarrow[]{FT} (\bigcup\limits_i s_i)^{I_{TS}}</tex>, т.е. правила, термы в правой части которых содержат в своем составе те же основы, что и исходный. Довольно очевидно, что первый тип правил может привести к объединению различных словосочетаний, например ``black jack'' --- игровой бизнес и ``black coat'' --- одежда. Такое объединение произошло благодаря наличию общего слова ``black''. А второй тип правил относится к более редким зависимостям, например, <tex>\{black~ jack\} \rightarrow \{black~jack~game~online\}</tex>. Поэтому меры поддержки и достоверности при построении простых метаправил должны служить их мерой пригодности для дальнейшего использования. Предложено также использовать метаправила вида <tex>t_1 \xrightarrow[]{FT} t_2</tex>, такие что <tex>t_2^{I_{TS}} \subseteq t_1^{I_{TS}}</tex>. Такие правила имеют простую интерпретацию, из словосочетания <tex>t_2</tex> следует словосочетание множество основ которого вкладывается в множество основ <tex>t_1</tex>, например, <tex>\{ink \ jet\}\rightarrow\{ink\}</tex>, <tex>supp=14</tex>, а <tex>conf= 0,7</tex>.
+
В качестве более крупных метаправил предлагаются следующие две возможности. Во-первых, можно искать правила вида <tex>t \rightarrow_{FT} \bigcup\limits_i s_i^{I_{TS}}</tex>, т.е. правила, в правую часть которых входят все термы, имеющие хотя бы одно однокоренное слово с исходным термом. Во-вторых, правила вида <tex>t \rightarrow_{FT} (\bigcup\limits_i s_i)^{I_{TS}}</tex>, т.е. правила, термы в правой части которых содержат в своем составе те же основы, что и исходный. Довольно очевидно, что первый тип правил может привести к объединению различных словосочетаний, например ``black jack'' --- игровой бизнес и ``black coat'' --- одежда. Такое объединение произошло благодаря наличию общего слова ``black''. А второй тип правил относится к более редким зависимостям, например, <tex>\{black jack\} \rightarrow \{black jack game online\}</tex>. Поэтому меры поддержки и достоверности при построении простых метаправил должны служить их мерой пригодности для дальнейшего использования. Предложено также использовать метаправила вида <tex>t_1 \rightarrow_{FT} t_2</tex>, такие что <tex>t_2^{I_{TS}} \subseteq t_1^{I_{TS}}</tex>. Такие правила имеют простую интерпретацию, из словосочетания <tex>t_2</tex> следует словосочетание множество основ которого вкладывается в множество основ <tex>t_1</tex>, например, <tex>\{ink \ jet\}\rightarrow\{ink\}</tex>, <tex>supp=14</tex>, а <tex>conf= 0,7</tex>.
Для указанных выше задач автором предложены методики оценки качества поиска, основанные на мерах качества, применяемых в информационном поиске (точность, полнота, F-мера), разработке данных (поддержка) в сочетании с техниками оценки качества из машинного обучения, такими как скользящий контроль.
Для указанных выше задач автором предложены методики оценки качества поиска, основанные на мерах качества, применяемых в информационном поиске (точность, полнота, F-мера), разработке данных (поддержка) в сочетании с техниками оценки качества из машинного обучения, такими как скользящий контроль.

Версия 08:26, 5 ноября 2010

Одна из разновидностей электронной коммерции --- контекстная Интернет-реклама. Сейчас на рынке таких услуг крупными игроками являются поисковые системы, немалую часть прибыли которых составляет так называемая поисковая реклама. Для России репрезентативными примерами служат рекламные Интернет-сервисы ``Яндекс.Директ и ``Бегун. Пользователю предлагается релевантная (с точки зрения поисковой системы) его поисковому запросу реклама. В отличие от задачи предоставления пользователю наиболее интересной ему поисковой рекламы, наша задача --- выявление рекламных слов, которые могут быть интересны рекламодателю. Предположим, что некая фирма F приобрела ряд рекламных слов, которые описывают предоставляемые услуги. Как правило, на рынке уже существуют компании-конкуренты, поэтому вполне разумно было бы выяснить, какие рекламные слова приобрели они. Далее можно сравнить эти множества слов с теми, что купила F и, исходя из частоты таких покупок, отобрать наиболее для нее интересные из неприобретенных. Такой механизм стимулирует продажи рекламы и позволяет устраивать своеобразный аукцион по определению цены того или иного рекламного словосочетания. Решение подобной задачи методами спектральной кластеризации описано в работах Жукова~Л.Е. Цель наших экспериментов не только расширить список методов бикластеризации пригодных для решения этой задачи, но и улучшить качество предложенных рекомендаций. Ниже приведено описание математической модели задачи.

Исходный массив данных описывается формальным контекстом \mathbb{K}_{FT}=(F,T,I_{FT}), F (от firms) --- множество компаний-рекламодателей, а T (от term) --- множество рекламных словосочетаний, I --- отношение инцидентности, показывающее, что фирма f \in F купила словосочетание t \in T тогда и только тогда, когда fIt.

Для решения задачи последовательно применялись следующие подходы:

  • отбор по размеру объема и содержания понятий и объектно-признаковую бикластеризацию для выявления крупных рынков средствами АФП;
  • поиск ассоциативных правил для построения рекомендаций;
  • построение ассоциативных метаправил с помощью морфологического анализа;
  • построение ассоциативных метаправил с помощью онтологий (тематического каталога).


Краткое описание модели формирования рекомендаций на основе ассоциативных метаправил с помощью морфологического анализа приведено ниже. Рассмотрим в качестве дополнительного знания имеющееся признаковое пространство, а именно тот факт, что каждый признак является словом или словосочетанием. Вполне очевидно, что синонимичные словосочетания принадлежат к одному сегменту рынка. Конечно, в штате компаний, занимающихся контекстной рекламой, существуют тематические каталоги, составленные экспертами, но ввиду большого количества рекламных слов (несколько тысяч) наполнение каталога ``вручную является сложной задачей.

Для построения тематического каталога рекламных словосочетаний могут потребоваться словари синонимов, а учитывая тот факт, что такие словосочетания не всегда слова или сочетания двух слов, такие словари редки. Поэтому в качестве первого приближения для решения такой задачи можно использовать стемминг, или выделение основы слова. Опишем последовательность действий при извлечении знаний с помощью стемминга.

Пусть t - некое рекламное словосочетание. Представим его в виде множества слов его образующих t=\{w_1, w_2, \ldots, w_n\}. Основу слова w_i обозначим через s_i=stem(w_i), тогда множество основ словосочетания t обозначим через Stem(t)=\bigcup\limits_i stem(w_i). Построим формальный контекст \mathbb{K}_{TS}=(T, S, I_{TS}), где T --- множество всех словосочетаний, а S --- множество основ всех словосочетаний из T, т.е. S=\bigcup\limits_i Stem(t_i). Тогда tIs будет означать, что во множество основ словосочетания t входит основа s.

Построим по такому контексту правила вида t \rightarrow s_i^{I_{TS}} для всех t \in T. Тогда такому метаправилу контекста \mathbb{K}_{TS} соответствует t \rightarrow_{FT} s_i^{I_{TS}} --- ассоциативное правило контекста \mathbb{K}_{FT}. Если величина поддержки и достоверности такого правила в контексте \mathbb{K}_{FT} превышают некоторые пороговые значения, то можно считать ассоциативные правила, построенные по контексту \mathbb{K}_{FT}, не столь интересными (их можно вывести из описания признаков).

В качестве более крупных метаправил предлагаются следующие две возможности. Во-первых, можно искать правила вида t \rightarrow_{FT} \bigcup\limits_i s_i^{I_{TS}}, т.е. правила, в правую часть которых входят все термы, имеющие хотя бы одно однокоренное слово с исходным термом. Во-вторых, правила вида t \rightarrow_{FT} (\bigcup\limits_i s_i)^{I_{TS}}, т.е. правила, термы в правой части которых содержат в своем составе те же основы, что и исходный. Довольно очевидно, что первый тип правил может привести к объединению различных словосочетаний, например ``black jack --- игровой бизнес и ``black coat --- одежда. Такое объединение произошло благодаря наличию общего слова ``black. А второй тип правил относится к более редким зависимостям, например, \{black  jack\} \rightarrow \{black jack game online\}. Поэтому меры поддержки и достоверности при построении простых метаправил должны служить их мерой пригодности для дальнейшего использования. Предложено также использовать метаправила вида t_1 \rightarrow_{FT} t_2, такие что t_2^{I_{TS}} \subseteq t_1^{I_{TS}}. Такие правила имеют простую интерпретацию, из словосочетания t_2 следует словосочетание множество основ которого вкладывается в множество основ t_1, например, \{ink \ jet\}\rightarrow\{ink\}, supp=14, а conf= 0,7.

Для указанных выше задач автором предложены методики оценки качества поиска, основанные на мерах качества, применяемых в информационном поиске (точность, полнота, F-мера), разработке данных (поддержка) в сочетании с техниками оценки качества из машинного обучения, такими как скользящий контроль.

machine 01:28, 5 ноября 2010 (MSK)

Личные инструменты