Исследование данных о посещаемости сайтов с помощью методов анализа формальных понятий

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м Анализ данных о посещаемости сайтов с помощью АФП» переименована в «[[Исследование данных о посещаемости сайтов с помощью методов анал)
(викификация, категория)
Строка 1: Строка 1:
-
С момента создания сайта для его владельцев и возможно потенциальных рекламодателей встает вопрос учета количества посещений с целью определения популярности ресурса и выявления целевой аудитории. Сейчас рынок таких услуг довольно широко представлен рядом компаний, которые готовы предоставить владельцам сайтов различные счетчики посещений, учитывающие как количество посещений отдельными пользователями, так и их географию, текущее время и продолжительность такого посещения. Как показывает развитие отрасли для эффективного анализа структуры аудиторий сайтов статистической информации недостаточно. Владельца сайта часто интересуют подгруппы его целевой (постоянной) аудитории, например, покупатели бытовой техники в Интернет-магазине могут отличаться по различным категориям (домохозяйки, лица недавно сделавшие ремонт или новоселы, владельцы заведений общепита и т.д.). Знание своей аудитории дает владельцам сайтов возможность корректировать предлагаемые услуги, выбирать адекватные рекламные средства, выстраивать линейку продуктов и т.п. Выводы о принадлежности к той или иной группе целевой аудитории можно сделать, анализируя поведение посетителей сайта, а именно рассматривая посещение ими же других сайтов и выдвигая соответствующие гипотезы. Наш подход основан на применение решеток формальных понятий, неплохо зарекомендовавших себя при анализе структур научных сообществ и других, по сути, социологических исследованиях. Ниже опишем постановку задачи и модель для построения двух видов таксономий аудиторий.
+
В статье описывается подход к исследованию свойств множества посетителей сайтов сети Интернет с помощью методов [[Анализ формальных понятий|анализа формальных понятий]].
-
Необходимо построить "внешнюю" и "внутреннюю" таксономии некоторого целевого сайтов. Под ''"внешней таксономией"'' будем понимать иерархическую структуру аудитории целевого сайта, выявленную по данным посещений остальных сайтов выборки. Ей будет в точности соответствовать решетка формальныx понятий, построенная по такому контексту <tex>\mathbb{K}_{ex}=(V,S_{ex},I)</tex>, где <tex>V</tex> -- множество всех посетителей целевого сайта, <tex>S_{ex}</tex> -- множество всех сайтов выборки исключая целевой, <tex>I</tex> -- отношение инцидентности<tex>vIs</tex>, имеющее место для <tex>v \in V</tex>, <tex>s \in S_{ex}</tex>, тогда и только тогда, когда посетитель <tex>v</tex> "ходил" на сайт <tex>s</tex>.
+
С момента создания сайта для его владельцев и возможно потенциальных рекламодателей встает вопрос учета количества посещений с целью определения популярности ресурса и выявления целевой аудитории. Сейчас рынок таких услуг довольно широко представлен рядом компаний, которые готовы предоставить владельцам сайтов различные счетчики посещений, учитывающие как количество посещений отдельными пользователями, так и их географию, текущее время и продолжительность такого посещения. Как показывает развитие отрасли для эффективного анализа структуры аудиторий сайтов статистической информации недостаточно. Владельца сайта часто интересуют подгруппы его целевой (постоянной) аудитории, например, покупатели бытовой техники в Интернет-магазине могут отличаться по различным категориям (домохозяйки, лица недавно сделавшие ремонт или новоселы, владельцы заведений общепита и&nbsp;т.&nbsp;д.). Знание своей аудитории дает владельцам сайтов возможность корректировать предлагаемые услуги, выбирать адекватные рекламные средства, выстраивать линейку продуктов и&nbsp;т.&nbsp;п. Выводы о принадлежности к той или иной группе целевой аудитории можно сделать, анализируя поведение посетителей сайта, а именно рассматривая посещение ими же других сайтов и выдвигая соответствующие гипотезы. Наш подход основан на применение решеток формальных понятий, неплохо зарекомендовавших себя при анализе структур научных сообществ и других, по сути, социологических исследованиях. Ниже опишем постановку задачи и модель для построения двух видов таксономий аудиторий.
 +
 
 +
Необходимо построить «внешнюю» и «внутреннюю» таксономии некоторого целевого сайтов. Под ''«внешней таксономией»'' будем понимать иерархическую структуру аудитории целевого сайта, выявленную по данным посещений остальных сайтов выборки. Ей будет в точности соответствовать решетка формальныx понятий, построенная по такому контексту <tex>\mathbb{K}_{ex}=(V,S_{ex},I)</tex>, где <tex>V</tex> -- множество всех посетителей целевого сайта, <tex>S_{ex}</tex> -- множество всех сайтов выборки исключая целевой, <tex>I</tex> -- отношение инцидентности<tex>vIs</tex>, имеющее место для <tex>v \in V</tex>, <tex>s \in S_{ex}</tex>, тогда и только тогда, когда посетитель <tex>v</tex> "ходил" на сайт <tex>s</tex>.
Под ''"внутренней" таксономией'' будем понимать иерархическую структуру аудитории целевого сайта, построенную по данным посещений его собственных страниц (возможно, сгруппированных по разделам). Соответствующий контекст определяется сходным образом <tex>\mathbb{K}_{in}=(V,S_{in},I</tex>, где <tex>V</tex> -- множество всех посетителей целевого сайта, <tex>S_{in}</tex> -- множество всех собственных страниц целевого сайта, <tex>I</tex> --- отношение инцидентности <tex>vIs</tex>, имеющее место для <tex>v \in V</tex>,<tex>s \in S_{in}</tex>, тогда и только тогда, когда посетитель <tex>v</tex> "ходил" на сайт <tex>s</tex>.
Под ''"внутренней" таксономией'' будем понимать иерархическую структуру аудитории целевого сайта, построенную по данным посещений его собственных страниц (возможно, сгруппированных по разделам). Соответствующий контекст определяется сходным образом <tex>\mathbb{K}_{in}=(V,S_{in},I</tex>, где <tex>V</tex> -- множество всех посетителей целевого сайта, <tex>S_{in}</tex> -- множество всех собственных страниц целевого сайта, <tex>I</tex> --- отношение инцидентности <tex>vIs</tex>, имеющее место для <tex>v \in V</tex>,<tex>s \in S_{in}</tex>, тогда и только тогда, когда посетитель <tex>v</tex> "ходил" на сайт <tex>s</tex>.
Понятию такого контекста соответствует пара <tex>(A, B)</tex>, такая что<tex>A'=\{</tex> множество сайтов <tex>s \in S</tex>, которые посещали все посетители <tex>v \in A\} =B</tex>, а <tex>B'=\{</tex> множество посетителей <tex>v \in V</tex>, которые посещали все сайты <tex>s \in B\} =A</tex>.
Понятию такого контекста соответствует пара <tex>(A, B)</tex>, такая что<tex>A'=\{</tex> множество сайтов <tex>s \in S</tex>, которые посещали все посетители <tex>v \in A\} =B</tex>, а <tex>B'=\{</tex> множество посетителей <tex>v \in V</tex>, которые посещали все сайты <tex>s \in B\} =A</tex>.
-
Остановимся подробнее на понятии индекса устойчивости формального понятия, предложенного в работах С.О.~Кузнецова, который используется для отбора интересных групп посетителей при построении таксономий. Индекс устойчивости ФП служит показателем независимости содержания от частных объектов объема (наличие которых в контексте зависит от случайных факторов).
+
Остановимся подробнее на понятии индекса устойчивости формального понятия, предложенного в работах С.&nbsp;О.&nbsp;Кузнецова, который используется для отбора интересных групп посетителей при построении таксономий. Индекс устойчивости ФП служит показателем независимости содержания от частных объектов объема (наличие которых в контексте зависит от случайных факторов).
Пусть <tex>\mathbb{K} = (G, M, I)</tex> --- формальный контекст,<tex>(A,B)</tex> -- некоторое формальное понятие <tex>K</tex>, тогда \emph{индекс устойчивости} <tex>\sigma</tex> понятия <tex>(A, B)</tex> определяется выражением
Пусть <tex>\mathbb{K} = (G, M, I)</tex> --- формальный контекст,<tex>(A,B)</tex> -- некоторое формальное понятие <tex>K</tex>, тогда \emph{индекс устойчивости} <tex>\sigma</tex> понятия <tex>(A, B)</tex> определяется выражением
Строка 23: Строка 25:
:<tex>cut(A,B) =|(\bigcup\limits_{g \in A} g')\setminus B|+|(\bigcup\limits_{m \in B} m')\setminus A| .</tex>
:<tex>cut(A,B) =|(\bigcup\limits_{g \in A} g')\setminus B|+|(\bigcup\limits_{m \in B} m')\setminus A| .</tex>
-
Такой индекс показывает степень связи объектов и признаков ФП с другими признаками и объектами контекста. Если говорить в терминах "пользователи-сайты", то чем меньше значение <tex>cut</tex> для некоторого понятия, тем легче отделить аудиторию (объем понятия) от пользователей других сайтов, не входящих в содержание этого понятия. Аналогично, легче выделить тематику сайтов, предпочитаемую этой аудиторией, как вполне самостоятельную, т.к. меньшее количество людей с другими интересами их посещает.
+
Такой индекс показывает степень связи объектов и признаков ФП с другими признаками и объектами контекста. Если говорить в терминах «пользователи-сайты», то чем меньше значение <tex>cut</tex> для некоторого понятия, тем легче отделить аудиторию (объем понятия) от пользователей других сайтов, не входящих в содержание этого понятия. Аналогично, легче выделить тематику сайтов, предпочитаемую этой аудиторией, как вполне самостоятельную, так как меньшее количество людей с другими интересами их посещает.
-
 
+
==Публикации==
==Публикации==
* Sergei O. Kuznetsov, Dmitrii I. Ignatov, Concept Stability for Constructing Taxonomies of Web-site Users// Proc. Satellite Workshop [http://camille.roth.free.fr/confs/icfcasna.html "Social Network Analysis and Conceptual Structures: Exploring Opportunities"] at the 5th International Conference Formal Concept Analysis (ICFCA'07), Clermont-Ferrand, France, P. 19-24 ([http://arxiv.org/abs/0905.1424])
* Sergei O. Kuznetsov, Dmitrii I. Ignatov, Concept Stability for Constructing Taxonomies of Web-site Users// Proc. Satellite Workshop [http://camille.roth.free.fr/confs/icfcasna.html "Social Network Analysis and Conceptual Structures: Exploring Opportunities"] at the 5th International Conference Formal Concept Analysis (ICFCA'07), Clermont-Ferrand, France, P. 19-24 ([http://arxiv.org/abs/0905.1424])
 +
 +
[[Категория:Анализ формальных понятий]]

Версия 18:04, 8 марта 2011

В статье описывается подход к исследованию свойств множества посетителей сайтов сети Интернет с помощью методов анализа формальных понятий.

С момента создания сайта для его владельцев и возможно потенциальных рекламодателей встает вопрос учета количества посещений с целью определения популярности ресурса и выявления целевой аудитории. Сейчас рынок таких услуг довольно широко представлен рядом компаний, которые готовы предоставить владельцам сайтов различные счетчики посещений, учитывающие как количество посещений отдельными пользователями, так и их географию, текущее время и продолжительность такого посещения. Как показывает развитие отрасли для эффективного анализа структуры аудиторий сайтов статистической информации недостаточно. Владельца сайта часто интересуют подгруппы его целевой (постоянной) аудитории, например, покупатели бытовой техники в Интернет-магазине могут отличаться по различным категориям (домохозяйки, лица недавно сделавшие ремонт или новоселы, владельцы заведений общепита и т. д.). Знание своей аудитории дает владельцам сайтов возможность корректировать предлагаемые услуги, выбирать адекватные рекламные средства, выстраивать линейку продуктов и т. п. Выводы о принадлежности к той или иной группе целевой аудитории можно сделать, анализируя поведение посетителей сайта, а именно рассматривая посещение ими же других сайтов и выдвигая соответствующие гипотезы. Наш подход основан на применение решеток формальных понятий, неплохо зарекомендовавших себя при анализе структур научных сообществ и других, по сути, социологических исследованиях. Ниже опишем постановку задачи и модель для построения двух видов таксономий аудиторий.

Необходимо построить «внешнюю» и «внутреннюю» таксономии некоторого целевого сайтов. Под «внешней таксономией» будем понимать иерархическую структуру аудитории целевого сайта, выявленную по данным посещений остальных сайтов выборки. Ей будет в точности соответствовать решетка формальныx понятий, построенная по такому контексту \mathbb{K}_{ex}=(V,S_{ex},I), где V -- множество всех посетителей целевого сайта, S_{ex} -- множество всех сайтов выборки исключая целевой, I -- отношение инцидентностиvIs, имеющее место для v \in V, s \in S_{ex}, тогда и только тогда, когда посетитель v "ходил" на сайт s. Под "внутренней" таксономией будем понимать иерархическую структуру аудитории целевого сайта, построенную по данным посещений его собственных страниц (возможно, сгруппированных по разделам). Соответствующий контекст определяется сходным образом \mathbb{K}_{in}=(V,S_{in},I, где V -- множество всех посетителей целевого сайта, S_{in} -- множество всех собственных страниц целевого сайта, I --- отношение инцидентности vIs, имеющее место для v \in V,s \in S_{in}, тогда и только тогда, когда посетитель v "ходил" на сайт s. Понятию такого контекста соответствует пара (A, B), такая чтоA'=\{ множество сайтов s \in S, которые посещали все посетители v \in A\} =B, а B'=\{ множество посетителей v \in V, которые посещали все сайты s \in B\} =A.

Остановимся подробнее на понятии индекса устойчивости формального понятия, предложенного в работах С. О. Кузнецова, который используется для отбора интересных групп посетителей при построении таксономий. Индекс устойчивости ФП служит показателем независимости содержания от частных объектов объема (наличие которых в контексте зависит от случайных факторов).

Пусть \mathbb{K} = (G, M, I) --- формальный контекст,(A,B) -- некоторое формальное понятие K, тогда \emph{индекс устойчивости} \sigma понятия (A, B) определяется выражением

\sigma(A,B) = \frac{|\{C\subseteq A | B'=A \}|}{2^{|A|}}.

Очевидно, что 0 \leq \sigma (A, B) \leq 1.

Даже если описание данных зашумлено, то понятия с индексом устойчивости близким к 1, вероятно, объективно отражают реальное положение дел. Индекс устойчивости показывает, насколько стабильны интересы групп посетителей, даже если некоторые из них более не активны.

Пусть (A, B) -- некоторое ФП контекста \mathbb{K} = (G, M, I), его поддержка определяется выражением supp(A,B) = \frac{|A|}{|G|}, и дано минимальное значение поддержки minsupp \in [0,1], тогда "решеткой-айсбергом" назовем множество \{(A,B)|supp(B)\geq minsupp\}.

Использование решеток-айсбергов позволяет выявлять крупные понятия, соответствующие аудиториям наиболее посещаемых сайтов. К сожалению, размер аудитории не гарантирует того, что данная аудитория возникла не в результате влияния шума. Поэтому исследовались и некоторые другие критерии отбора релевантных ФП, например, минимальные разрезы из теории графов. Применение таких критериев возможно потому, что формальному контексту \mathbb{K}=(G,M,I) соответствует неориентированный двудольный граф \Gamma=(G\cup M,E), где для g \in G и m \in M выполнено \{g,m\} \in E \Leftrightarrow gIm. Формальному понятию (A,B) контекста \mathbb{K} будет соответствовать биклика K_{A,B} двудольного графа \Gamma. В этом случае разрезом для формального понятия (A,B) будет число ребер графа \Gamma, имеющих одну вершину в A или B, а другую в M\setminus B или G\setminus A соответственно.

Для формального контекста \mathbb{K} = (G, M, I) разрез ФП (A,B) определяется выражением

cut(A,B) =|(\bigcup\limits_{g \in A} g')\setminus B|+|(\bigcup\limits_{m \in B} m')\setminus A| .

Такой индекс показывает степень связи объектов и признаков ФП с другими признаками и объектами контекста. Если говорить в терминах «пользователи-сайты», то чем меньше значение cut для некоторого понятия, тем легче отделить аудиторию (объем понятия) от пользователей других сайтов, не входящих в содержание этого понятия. Аналогично, легче выделить тематику сайтов, предпочитаемую этой аудиторией, как вполне самостоятельную, так как меньшее количество людей с другими интересами их посещает.

Публикации

Личные инструменты