Оценка параметров смеси моделей

Материал из MachineLearning.

(Различия между версиями)

Версия 19:58, 6 декабря 2011

Содержание

1 Введение
2 Оценка параметров линейных моделей
3 Оценка параметров обобщенно-линейных моделей
4 Оценка параметров смеси экспертов
5 Литература

Введение

В случае, когда одной модели для описания данных не хватает, используют смеси моделей. Предполагается, что исходная зависимость выражается формулой:

$p(\vec{y} | \vec{x}) = \sum_{k=1}^l p(\vec{w}_k | \vec{x}) p(y | \vec{x}, \vec{w}_k) = \sum_{k=1}^l \pi_k p(y | \vec{x}, \vec{w}_k),$

где $\pi_k = p(\vec{w}_k | \vec{x})$ --- вероятность принадлежности модели $k$ .

$\sum_{k=1}^l \pi_k = 1.$

Далее предполагается, что объекты в выборке независимы и плотность совместного распределения преобразуется в произведение плотностей распределения каждого объекта.

$p(\vec{y} | \vec{x}) = \sum_{k=1}^l \pi_k \prod_{i=1}^{n} p(y^i | \vec{x}^i, \vec{w}_k) = \prod_{i=1}^{n} \sum_{k=1}^l \pi_k p(y^i | \vec{x}^i, \vec{w}_k).$

Введем функцию правдоподобия $Q(\vec{w_1}, \dots, \vec{w_l}, \vec{\pi})$ как логарифм плотности вероятности данных.

$Q(\vec{w}^1, \dots, \vec{w}^l, \vec{\pi}) = \ln p(\vec{y} | \vec{x}) = \sum_{i=1}^{m} \ln \left[\sum_{k=1}^l \pi_k p(y^i | \vec{x}^i, \vec{w}_k)\right].$

Обозначим через $p(y, \vec{w}_k | \vec{x})$ вероятность того, что объект $(\vec{x}, y)$ был порожден компонентой $\vec{w}_k$ , $\gamma_{ik} = p(\vec{w}_k | y^i, \vec{x}^i)$ --- вероятность того, что $i$ -объект порожден $j$ -компонентой. Каждый объект был порожден какой-либо моделью, по формуле полной вероятности

$\sum_{k=1}^{l} \gamma_{ik} = 1, \quad \forall i.$

Для произвольного объекта $(\vec{x}, y)$ вероятность его получения моделью $w_k$ по формуле условной вероятности равна:

$p(y, \vec{w}_k | \vec{x}) = p(\vec{w}_k | \vec{x}) p(y | \vec{x}, \vec{w}_k) \equiv \pi_{k} p(y | \vec{x}, \vec{w}_k).$

Подставим это равенство в формулу Байеса для $\gamma_{ik}$

$\gamma_{ik} = \frac{\pi_k p(y^i | \vec{x}^i, \vec{w}_k)}{\sum_{s=1}^{l} \pi_s p(y^i | \vec{x}^i, \vec{w}_s)}.$

Для определения параметров смеси необходимо решить задачу максимизации правдоподобия $Q(\vec{w}^1, \dots, \vec{w}^l, \vec{\pi}) \rightarrow max$, для этого выпишем функцию Лагранжа:

Оценка параметров линейных моделей

Оценка параметров обобщенно-линейных моделей

Оценка параметров смеси экспертов

Литература

Данная статья является непроверенным учебным заданием.

Студент: Кирилл Павлов

Преподаватель: В.В. Стрижов

Срок: 26 сентября 2011

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%BF%D0%B0%D1%80%D0%B0%D0%BC%D0%B5%D1%82%D1%80%D0%BE%D0%B2_%D1%81%D0%BC%D0%B5%D1%81%D0%B8_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B5%D0%B9»

Категории: Непроверенные учебные задания | Практика и вычислительные эксперименты

Оценка параметров смеси моделей

Материал из MachineLearning.

Версия 19:58, 6 декабря 2011

Содержание

Введение

Оценка параметров линейных моделей

Оценка параметров обобщенно-линейных моделей

Оценка параметров смеси экспертов

Литература

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты

@@ Строка 1: / Строка 1: @@
+{{TOCright}}
+==Введение==
+В случае, когда одной модели для описания данных не хватает, используют смеси моделей. Предполагается, что исходная зависимость выражается формулой:
+<tex>
+	p(\vec{y} | \vec{x}) =
+	\sum_{k=1}^l p(\vec{w}_k | \vec{x}) p(y | \vec{x}, \vec{w}_k) =
+	\sum_{k=1}^l \pi_k p(y | \vec{x}, \vec{w}_k),
+</tex>
+где <tex>\pi_k = p(\vec{w}_k | \vec{x})</tex> --- вероятность принадлежности модели <tex>k</tex>.
+<tex>
+	\sum_{k=1}^l \pi_k = 1.
+</tex>
+Далее предполагается, что объекты в выборке независимы и плотность совместного распределения преобразуется в произведение плотностей распределения каждого объекта.
+<tex>
+	p(\vec{y} | \vec{x}) =
+	\sum_{k=1}^l \pi_k \prod_{i=1}^{n} p(y^i | \vec{x}^i, \vec{w}_k) =
+	\prod_{i=1}^{n} \sum_{k=1}^l \pi_k p(y^i | \vec{x}^i, \vec{w}_k).
+</tex>
+Введем функцию правдоподобия <tex>Q(\vec{w_1}, \dots, \vec{w_l}, \vec{\pi})</tex> как логарифм плотности вероятности данных.
+<tex>
+	Q(\vec{w}^1, \dots, \vec{w}^l, \vec{\pi}) = \ln p(\vec{y} | \vec{x}) =
+	\sum_{i=1}^{m} \ln \left[\sum_{k=1}^l \pi_k p(y^i | \vec{x}^i, \vec{w}_k)\right].
+</tex>
+Обозначим через <tex>p(y, \vec{w}_k | \vec{x})</tex> вероятность того, что объект <tex>(\vec{x}, y)</tex> был порожден компонентой <tex>\vec{w}_k</tex>, <tex>\gamma_{ik} = p(\vec{w}_k | y^i, \vec{x}^i)</tex> --- вероятность того, что <tex>i</tex>-объект порожден <tex>j</tex>-компонентой. Каждый объект был порожден какой-либо моделью, по формуле полной вероятности
+<tex>
+	\sum_{k=1}^{l} \gamma_{ik} = 1, \quad \forall i.
+</tex>
+Для произвольного объекта <tex>(\vec{x}, y)</tex> вероятность его получения моделью <tex>w_k</tex> по формуле условной вероятности равна:
+<tex>
+	p(y, \vec{w}_k | \vec{x}) = p(\vec{w}_k | \vec{x}) p(y | \vec{x}, \vec{w}_k) \equiv \pi_{k} p(y | \vec{x}, \vec{w}_k).
+</tex>
+Подставим это равенство в формулу Байеса для <tex>\gamma_{ik}</tex>
+<tex>
+	\gamma_{ik} = \frac{\pi_k p(y^i | \vec{x}^i, \vec{w}_k)}{\sum_{s=1}^{l} \pi_s p(y^i | \vec{x}^i, \vec{w}_s)}.
+</tex>
+Для определения параметров смеси необходимо решить задачу максимизации правдоподобия $Q(\vec{w}^1, \dots, \vec{w}^l, \vec{\pi}) \rightarrow max$, для этого выпишем функцию Лагранжа:
 ==Оценка параметров линейных моделей==
@@ Строка 8: / Строка 59: @@
 * [http://ya.ru Bishop, C. Pattern Recognition And Machine Learning. Springer. 2006.], p 654 - 676
 * [http://ya.ru Nelder, John; Wedderburn, Robert (1972). "Generalized Linear Models". Journal of the Royal Statistical Society. Series A (General) (Blackwell Publishing)]
+* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов~К.~В. "Курс лекций по машинному обучению".] стр. 32 - 37
 {{Задание|Кирилл Павлов|В.В. Стрижов|26 сентября 2011|pavlov99|Strijov}}
 [[Категория:Практика и вычислительные эксперименты]]