Метод наибольшего правдоподобия

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(категория)
Строка 6: Строка 6:
==Обоснование метода ==
==Обоснование метода ==
Заметим, что в силу независимости элементов обучающей выборки вероятность получить набор выходных значений <tex>(y_1,\ldots,y_k)</tex> при поданных на вход значениях <tex>(x_1,\ldots,x_k)</tex> равняется <tex>p(y_1,\ldots,y_k/x_1,\ldots,x_k) = \prod p(y_i/x_i)</tex>. Из эвристических соображений понятно, что, чем ближе модель к истинной, тем больше должна быть эта величина. Функция правдоподобия является логарифмом этой величины. Можно также показать, что если среди множества моделей есть истинная, то максимум математического ожидания функции правдоподобия действительно достигается на истинной модели.
Заметим, что в силу независимости элементов обучающей выборки вероятность получить набор выходных значений <tex>(y_1,\ldots,y_k)</tex> при поданных на вход значениях <tex>(x_1,\ldots,x_k)</tex> равняется <tex>p(y_1,\ldots,y_k/x_1,\ldots,x_k) = \prod p(y_i/x_i)</tex>. Из эвристических соображений понятно, что, чем ближе модель к истинной, тем больше должна быть эта величина. Функция правдоподобия является логарифмом этой величины. Можно также показать, что если среди множества моделей есть истинная, то максимум математического ожидания функции правдоподобия действительно достигается на истинной модели.
 +
 +
[[Категория:Математическая статистика]]

Версия 01:20, 12 ноября 2009

Метод наибольшего правдоподобия - метод поиска модели, наилучшим в каком-то смысле образом описывающей обучающую выборку, полученную с некоторым неизвестным распределением.

Описание метода

Пусть на вход подается некоторая величина x, а на выходе имеется величина y. Также существует условная вероятность p_0(y/x), описывающая вероятность получить на выходе величину y, если на вход была подана величина x. Если множество величин не дискретно, то условная вероятность заменяется на условную плотность распределения. Считается, что эта условная вероятность нам неизвестна. Пусть имеется некоторое множество моделей, описываемых различными условными вероятностями p(y/x,\alpha), где \alpha играет роль индекса, приписываемого конкретной модели, и может вообще говоря иметь любую природу. Пусть также существует обучающая выборка (x_i,y_i), i=1,\ldots,k, порождённая с неизвестной условной вероятностью p_0(y//x). Причем, считается, что все пары порождаются независимо. Требуется на основании обучающей выборки выделить из множества моделей (то есть выбрать \alpha^*) ту, что наилучшим образом подходит к обучающей выборке. Функцией правдоподобия называется функция вида W(\alpha) = \sum\log p(y_i/x_i,\alpha). Метод наибольшего правдоподобия состоит в том, что из множества моделей выбирается та, что максимизирует значение функции правдоподобия, т.е. выбирается значение параметра \alpha^* = argmax_\alpha W(\alpha).

Обоснование метода

Заметим, что в силу независимости элементов обучающей выборки вероятность получить набор выходных значений (y_1,\ldots,y_k) при поданных на вход значениях (x_1,\ldots,x_k) равняется p(y_1,\ldots,y_k/x_1,\ldots,x_k) = \prod p(y_i/x_i). Из эвристических соображений понятно, что, чем ближе модель к истинной, тем больше должна быть эта величина. Функция правдоподобия является логарифмом этой величины. Можно также показать, что если среди множества моделей есть истинная, то максимум математического ожидания функции правдоподобия действительно достигается на истинной модели.