Критерий Акаике

Материал из MachineLearning.

Версия от 19:34, 14 февраля 2010; Mordasova (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Перейти к: навигация, поиск

Данная статья является непроверенным учебным заданием.

Студент: Участник:Mordasova

Преподаватель: Участник:Константин Воронцов

Срок: 15 февраля 2010

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.

Критерий Акаике (Akaike's information criterion, AIC) - критерий выбора из класса параметризованных регрессионных моделей. Акаике (Akaike) предложил критерий выбора, оценивающий модели с разным числом параметров. Критерий связан с понятием расстояния Кульбака — Лейблера (Kullback–Leibler), при помощи которого можно оценить расстояние между моделями. При применении критерия в соответствии с принципом Оккама лучшей считается модель, в достаточной мере полно описывающая данные с наименьшим количеством параметров. Тесно связан с байесовским информационным критерием, но в отличие от него содержит функцию штрафа, линейно зависящую от числа параметров.

Описание критерия

Расстояние Кульбака-Лейблера между двумя непрерывными функциями есть интеграл $I(f,g)=\int{f(x)\ln{\frac{f(x)}{g(x|\theta)}}d(x)}$ . Акаике показал, что для оценки расстояния между моделями можно оценить величину $E_{\hat{\theta}}\[I(f,\hat{g})\]$ , где $\hat{\theta}$ - оценка вектора параметров, в который входят параметры модели и случайные величины; $\hat{g}=g(\cdot|\hat{\theta})$ . При этом максимум логарифмической функции правдоподобия и оценка матожидания связаны следующим выражением: $\log(\mathcal{L}(\hat{\theta}|y))-K=Const-\hat{E}_{\hat{\theta}}\[I(f,\hat{g})\]$ , где $K$ - число параметров модели, а $\mathcal{L}$ -максимум логарифмической функция правдоподобия. Таким образом вместо вычисления расстояния между моделями можно ввести оценивающий критерий.
$AIC = 2K-2\log(\mathcal{L}(\hat{\theta}|y))$
В случае задачи линейной регрессии можно записать критерий Акаике через SSE (Sum of Squared Errors) - сумма квадратов остатков.
$AIC = 2k+n\[\ln(\hat{\sigma}^2)\]$
$SSE=\|f(x_i)-y_i\|_2=\sum_{i=1}^N(y_i-f(w,x_i))^2$ ;
$\hat{\sigma}^2_\nu=\frac{SSE}{N-2}$ -дисперсия остатков;
Лучшая модель соответствует минимальному значению критерия Акаике.Абсолютное значение критерия не несет в себе полезной информации.

Особенности применения критерия

Штрафование числа параметров ограничивает значительный рост сложности модели.
Проверка критерия является трудоемкой операцией.
Применяется, если известен закон распределения шума.
Может сравнивать модели только из одного пространства объектов.
Критерий Акаике не может быть применен, если модели имеют пересечения по объектам.
Порядок выбора моделей неважен.

Модификации критерия

AIC_c был предложен для использования в задач маленькой размерности, когда $\frac{n}{k}\leq 40$ . При решении более общих задач большей размерности рекомендуется использовать AIC. В то же время, при больших значениях $\frac{n}{K}$ использование двух критериев равно возможно. Особенность критерия AIC_c заключается в том, что функция штрафа умножается на поправочный коэффициент.

$AIC_c=AIC+\frac{2k(k+1)}{n-k-1}$

$AIC_c=\ln\frac{RSS}{n}+\frac{n+k}{n-k-2}$

QAIC следует использовать в тех случаях, когда среднее отклонение превышает дисперсию. В таких ситуациях используется более общая модель, которая получается из рассматриваемой добавлением параметра $c\in\[1;4\]$ .

Если $c<1$ , то его следует заменить на $\tilde c = 1$ . При $c=1$ QAIC сводится к AIC.
$QAIC = 2k-\frac{\ln(L)}{c}$

$QAIC_c = QAIC+\frac{2k(k+1)}{n-k-1}$