Статистический отчет при создании моделей
Материал из MachineLearning.
(→Описание решения) |
(→Описание решения) |
||
Строка 56: | Строка 56: | ||
где <tex>\bar y = \frac{1}{l} \sum_{i=1}^l y_i;</tex> | где <tex>\bar y = \frac{1}{l} \sum_{i=1}^l y_i;</tex> | ||
** проверку гипотезы о равенстве нулю математического ожидания регрессионных остатков на основе [[Критерий знаков|критерия знаков]]; | ** проверку гипотезы о равенстве нулю математического ожидания регрессионных остатков на основе [[Критерий знаков|критерия знаков]]; | ||
- | ** проверку гипотезы о равенстве дисперсий (пропорциональности с заданными коэффициентами) регрессионных остатков на основе критерия Ансари-Брэдли; | + | ** проверку гипотезы о равенстве дисперсий (пропорциональности с заданными коэффициентами) регрессионных остатков на основе критерия [http://www.mathworks.com/help/toolbox/stats/ansaribradley.html Ансари-Брэдли]; |
** проверку гипотезы о нормальности распределения регрессионных остатков на основе критерия хи-квадрат и критерия [http://en.wikipedia.org/wiki/Jarque%E2%80%93Bera_test Жарка-Бера]; | ** проверку гипотезы о нормальности распределения регрессионных остатков на основе критерия хи-квадрат и критерия [http://en.wikipedia.org/wiki/Jarque%E2%80%93Bera_test Жарка-Бера]; | ||
- | * вычисление расстояния Махаланобиса и Кука; | + | * вычисление расстояния [http://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%9C%D0%B0%D1%85%D0%B0%D0%BB%D0%B0%D0%BD%D0%BE%D0%B1%D0%B8%D1%81%D0%B0 Махаланобиса] и [http://en.wikipedia.org/wiki/Cook's_distance Кука]; |
* вычисление корреляций признаков, корреляций признаков и значений моделируемой функции и коэффициента множественной регрессии; | * вычисление корреляций признаков, корреляций признаков и значений моделируемой функции и коэффициента множественной регрессии; | ||
* вычисление коэффициента детерминации. | * вычисление коэффициента детерминации. |
Версия 20:07, 14 ноября 2011
|
В данной работе приведен обзор статистических методов оценивания качества регрессионных моделей, используемых популярными программами машинного обучения и статистической обработки данных. Приведены примеры вычисления и анализа полученных оценок.
Постановка задачи
Имеется пространство объектов-строк и
пространство ответов
.
Задана выборка
.
Обозначеним:
-
матрица информации или матрица плана;
-
вектор параметров;
-
целевой вектор.
Будем считать, что зависимость имеет вид
,
где некоторая неслучайная функция,
случайная величина,
с нулевым математически ожиданием.
В моделях многомерной линейной регрессии предполагается, что неслучайная составляющая имеет вид:
.
Требуется численно оценить качество модели при заданном векторе параметров .
Описание решения
Предполагая,
что матрица ковариации вектора ошибки имеет вид
,
где
,
получаем выражение для оценки параметров
взвешенным методом наименьших квадратов:
Основными инструментами оценки качества линейной модели является анализ:
- регрессионных остатков;
- матрицы частных и получастных корреляций (условные корреляции);
- корреляции и ковариации коэффициентов регрессии;
- статистики Дарбина-Уотсона;
- расстояния Махаланобиса между исходной и модельной зависимостями;
- расстояния Кука (мера изменения прогноза при удалении одного объекта);
- доверительных интервалов для предсказанных значений.
В работе рассматривается
- анализ регрессионных остатков, включающий в себя:
- вычисление среднеквадратичной ошибки:
- вычисление коэффициента детерминации:
где
- проверку гипотезы о равенстве нулю математического ожидания регрессионных остатков на основе критерия знаков;
- проверку гипотезы о равенстве дисперсий (пропорциональности с заданными коэффициентами) регрессионных остатков на основе критерия Ансари-Брэдли;
- проверку гипотезы о нормальности распределения регрессионных остатков на основе критерия хи-квадрат и критерия Жарка-Бера;
- вычисление расстояния Махаланобиса и Кука;
- вычисление корреляций признаков, корреляций признаков и значений моделируемой функции и коэффициента множественной регрессии;
- вычисление коэффициента детерминации.
Вычислительный эксперимент
Исходный код и полный текст работы
Смотри также
Литература
![]() | Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |