Ковариационный анализ

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Уточнение постановки задачи)
м (ЗаданиеВыполнено)
 
(4 промежуточные версии не показаны)
Строка 1: Строка 1:
-
'''Ковариационный анализ''' - совокупность методов математической статистики, относящихся к анализу моделей зависимости среднего значения некоторой случайной величины <tex>Y</tex> одновременно от набора количественных факторов <tex>X</tex> и неколичественных факторов <tex>F</tex>. По отношению к <tex>Y</tex> переменные <tex>X</tex> называются сопутствующими. Факторы <tex>F</tex> задают сочетания условий качественной природы, при которых были получены наблюдения <tex>Y</tex> и <tex>X</tex>, и описываются с помощью так называемых индикаторных переменных, причем среди сопутствующих и индикаторных переменных могут быть как случайные, так и неслучайные (контролируемые в эксперименте).
+
'''Ковариационный анализ''' — совокупность методов математической статистики, относящихся к анализу моделей зависимости среднего значения некоторой случайной величины <tex>Y</tex> одновременно от набора (основных) качественных факторов <tex>F</tex> и (сопутствующих) количественных факторов <tex>X</tex>. Факторы <tex>F</tex> задают сочетания условий, при которых были получены наблюдения <tex>X,Y</tex>, и описываются с помощью ндикаторных переменных, причем среди сопутствующих и индикаторных переменных могут быть как случайные, так и неслучайные (контролируемые в эксперименте).
-
Если случайная величина <tex>Y</tex> является вектором, то говорят о ''многомерном ковариационном анализе''.
+
Если случайная величина <tex>Y</tex> является вектором, то говорят о [[многомерный ковариационный анализ|многомерном ковариационном анализе]].
 +
 
 +
'''Ковариационный анализ''' часто применяют перед [[дисперсионный анализ|дисперсионным анализом]], чтобы проверить гомогенность (однородность, представительность) выборки наблюдений <tex>X,Y</tex> по всем сопутствующим факторам.
== Примеры задач ==
== Примеры задач ==
'''Пример 1''':
'''Пример 1''':
-
Пусть у нас имеется 3 метода обучения арифметики и группа студентов. Студенты бьются случайным образом на 3 группы для обучения одним из методов. В конце курса обучения студенты проходят общий тест по результатам которого выставляются оценки.
+
Пусть у нас имеется 3 метода обучения арифметики и группа студентов. Группа разбивается случайным образом на 3 подгруппы для обучения одним из методов. В конце курса обучения студенты проходят общий тест, по результатам которого выставляются оценки.
Также для каждого студента имеется одна или несколько характеристик (количественных) их общей образованности.
Также для каждого студента имеется одна или несколько характеристик (количественных) их общей образованности.
Строка 11: Строка 13:
'''Пример 2''':
'''Пример 2''':
-
Для сравнения качества нескольких видов крахмала (пшеничного, картофельного ...) был проведён эксперимент, в котором измерялась прочность крахмальных плёнок.
+
Для сравнения качества нескольких видов крахмала (пшеничного, картофельного ) был проведён эксперимент, в котором измерялась прочность крахмальных плёнок.
Также для каждого испытания измерена толщина использовавшейся крахмальной плёнки.
Также для каждого испытания измерена толщина использовавшейся крахмальной плёнки.
Строка 22: Строка 24:
== Постановка задачи ==
== Постановка задачи ==
-
Основные теоретические и прикладные проблемы ковариационного анализа относятся к линейным моделям. В частности, если анализируются <tex>n</tex> наблюдений <tex>Y_1,...,Y_n</tex> с <tex>p</tex> сопутствующими переменными <tex>(X=(x^{(1)},...,x^{(p)}))</tex>, <tex>k</tex> возможными типами условий эксперимента <tex>(F=(f_1,...,f_k))</tex>, то линейная модель соответствующего ковариационного анализа задается уравнением:
+
Основные теоретические и прикладные проблемы ковариационного анализа относятся к линейным моделям. В частности, если анализируются <tex>n</tex> наблюдений <tex>Y_1,\ldots,Y_n</tex> с <tex>p</tex> сопутствующими переменными <tex>(X=(x^{(1)},\ldots,x^{(p)}))</tex>, <tex>k</tex> возможными типами условий эксперимента <tex>(F=(f_1,\ldots,f_k))</tex>, то линейная модель соответствующего ковариационного анализа задается уравнением:
-
::<tex>Y_i=\sum\limits_{j=1}^k{f_{ij}\theta_j} + \sum\limits_{j=1}^p{\beta_jx_i^{(j)} + \eps_{ij}}</tex>
+
 
-
где <tex>i=1,...,n</tex>, индикаторные переменные <tex>f_{ij}</tex> равны 1, если j-е условие эксперимента имело место при наблюдении <tex>Y_i</tex>, и равны 0 в противном случае. Коэффициенты <tex>\theta_j</tex> определяют эффект влияния j-го условия, <tex>x_i^{(j)}</tex> - значение сопутствующей переменной <tex>x^{(j)}</tex>, при котором получено наблюдение <tex>Y_i</tex>. <tex>\beta_j</tex> - значения соответствующих коэффициентов регрессии <tex>Y</tex> по <tex>x^{(j)}</tex>, <tex>\eps_{ij}</tex> - независимые случайные ошибки с нулевым математическим ожиданием.
+
:: <tex>Y_i=\sum\limits_{j=1}^k{f_{ij}\theta_j} + \sum\limits_{j=1}^p{\beta_jx_i^{(j)} + \eps_{ij}}</tex>
 +
 
 +
где <tex>i=1,\ldots,n</tex>, индикаторные переменные <tex>f_{ij}</tex> равны 1, если <tex>j</tex>-е условие эксперимента имело место при наблюдении <tex>Y_i</tex>, и равны 0 в противном случае. Коэффициенты <tex>\theta_j</tex> определяют эффект влияния <tex>j</tex>-го условия, <tex>x_i^{(j)}</tex> — значение сопутствующей переменной <tex>x^{(j)}</tex>, при котором получено наблюдение <tex>Y_i</tex>, <tex>\beta_j</tex> — значения соответствующих коэффициентов регрессии <tex>Y</tex> по <tex>x^{(j)}</tex>, <tex>\eps_{ij}</tex> — независимые случайные ошибки с нулевым математическим ожиданием.
Приведённая формула задаёт линейную модель ''однофакторного'' ковариационного анализа с <tex>p</tex> ''независимыми переменными'' и <tex>k</tex> ''уровнями'' фактора.
Приведённая формула задаёт линейную модель ''однофакторного'' ковариационного анализа с <tex>p</tex> ''независимыми переменными'' и <tex>k</tex> ''уровнями'' фактора.
Строка 31: Строка 35:
'''Замечание:''' коэффициенты регрессии в приведённой формуле не зависят от качественных факторов. Это включает предположение, что линейная зависимость имеет одинаковые коэффициенты для каждого значения качественного фактора.
'''Замечание:''' коэффициенты регрессии в приведённой формуле не зависят от качественных факторов. Это включает предположение, что линейная зависимость имеет одинаковые коэффициенты для каждого значения качественного фактора.
-
Основное назначение ковариационного анализа - использование в построении статистических оценок <tex>\theta_1,...,\theta_k</tex>; <tex>\beta_1,...,\beta_p</tex> и статистических критериев для проверки различных гипотез относительно значений этих параметров. Если в модели постулировать априори <tex>\beta_1=...=\beta_p=0</tex>, то получится модель ''дисперсионного анализа'', если же исключить влияние неколичественных факторов (положить <tex>\theta_1=...=\theta_k=0</tex>), то получится модель ''регрессионного анализа''.
+
Основное назначение ковариационного анализа — использование в построении статистических оценок <tex>\theta_1,\ldots,\theta_k</tex>; <tex>\beta_1,\ldots,\beta_p</tex> и статистических критериев для проверки различных гипотез относительно значений этих параметров. Если в модели постулировать априори <tex>\beta_1=\dots=\beta_p=0</tex>, то получится модель [[дисперсионный анализ|дисперсионного анализа]], если же исключить влияние неколичественных факторов (положить <tex>\theta_1=\dots=\theta_k=0</tex>), то получится модель [[регрессионный анализ|регрессионного анализа]].
 +
 
 +
== Гипотезы и критерии ковариационного анализа ==
 +
 
 +
Основной гипотезой, проверяемой в ковариационном анализе, является
 +
 
 +
:: <tex>H_0:\; \theta_1=\theta_2=\dots=\theta_k.</tex>
 +
 
 +
В случае одной сопутствеющей переменной (<tex>p=1</tex>) эту гипотезу можно интерпретировать следующим образом.
 +
По предположениям линейной модели ковариационного анализа для каждого уровня фактора кривые регрессии зависимой переменной <tex>Y</tex> на сопутствующую переменную <tex>x</tex> параллельны.
 +
Гипотеза <tex>H_0</tex> предполагает, что эти кривые совпадают.
 +
 
 +
''Например, в задаче о сортах крахмала эта гипотеза утверждает, что различие прочности плёнок обусловлено исключительно различными значениями случайной переменной «толщина плёнки».
 +
 
 +
Обычно эта гипотеза проверяется с помощью [[Критерий Фишера|критерия Фишера]] в результате сведения поставленной задачи к задачам [[Дисперсионный анализ|дисперсионного анализа]] (см. [3] параграф 6.2).
== Литература ==
== Литература ==
-
# ''Кендалл М.Дж., Стьюарт А.'' Многомерный статистический анализ и временные ряды. М., 1976.
+
# ''Кендалл М.Дж., Стьюарт А.'' Многомерный статистический анализ и временные ряды. — М., 1976.
-
# ''Шеффе Г.'' Дисперсионный анализ. М., 1980.
+
# ''Шеффе Г.'' Дисперсионный анализ. — М., 1980.
-
# ''Фишер Р. А.'' Статистические методы для исследователей. М. Госстатиздат. 1958.
+
# ''Фишер Р. А.'' Статистические методы для исследователей. — М. Госстатиздат. 1958.
[[Категория:Дисперсионный анализ]]
[[Категория:Дисперсионный анализ]]
-
{{Задание|Tolstikhin|Vokov|31 декабря 2009}}
+
{{ЗаданиеВыполнено|Tolstikhin|Vokov|31 декабря 2009}}

Текущая версия

Ковариационный анализ — совокупность методов математической статистики, относящихся к анализу моделей зависимости среднего значения некоторой случайной величины Y одновременно от набора (основных) качественных факторов F и (сопутствующих) количественных факторов X. Факторы F задают сочетания условий, при которых были получены наблюдения X,Y, и описываются с помощью ндикаторных переменных, причем среди сопутствующих и индикаторных переменных могут быть как случайные, так и неслучайные (контролируемые в эксперименте).

Если случайная величина Y является вектором, то говорят о многомерном ковариационном анализе.

Ковариационный анализ часто применяют перед дисперсионным анализом, чтобы проверить гомогенность (однородность, представительность) выборки наблюдений X,Y по всем сопутствующим факторам.

Содержание

Примеры задач

Пример 1: Пусть у нас имеется 3 метода обучения арифметики и группа студентов. Группа разбивается случайным образом на 3 подгруппы для обучения одним из методов. В конце курса обучения студенты проходят общий тест, по результатам которого выставляются оценки. Также для каждого студента имеется одна или несколько характеристик (количественных) их общей образованности.

Требуется проверить гипотезу об одинаковой эффективности методик обучения.

Пример 2: Для сравнения качества нескольких видов крахмала (пшеничного, картофельного …) был проведён эксперимент, в котором измерялась прочность крахмальных плёнок. Также для каждого испытания измерена толщина использовавшейся крахмальной плёнки.

Требуется проверить гипотезу об одинаковом качестве различного крахмала.

Пример 3: Пусть для нескольких различных школ были собраны отметки их учеников, полученные на общем для всех экзамене. Также для каждого из учеников известны отметки, полученные ими по другим экзаменам (например, вступительным в школу).

Требуется проверить гипотезу об одинаковом качестве образования в школах.

Постановка задачи

Основные теоретические и прикладные проблемы ковариационного анализа относятся к линейным моделям. В частности, если анализируются n наблюдений Y_1,\ldots,Y_n с p сопутствующими переменными (X=(x^{(1)},\ldots,x^{(p)})), k возможными типами условий эксперимента (F=(f_1,\ldots,f_k)), то линейная модель соответствующего ковариационного анализа задается уравнением:

Y_i=\sum\limits_{j=1}^k{f_{ij}\theta_j} + \sum\limits_{j=1}^p{\beta_jx_i^{(j)} + \eps_{ij}}

где i=1,\ldots,n, индикаторные переменные f_{ij} равны 1, если j-е условие эксперимента имело место при наблюдении Y_i, и равны 0 в противном случае. Коэффициенты \theta_j определяют эффект влияния j-го условия, x_i^{(j)} — значение сопутствующей переменной x^{(j)}, при котором получено наблюдение Y_i, \beta_j — значения соответствующих коэффициентов регрессии Y по x^{(j)}, \eps_{ij} — независимые случайные ошибки с нулевым математическим ожиданием.

Приведённая формула задаёт линейную модель однофакторного ковариационного анализа с p независимыми переменными и k уровнями фактора. При включении в модель дополнительных факторов в правой части уравнения появятся слагаемые, отвечающие за эффекты уровней вновь введённых в модель факторов.

Замечание: коэффициенты регрессии в приведённой формуле не зависят от качественных факторов. Это включает предположение, что линейная зависимость имеет одинаковые коэффициенты для каждого значения качественного фактора.

Основное назначение ковариационного анализа — использование в построении статистических оценок \theta_1,\ldots,\theta_k; \beta_1,\ldots,\beta_p и статистических критериев для проверки различных гипотез относительно значений этих параметров. Если в модели постулировать априори \beta_1=\dots=\beta_p=0, то получится модель дисперсионного анализа, если же исключить влияние неколичественных факторов (положить \theta_1=\dots=\theta_k=0), то получится модель регрессионного анализа.

Гипотезы и критерии ковариационного анализа

Основной гипотезой, проверяемой в ковариационном анализе, является

H_0:\; \theta_1=\theta_2=\dots=\theta_k.

В случае одной сопутствеющей переменной (p=1) эту гипотезу можно интерпретировать следующим образом. По предположениям линейной модели ковариационного анализа для каждого уровня фактора кривые регрессии зависимой переменной Y на сопутствующую переменную x параллельны. Гипотеза H_0 предполагает, что эти кривые совпадают.

Например, в задаче о сортах крахмала эта гипотеза утверждает, что различие прочности плёнок обусловлено исключительно различными значениями случайной переменной «толщина плёнки».

Обычно эта гипотеза проверяется с помощью критерия Фишера в результате сведения поставленной задачи к задачам дисперсионного анализа (см. [3] параграф 6.2).

Литература

  1. Кендалл М.Дж., Стьюарт А. Многомерный статистический анализ и временные ряды. — М., 1976.
  2. Шеффе Г. Дисперсионный анализ. — М., 1980.
  3. Фишер Р. А. Статистические методы для исследователей. — М. Госстатиздат. 1958.


Данная статья была создана в рамках учебного задания.
Студент: Участник:Tolstikhin
Преподаватель: Участник:Vokov
Срок: 31 декабря 2009


В настоящее время задание завершено и проверено. Данная страница может свободно правиться другими участниками проекта MachineLearning.ru.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.


Личные инструменты