Дисперсионный анализ
Материал из MachineLearning.
м (Новая: {{Задание|Пасконова Ольга|Vokov|31 декабря 2009}}) |
|||
Строка 1: | Строка 1: | ||
+ | '''Дисперсионный анализ''' (от латинского Dispersio – рассеивание / на английском Analysis Of Variance - ANOVA) применяется для исследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную ([[регрессионный анализ|отклик]]). | ||
+ | |||
+ | В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные): <tex>f_1,...,f_k</tex>, а другие как следствия (зависимые переменные). Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат. | ||
+ | |||
+ | Основной целью '''дисперсионного анализа''' (ANOVA) является исследование значимости различия между средними с помощью сравнения (анализа) дисперсий. Разделение общей дисперсии на несколько источников, позволяет сравнить дисперсию, вызванную различием между группами, с дисперсией, вызванной внутригрупповой изменчивостью. При истинности [[Нулевая гипотеза| нулевой гипотезы]] (о равенстве средних в нескольких группах наблюдений, выбранных из генеральной совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии. Если вы просто сравниваете средние в двух [[выборка]]х, дисперсионный анализ даст тот же результат, что и обычный [[Критерий Стьюдента|t-критерий]] для независимых [[выборка|выборок]] (если сравниваются две независимые группы объектов или наблюдений) или [[Критерий Стьюдента|t-критерий]] для зависимых [[выборка|выборок]] (если сравниваются две переменные на одном и том же множестве объектов или наблюдений). | ||
+ | |||
+ | Сущность дисперсионного анализа заключается в расчленении общей дисперсии изучаемого признака на отдельные компоненты, обусловленные влиянием конкретных факторов, и проверке гипотез о значимости влияния этих факторов на исследуемый признак. Сравнивая компоненты дисперсии друг с другом посредством F — критерия Фишера, можно определить, какая доля общей вариативности результативного признака обусловлена действием регулируемых факторов. | ||
+ | |||
+ | Исходным материалом для дисперсионного анализа служат данные исследования трех и более [[выборка|выборок]]: <tex>x_1,...,x_n</tex>, которые могут быть как равными, так и неравными по численности, как связными, так и несвязными. По количеству выявляемых регулируемых факторов дисперсионный анализ может быть '''однофакторным''' (при этом изучается влияние одного фактора на результаты эксперимента), '''двухфакторным''' (при изучении влияния двух факторов) и '''многофакторным''' (позволяет оценить не только влияние каждого из факторов в отдельности, но и их взаимодействие). | ||
+ | |||
+ | Дисперсионный анализ относится к группе параметрических методов и поэтому его следует применять только тогда, когда доказано, что распределение является [[Нормальное распределение|нормальным]]. | ||
+ | |||
+ | Дисперсионный анализ используют, если | ||
+ | зависимая переменная измеряется в шкале | ||
+ | отношений, интервалов или порядка, а | ||
+ | влияющие переменные имеют нечисловую | ||
+ | природу (шкала наименований). | ||
+ | |||
+ | ==Примеры задач== | ||
+ | В задачах, которые решаются | ||
+ | дисперсионным анализом, присутствует отклик | ||
+ | числовой природы, на который воздействует | ||
+ | несколько переменных, имеющих | ||
+ | номинальную природу. Например, несколько видов | ||
+ | рационов откорма скота или два способа их | ||
+ | содержания и т.п. | ||
+ | |||
+ | '''Пример 1:''' В течение недели в трех разных | ||
+ | местах работало несколько аптечных | ||
+ | киосков. В дальнейшем мы можем оставить | ||
+ | только один. Необходимо определить, | ||
+ | существует ли статистически значимое отличие | ||
+ | между объемами реализации препаратов в | ||
+ | киосках. Если да, мы выберем киоск с | ||
+ | наибольшим среднесуточным объемом | ||
+ | реализации. Если же разница объема реализации | ||
+ | окажется статистически незначимой, то | ||
+ | основанием для выбора киоска должны быть | ||
+ | другие показатели. | ||
+ | |||
+ | '''Пример 2:''' Cравнение контрастов групповых средних. Семь политических пристрастий упорядочены от крайне либеральные до крайне консервативные, и линейный контраст используется для проверки того, есть ли отличная от нуля тенденция к возрастанию средних значений по группам - т. е. есть ли значимое линейное увеличение среднего возраста при рассмотрении групп, упорядоченных в направлении от либеральных до консервативных. | ||
+ | |||
+ | '''Пример 3:''' Двухфакторный дисперсионный анализ. На количество продаж товара, помимо размеров магазина, часто влияет расположение полок с товаром. Данный пример содержит показатели недельных продаж, характеризуемые четырьмя типами расположения полок и тремя размерами магазинов. Результаты анализа показывают, что оба фактора - расположение полок с товаром и размер магазина -влияют на количество продаж, однако их взаимодействие значимым не является. | ||
+ | |||
+ | '''Пример 4:''' Одномерный ANOVA: Рандомизированный полноблочный план с двумя обработками. Исследуется влияние на припек хлеба всех возможных комбинаций трех жиров и трех рыхлителей теста. Четыре образца муки, взятые из четырех разных источников, служили в качестве блоковых факторов.Необходимо выявить значимость взаимодействия жир-рыхлитель. После этого определить различные возможности выбора контрастов, позволяющих выяснить, какие именно комбинации уровней факторов различаются. | ||
+ | |||
+ | '''Пример 5:''' Модель иерархического (гнездового) плана с смешанными эффектами. Изучается влияние четырех случайно выбранных головок, вмонтированных в станок, на деформацию производимых стеклянных держателей катодов. (Головки вмонтированы в станок, так что одна и та же головка не может использоваться на разных станках). Эффект головки обрабатывается как случайный фактор. Статистики ANOVA показывают, что между станками нет значимых различий, но есть признаки того, что головки могут различаться. Различие между всеми станками не значимо, но для двух из них различие между типами головок значимо. | ||
+ | |||
+ | '''Пример 6:''' Одномерный анализ повторных измерений с использованием плана расщепленных делянок. Этот эксперимент проводился для определения влияния индивидуального рейтинга тревожности на сдачу экзамена в четырех последовательных попытках. Данные организованы так, чтобы их можно было рассматривать как группы подмножеств всего множества данных ("всей делянки"). Эффект тревожности оказался незначимым, а эффект попытки - значим. | ||
+ | |||
+ | ==Перечень методов== | ||
+ | |||
+ | * Модели факторного эксперимента. Примеры: [http://re-tech.narod.ru/fizique/analiz/inf_corr.htm факторы, влияющие на успешность решения математических задач]; [http://www.e-xecutive.ru/knowledge/announcement/346503/ факторы, влияющие на объёмы продаж]. | ||
+ | |||
+ | Данные состоят из нескольких рядов наблюдений (обработок), которые рассматриваются как реализации независимых между собой выборок. Исходная гипотеза <tex>H_0</tex> говорит об отсутствии различия в обработках, т.е. предполагается, что все наблюдения можно считать одной выборкой из общей совокупности: | ||
+ | * [[Однофакторная параметрическая модель]]: [[Метод множественных сравнений Шеффе|метод Шеффе]]. | ||
+ | * [[Однофакторная непараметрическая модель]] [Лагутин М.Б., 237]: [[критерий Краскела-Уоллиса]] [Холлендер М., Вульф Д.А., 131], [[критерий Джонкхиера]] [Лагутин М.Б., 245]. | ||
+ | |||
+ | * Общий случай модели с постоянными факторами, теорема Кокрена [Афифи А., Эйзен С., 234]. | ||
+ | |||
+ | Данные представляют собой двухкратные повторные наблюдения: | ||
+ | * [[Двухфакторная непараметрическая модель]]: [[критерий Фридмана]] [Лапач, 203], [[критерий Пейджа]] [Лагутин М.Б., 263]. Примеры: сравнение эффективности методов производства, агротехнических приёмов. | ||
+ | * [[Двухфакторная непараметрическая модель для неполных данных]] | ||
+ | * [[Двухфакторный нормальный анализ]]. | ||
+ | * [[Ковариационный анализ]]. | ||
+ | |||
+ | ==История== | ||
+ | |||
+ | Откуда произошло название '''дисперсионный анализ'''? Может показаться странным, что процедура сравнения средних называется дисперсионным анализом. В действительности, это связано с тем, что при исследовании статистической значимости различия между средними двух (или нескольких) групп, мы на самом деле сравниваем (анализируем) выборочные дисперсии. Фундаментальная концепция дисперсионного анализа предложена ''Фишером'' в 1920 году. Возможно, более естественным был бы термин анализ суммы квадратов или анализ вариации, но в силу традиции употребляется термин дисперсионный анализ. | ||
+ | Первоначально дисперсионный анализ был разработан для обработки данных, полученных в ходе специально поставленных экспериментов, и считался единственным методом, корректно исследующим причинные связи. Метод применялся для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине и др. | ||
+ | |||
+ | ==Литература== | ||
+ | |||
+ | # ''Шеффе Г.'' Дисперсионный анализ. — М., 1980. | ||
+ | # ''Аренс Х.'' ''Лёйтер Ю.'' Многомерный дисперсионный анализ. | ||
+ | # ''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006. | ||
+ | # ''Лапач С. Н. , Чубенко А. В., Бабич П. Н.'' Статистика в науке и бизнесе. — Киев: Морион, 2002. | ||
+ | # ''Лагутин М. Б.'' Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003. | ||
+ | # ''Афифи А., Эйзен С.'' Статистический анализ: Подход с использованием ЭВМ. | ||
+ | # ''Холлендер М., Вульф Д.А.'' Непараметрические методы статистики. | ||
+ | |||
+ | == Ссылки == | ||
+ | * [http://www.statsoft.ru/home/textbook/modules/stanman.html Дисперсионный анализ] — Электронный учебник StatSoft. | ||
+ | * [http://www.tspu.tula.ru/res/math/mop/lections/lection_7.htm#_Toc73845987 Дисперсионный анализ] - Аналитическая статистика. | ||
+ | * [http://lib.socio.msu.ru/l/library?e=d-000-00---001ucheb--00-0-0-0prompt-10---4------0-1l--1-ru-50---20-about---00031-001-1-0windowsZz-1251-00&a=d&cl=CL1&d=HASHe10c3b36c7d751dd18704b.11 Многофакторный дисперсионный анализ] - Электронная библиотека. | ||
+ | |||
+ | ==См. также== | ||
+ | |||
+ | * [[Проверка статистических гипотез]] — о методологии проверки статистических гипотез. | ||
+ | * [[Статистический анализ данных (курс лекций, К.В.Воронцов)]] | ||
+ | * [[Регрессионный анализ]] | ||
+ | * [[Ковариационный анализ]] | ||
+ | |||
+ | [[Категория:Прикладная статистика]] | ||
+ | [[Категория:Дисперсионный анализ]] | ||
+ | |||
{{Задание|Пасконова Ольга|Vokov|31 декабря 2009}} | {{Задание|Пасконова Ольга|Vokov|31 декабря 2009}} |
Версия 22:53, 15 декабря 2009
Дисперсионный анализ (от латинского Dispersio – рассеивание / на английском Analysis Of Variance - ANOVA) применяется для исследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную (отклик).
В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные): , а другие как следствия (зависимые переменные). Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат.
Основной целью дисперсионного анализа (ANOVA) является исследование значимости различия между средними с помощью сравнения (анализа) дисперсий. Разделение общей дисперсии на несколько источников, позволяет сравнить дисперсию, вызванную различием между группами, с дисперсией, вызванной внутригрупповой изменчивостью. При истинности нулевой гипотезы (о равенстве средних в нескольких группах наблюдений, выбранных из генеральной совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии. Если вы просто сравниваете средние в двух выборках, дисперсионный анализ даст тот же результат, что и обычный t-критерий для независимых выборок (если сравниваются две независимые группы объектов или наблюдений) или t-критерий для зависимых выборок (если сравниваются две переменные на одном и том же множестве объектов или наблюдений).
Сущность дисперсионного анализа заключается в расчленении общей дисперсии изучаемого признака на отдельные компоненты, обусловленные влиянием конкретных факторов, и проверке гипотез о значимости влияния этих факторов на исследуемый признак. Сравнивая компоненты дисперсии друг с другом посредством F — критерия Фишера, можно определить, какая доля общей вариативности результативного признака обусловлена действием регулируемых факторов.
Исходным материалом для дисперсионного анализа служат данные исследования трех и более выборок: , которые могут быть как равными, так и неравными по численности, как связными, так и несвязными. По количеству выявляемых регулируемых факторов дисперсионный анализ может быть однофакторным (при этом изучается влияние одного фактора на результаты эксперимента), двухфакторным (при изучении влияния двух факторов) и многофакторным (позволяет оценить не только влияние каждого из факторов в отдельности, но и их взаимодействие).
Дисперсионный анализ относится к группе параметрических методов и поэтому его следует применять только тогда, когда доказано, что распределение является нормальным.
Дисперсионный анализ используют, если зависимая переменная измеряется в шкале отношений, интервалов или порядка, а влияющие переменные имеют нечисловую природу (шкала наименований).
Содержание |
Примеры задач
В задачах, которые решаются дисперсионным анализом, присутствует отклик числовой природы, на который воздействует несколько переменных, имеющих номинальную природу. Например, несколько видов рационов откорма скота или два способа их содержания и т.п.
Пример 1: В течение недели в трех разных местах работало несколько аптечных киосков. В дальнейшем мы можем оставить только один. Необходимо определить, существует ли статистически значимое отличие между объемами реализации препаратов в киосках. Если да, мы выберем киоск с наибольшим среднесуточным объемом реализации. Если же разница объема реализации окажется статистически незначимой, то основанием для выбора киоска должны быть другие показатели.
Пример 2: Cравнение контрастов групповых средних. Семь политических пристрастий упорядочены от крайне либеральные до крайне консервативные, и линейный контраст используется для проверки того, есть ли отличная от нуля тенденция к возрастанию средних значений по группам - т. е. есть ли значимое линейное увеличение среднего возраста при рассмотрении групп, упорядоченных в направлении от либеральных до консервативных.
Пример 3: Двухфакторный дисперсионный анализ. На количество продаж товара, помимо размеров магазина, часто влияет расположение полок с товаром. Данный пример содержит показатели недельных продаж, характеризуемые четырьмя типами расположения полок и тремя размерами магазинов. Результаты анализа показывают, что оба фактора - расположение полок с товаром и размер магазина -влияют на количество продаж, однако их взаимодействие значимым не является.
Пример 4: Одномерный ANOVA: Рандомизированный полноблочный план с двумя обработками. Исследуется влияние на припек хлеба всех возможных комбинаций трех жиров и трех рыхлителей теста. Четыре образца муки, взятые из четырех разных источников, служили в качестве блоковых факторов.Необходимо выявить значимость взаимодействия жир-рыхлитель. После этого определить различные возможности выбора контрастов, позволяющих выяснить, какие именно комбинации уровней факторов различаются.
Пример 5: Модель иерархического (гнездового) плана с смешанными эффектами. Изучается влияние четырех случайно выбранных головок, вмонтированных в станок, на деформацию производимых стеклянных держателей катодов. (Головки вмонтированы в станок, так что одна и та же головка не может использоваться на разных станках). Эффект головки обрабатывается как случайный фактор. Статистики ANOVA показывают, что между станками нет значимых различий, но есть признаки того, что головки могут различаться. Различие между всеми станками не значимо, но для двух из них различие между типами головок значимо.
Пример 6: Одномерный анализ повторных измерений с использованием плана расщепленных делянок. Этот эксперимент проводился для определения влияния индивидуального рейтинга тревожности на сдачу экзамена в четырех последовательных попытках. Данные организованы так, чтобы их можно было рассматривать как группы подмножеств всего множества данных ("всей делянки"). Эффект тревожности оказался незначимым, а эффект попытки - значим.
Перечень методов
- Модели факторного эксперимента. Примеры: факторы, влияющие на успешность решения математических задач; факторы, влияющие на объёмы продаж.
Данные состоят из нескольких рядов наблюдений (обработок), которые рассматриваются как реализации независимых между собой выборок. Исходная гипотеза говорит об отсутствии различия в обработках, т.е. предполагается, что все наблюдения можно считать одной выборкой из общей совокупности:
- Однофакторная параметрическая модель: метод Шеффе.
- Однофакторная непараметрическая модель [Лагутин М.Б., 237]: критерий Краскела-Уоллиса [Холлендер М., Вульф Д.А., 131], критерий Джонкхиера [Лагутин М.Б., 245].
- Общий случай модели с постоянными факторами, теорема Кокрена [Афифи А., Эйзен С., 234].
Данные представляют собой двухкратные повторные наблюдения:
- Двухфакторная непараметрическая модель: критерий Фридмана [Лапач, 203], критерий Пейджа [Лагутин М.Б., 263]. Примеры: сравнение эффективности методов производства, агротехнических приёмов.
- Двухфакторная непараметрическая модель для неполных данных
- Двухфакторный нормальный анализ.
- Ковариационный анализ.
История
Откуда произошло название дисперсионный анализ? Может показаться странным, что процедура сравнения средних называется дисперсионным анализом. В действительности, это связано с тем, что при исследовании статистической значимости различия между средними двух (или нескольких) групп, мы на самом деле сравниваем (анализируем) выборочные дисперсии. Фундаментальная концепция дисперсионного анализа предложена Фишером в 1920 году. Возможно, более естественным был бы термин анализ суммы квадратов или анализ вариации, но в силу традиции употребляется термин дисперсионный анализ. Первоначально дисперсионный анализ был разработан для обработки данных, полученных в ходе специально поставленных экспериментов, и считался единственным методом, корректно исследующим причинные связи. Метод применялся для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине и др.
Литература
- Шеффе Г. Дисперсионный анализ. — М., 1980.
- Аренс Х. Лёйтер Ю. Многомерный дисперсионный анализ.
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
- Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002.
- Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
- Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ.
- Холлендер М., Вульф Д.А. Непараметрические методы статистики.
Ссылки
- Дисперсионный анализ — Электронный учебник StatSoft.
- Дисперсионный анализ - Аналитическая статистика.
- Многофакторный дисперсионный анализ - Электронная библиотека.
См. также
- Проверка статистических гипотез — о методологии проверки статистических гипотез.
- Статистический анализ данных (курс лекций, К.В.Воронцов)
- Регрессионный анализ
- Ковариационный анализ
Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |