Критерий Джонкхиера

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: Скоро здесь будет статья!)
Текущая версия (15:21, 24 февраля 2010) (править) (отменить)
(См. также)
 
(16 промежуточных версий не показаны.)
Строка 1: Строка 1:
-
Скоро здесь будет статья!
+
'''Критерий Джонкхиера''' (также известен как ''критерий Джонкхира-Терпстры'') основан на попарных статистиках [[Критерий Уилкоксона-Манна-Уитни|Уилкоксона-Манна-Уитни]] и используется для проверки [[гипотеза сдвига|гипотезы сдвига]] против альтернатив упорядоченности.
 +
 
 +
== Примеры задач ==
 +
#Имеется гипотеза о том, что по мере перехода на старшие курсы падает посещаемость лекций. Для выяснения, верно ли это предположение, декан организовал выборочный контроль студентов. Случайным образом было отобрано некоторое одинаковое для каждого курса количество человек, а также был организован учет посещенных им лекций, отобранных случайно на каждом курсе. Требуется по данным учета проверить гипотезу.
 +
#Нужно проверить, как лекарство помогает в снятии соответствующего симптома. Взяты несколько групп пациентов, и каждой из них назначается определенная доза препарата. Гипотеза состоит в том, что по мере увеличения уровня дозы больные чувствуют себя лучше.
 +
#Допустим, мы рассматриваем средства масс-медиа, а именно телевидение, газеты и интернет. Каждую из этих групп можно упорядочить, например, по объему информации в каждой среде, они идут в порядке увеличения соответственно. Имеется гипотеза о том, что в зависимости от порядка число пользователей этим средством также увеличивается.
 +
== Описание критерия ==
 +
Пусть имеются <tex>k</tex> выборок случайных величин
 +
::<tex>x_{11},...,x_{1n_1};...;x_{k1},...,x_{kn_k}</tex>
 +
Статистика критерия имеет вид:
 +
::<tex>S = \sum\limits_{i=1}^k{\sum\limits_{j=1}^{n_i}{a_{ij}}}</tex>
 +
где <tex>a_{ij}</tex> - количество наблюдений из первых <tex>i-1</tex> выборок, меньших, чем <tex>x_{ij}</tex> - j-е наблюдение в i-й выборке (здесь <tex>i>1</tex>)
 +
 
 +
Гипотеза отсутствия сдвига отклоняется, если <tex>S>S_\alpha</tex>, где <tex>S_\alpha</tex> - табулированные при небольших объемах выборок значения.
 +
 
 +
При <tex>n_i \geq 10</tex> применима аппроксимация нормальным распределением
 +
::<tex>S_\alpha = M(S) + \Phi_\alpha D(S)</tex>
 +
где
 +
::<tex>M(S) = \frac{1}{4}\left\(\left\(\sum\limits_{i=1}^{k}{n_i}\right\)^2-\sum\limits_{i=1}^{k}{n_i^2}\right\)</tex>
 +
::<tex>D(S) = \frac{1}{72}\{ (\sum\limits_{i=1}^{k}{n_i})^2 (2\sum\limits_{i=1}^{k}{n_i} + 3) - \sum\limits_{i=1}^{k}{n_i^2(2n_i+3)} \}</tex>;
 +
::<tex>\Phi_\alpha</tex> - <tex>\alpha</tex>-квантиль нормального распределения
 +
 
 +
== Свойства критерия ==
 +
Вышеуказанный критерий применяется в случаях априорного предположения об упорядоченности группы результатов по возрастанию влияния фактора. В этих случаях критерий Джонкхиера оказывается более чувствителен в оценке влияния фактора, нежели критерий [[Критерий Краскела-Уоллиса|Краскела-Уоллиса]].
 +
 
 +
== Пример вычисления критерия ==
 +
Роль мотивации
 +
 
 +
П. Хандел (1969 г.) исследовал влияние чистой мотивации (знания цели работы) на выполнение монотонных производственных операций (вытачивание металлических заготовок определенных форм и размеров). 18 мужчин были случайным образом разделены на 3 группы. Рабочие, попавшие в контрольную группу A, не имели информации о требуемой производительности, в группе B они получили лишь общее представление о том, что должны делать, наконец, в группе C рабочие имели точную информацию о задании и могли контролировать себя по графику, лежащему перед ними. В таблице приведены числа заготовок, обработанных каждым из рабочих за время эксперимента
 +
{|class="standard"
 +
|Группа A
 +
|Группа B
 +
|Группа C
 +
|-
 +
|40
 +
|38
 +
|48
 +
|-
 +
|35
 +
|40
 +
|40
 +
|-
 +
|38
 +
|47
 +
|45
 +
|-
 +
|43
 +
|44
 +
|43
 +
|-
 +
|44
 +
|40
 +
|46
 +
|-
 +
|41
 +
|42
 +
|44
 +
|}
 +
 
 +
Проверим гипотезу о том, что производительность растёт с осведомленностью.
 +
 
 +
Для начала нужно упорядочить данные в соответствии с выбранным порядком между группами, что у нас и сделано в таблице, затем для каждого значения в каждой группе нужно подсчитать количество чисел больше его в каждой последующей группе и поместить данные в таблицу, что у нас получилось далее. Затем подвести итог для каждого попарного сравнения. Имеем,
 +
{|class="standard"
 +
!A < B
 +
!A < C
 +
!B < C
 +
|-
 +
|3
 +
|5
 +
|6
 +
|-
 +
|6
 +
|6
 +
|5
 +
|-
 +
|5
 +
|6
 +
|1
 +
|-
 +
|2
 +
|4
 +
|3
 +
|-
 +
|1
 +
|3
 +
|5
 +
|-
 +
|3
 +
|5
 +
|5
 +
|-
 +
!20
 +
!29
 +
!25
 +
|}
 +
 
 +
Теперь можно вычислить статистику критерия по следующей формуле:
 +
 
 +
<tex>S = 2\sum{R} - \frac{C(C-1)}{2}n^2</tex>,
 +
 
 +
где <tex>R</tex> - вектор итогов по каждому сравнению,
 +
 
 +
<tex>C</tex> - количество попарных сравнений,
 +
 
 +
<tex>n</tex> - число объектов в каждой группе.
 +
 
 +
Тогда мы получим, что
 +
 
 +
<tex>S = 2(20+29+25) - \frac{3(3-1)}{2}6^2=148-108=40</tex>.
 +
 
 +
По таблице критических значений для нашего критерия найдем,что для 3х групп по 6 объектов в каждой <tex>S_{critical}=42</tex>,
 +
и следовательно,<tex>S < S_{critical}</tex>, значит, мы можем принять гипотезу упорядоченности.
 +
 
 +
 
 +
==Литература==
 +
#''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006. - 477с.
 +
#''Шитиков В. К., Розенберг Г.С., Зинченко Т.Д.'' Количественная гидроэкология: методы системной идентификации.
 +
 
 +
== Ссылки ==
 +
 
 +
* [http://www.mathworks.com/matlabcentral/fileexchange/22159-jonckheere-terpstra-test-on-trend Реализация в среде МАТЛАБ].
 +
* [http://www.exponenta.ru/educat/systemat/shelomovsky/lab/lab06.asp Изучение статистик Краскела-Уоллиса и Джонкхиера ].
 +
* [http://www.tau.ac.il/cc/pages/docs/sas8/stat/chap28/sect25.htm Jonckheere-Terpstra Test].
 +
* [http://www.intuit.ru/department/database/dataanalysis/1/ Видеолекция по однофакторному дисперсионному анализу].
 +
 
 +
==См. также==
 +
*[[Критерий Уилкоксона-Манна-Уитни]]
 +
*[[Критерий Краскела-Уоллиса]]
 +
*[[Дисперсионный анализ]]
 +
*[[Media:Critical_values_for_Jonckheere_test.jpg|Критические_значения_критерия_Джонкхиера k=3,n<=8]]
 +
 
 +
[[Категория: Прикладная статистика]]
 +
[[Категория: Статистические тесты]]
 +
[[Категория: Дисперсионный анализ]]

Текущая версия

Критерий Джонкхиера (также известен как критерий Джонкхира-Терпстры) основан на попарных статистиках Уилкоксона-Манна-Уитни и используется для проверки гипотезы сдвига против альтернатив упорядоченности.

Содержание

Примеры задач

  1. Имеется гипотеза о том, что по мере перехода на старшие курсы падает посещаемость лекций. Для выяснения, верно ли это предположение, декан организовал выборочный контроль студентов. Случайным образом было отобрано некоторое одинаковое для каждого курса количество человек, а также был организован учет посещенных им лекций, отобранных случайно на каждом курсе. Требуется по данным учета проверить гипотезу.
  2. Нужно проверить, как лекарство помогает в снятии соответствующего симптома. Взяты несколько групп пациентов, и каждой из них назначается определенная доза препарата. Гипотеза состоит в том, что по мере увеличения уровня дозы больные чувствуют себя лучше.
  3. Допустим, мы рассматриваем средства масс-медиа, а именно телевидение, газеты и интернет. Каждую из этих групп можно упорядочить, например, по объему информации в каждой среде, они идут в порядке увеличения соответственно. Имеется гипотеза о том, что в зависимости от порядка число пользователей этим средством также увеличивается.

Описание критерия

Пусть имеются k выборок случайных величин

x_{11},...,x_{1n_1};...;x_{k1},...,x_{kn_k}

Статистика критерия имеет вид:

S = \sum\limits_{i=1}^k{\sum\limits_{j=1}^{n_i}{a_{ij}}}

где a_{ij} - количество наблюдений из первых i-1 выборок, меньших, чем x_{ij} - j-е наблюдение в i-й выборке (здесь i>1)

Гипотеза отсутствия сдвига отклоняется, если S>S_\alpha, где S_\alpha - табулированные при небольших объемах выборок значения.

При n_i \geq 10 применима аппроксимация нормальным распределением

S_\alpha = M(S) + \Phi_\alpha D(S)

где

M(S) = \frac{1}{4}\left\(\left\(\sum\limits_{i=1}^{k}{n_i}\right\)^2-\sum\limits_{i=1}^{k}{n_i^2}\right\)
D(S) = \frac{1}{72}\{ (\sum\limits_{i=1}^{k}{n_i})^2 (2\sum\limits_{i=1}^{k}{n_i} + 3) - \sum\limits_{i=1}^{k}{n_i^2(2n_i+3)} \};
\Phi_\alpha - \alpha-квантиль нормального распределения

Свойства критерия

Вышеуказанный критерий применяется в случаях априорного предположения об упорядоченности группы результатов по возрастанию влияния фактора. В этих случаях критерий Джонкхиера оказывается более чувствителен в оценке влияния фактора, нежели критерий Краскела-Уоллиса.

Пример вычисления критерия

Роль мотивации

П. Хандел (1969 г.) исследовал влияние чистой мотивации (знания цели работы) на выполнение монотонных производственных операций (вытачивание металлических заготовок определенных форм и размеров). 18 мужчин были случайным образом разделены на 3 группы. Рабочие, попавшие в контрольную группу A, не имели информации о требуемой производительности, в группе B они получили лишь общее представление о том, что должны делать, наконец, в группе C рабочие имели точную информацию о задании и могли контролировать себя по графику, лежащему перед ними. В таблице приведены числа заготовок, обработанных каждым из рабочих за время эксперимента

Группа A Группа B Группа C
40 38 48
35 40 40
38 47 45
43 44 43
44 40 46
41 42 44

Проверим гипотезу о том, что производительность растёт с осведомленностью.

Для начала нужно упорядочить данные в соответствии с выбранным порядком между группами, что у нас и сделано в таблице, затем для каждого значения в каждой группе нужно подсчитать количество чисел больше его в каждой последующей группе и поместить данные в таблицу, что у нас получилось далее. Затем подвести итог для каждого попарного сравнения. Имеем,

A < B A < C B < C
3 5 6
6 6 5
5 6 1
2 4 3
1 3 5
3 5 5
20 29 25

Теперь можно вычислить статистику критерия по следующей формуле:

S = 2\sum{R} - \frac{C(C-1)}{2}n^2,

где R - вектор итогов по каждому сравнению,

C - количество попарных сравнений,

n - число объектов в каждой группе.

Тогда мы получим, что

S = 2(20+29+25) - \frac{3(3-1)}{2}6^2=148-108=40.

По таблице критических значений для нашего критерия найдем,что для 3х групп по 6 объектов в каждой S_{critical}=42, и следовательно,S < S_{critical}, значит, мы можем принять гипотезу упорядоченности.


Литература

  1. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. - 477с.
  2. Шитиков В. К., Розенберг Г.С., Зинченко Т.Д. Количественная гидроэкология: методы системной идентификации.

Ссылки

См. также

Личные инструменты