Двухфакторная непараметрическая модель для неполных данных
Материал из MachineLearning.
| Содержание | 
Постановка задачи
Пусть имеется таблица дисперсионного анализа с  уровнями фактора 
 и 
 уровнями фактора 
. В каждой ячейке таблицы данные могут как присутствовать, так и отсутствовать. 
Все нижеследующие критерии проверяют достоверность гипотезы о влиянии факторов на поведение результатов эксперимента.
Критерий Принтиса
Предположим, что в каждой ячейке таблицы находится либо одно наблюдение, либо ни одного ( или 
 соответственно). В каждой j-ой строке ранжируем по возрастанию все 
 наблюдений и получаем последовательности рангов 
 для всех 
.
Пусть  - множество строк, в которых есть наблюдение над i-m столбцом. Вычисляем:
Строим матрицу  без v-го столбца и v-ой строки (
) и вектор 
. Вычисляем матрицу 
 и квадратичную форму 
.
При достаточно больших выборках (, 
) имеет место факт, что если 
, то гипотеза об отсутствии влияния исследуемых факторов отклоняется с вероятностью 
 (
 - квантиль распределения хи-квадрат с 
 степенями свободы).
Критерий Мака-Скиллингса
Теперь в каждой ячейке допускается любое число наблюдений . Пусть 
.
Ранжируем все наблюдения j-й строки по возрастанию от 1 до . Обозначив через 
 ранг наблюдения 
 в общей последовательности (
 
 
), вычисляем:
В случае пропорциональных частот () статистика критерия примет вид
где 
При 
 (
) справедлива 
-аппроксимация. Влияние изучаемых факторов на поведение случайной величины с достоверностью 
 признается значимым, если 
.
Критерий Лемана-Мака
Ранжируем все  наблюдений внутри j-й строки и обозначим через 
 ранг наблюдения 
 (
).
Вычисляем сумму и средний ранг наблюдения над j-м столбцом в i-й строке:
Далее, вычисляем значение статистики Краскела-Уоллиса:
Вычисляем статистику критерия (сумму статистик Краскела-Уоллиса):
Примеры задач
Названные критерии широко применяются для решения биометрческих, медицинских других прикладных задач, где сбор данных может быть затруднителен. В частности, критерий Принтиса используется для проверки влияния дорогих сильнодействующих лекарств на определенные группы пацинтов.
Литература
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.
- Berger V. W. Does the Prentice criterion validate surrogate endpoints? // Statistics in Medicine. — 2007, №23/10. — Pp. 1571–1578.

