Двухфакторная непараметрическая модель для неполных данных
Материал из MachineLearning.
Содержание |
Постановка задачи
Пусть имеется таблица дисперсионного анализа с уровнями фактора и уровнями фактора . В каждой ячейке таблицы данные могут как присутствовать, так и отсутствовать.
Все нижеследующие критерии проверяют достоверность гипотезы о влиянии факторов на поведение результатов эксперимента.
Критерий Принтиса
Предположим, что в каждой ячейке таблицы находится либо одно наблюдение, либо ни одного ( или соответственно). В каждой j-ой строке ранжируем по возрастанию все наблюдений и получаем последовательности рангов для всех .
Пусть - множество строк, в которых есть наблюдение над i-m столбцом. Вычисляем:
Строим матрицу без v-го столбца и v-ой строки () и вектор . Вычисляем матрицу и квадратичную форму .
При достаточно больших выборках (, ) имеет место факт, что если , то гипотеза об отсутствии влияния исследуемых факторов отклоняется с вероятностью ( - квантиль распределения хи-квадрат с степенями свободы).
Критерий Мака-Скиллингса
Теперь в каждой ячейке допускается любое число наблюдений . Пусть .
Ранжируем все наблюдения j-й строки по возрастанию от 1 до . Обозначив через ранг наблюдения в общей последовательности ( ), вычисляем:
В случае пропорциональных частот () статистика критерия примет вид
где При () справедлива -аппроксимация. Влияние изучаемых факторов на поведение случайной величины с достоверностью признается значимым, если .
Критерий Лемана-Мака
Ранжируем все наблюдений внутри j-й строки и обозначим через ранг наблюдения ().
Вычисляем сумму и средний ранг наблюдения над j-м столбцом в i-й строке:
Далее, вычисляем значение статистики Краскела-Уоллиса:
Вычисляем статистику критерия (сумму статистик Краскела-Уоллиса):
Примеры задач
Названные критерии широко применяются для решения биометрческих, медицинских других прикладных задач, где сбор данных может быть затруднителен. В частности, критерий Принтиса используется для проверки влияния дорогих сильнодействующих лекарств на определенные группы пацинтов.
Литература
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.
- Berger V. W. Does the Prentice criterion validate surrogate endpoints? // Statistics in Medicine. — 2007, №23/10. — Pp. 1571–1578.