Робастное оценивание

Материал из MachineLearning.

Содержание

1 Введение
2 Основные типы оценок
3 Вычисление робастных оценок
4 Литература
5 Ссылки
6 См. также

Введение

На протяжении последних десятилетий росло понимание того факта, что некоторые наиболее распространенные статистические процедуры (в том числе те, которые оптимальны в предположении о нормальности распределения) весьма чувствительны к довольно малым отклонениям от предположений. Вот почему теперь появились иные процедуры - "робастные" (от англ. robust - крепкий,здоровый, дюжий).

Мы будем понимать под термином робастность нечувствительность к малым отклонениям от предположений. Процедура робастна, если малые отклонения от предположенной модели должны ухудшать качество процедуры (например, асимптотика дисперсии или уровень значимости и мощность критерия) должны быть близки к номинальным величинам, вычисленным для принятой модели.

Рассмотрим робастность по распределению, т.е. ситуации, в которых истинная функция распределения незначительно отличается от предполагаемой в модели (как правило, гауссовской функции распределения). Это не только наиболее важный случай, но и наиболее полно изученный. Гораздо меньше известно о том, что происходит в тех ситуациях, когда несколько нарушаются прочие стандартные допущения статистики, и том, какие меры защиты должны предусматриваться в подобных случаях.

Основные типы оценок

Введем оценки трех основных типов ( $M,\;\;L,\;\;R$ ),буквы $M,\;\;L,\;\;R$ отвечают соответственно оценкам типа максимального правдоподобия, линейным комбинациям порядковых статистик и оценкам, получаемых в ранговых критериях.

Особое значение имеют $M-$ оценки, это наиболее гибкие оценки - они допускают прямое обобщение на многопараметрический случай.

Оценки типа максимального правдоподобия (M-оценки)

Всякая оценка $T_n$ , определяемая как решение экстремальной задачи на минимум вида

$\sum_{i=1}^n \rho (x_i\,;\,T_n) \rightarrow \min$

или как решение неявного уравнения

$\sum_{i=1}^n \psi (x_i\,;\,T_n) = 0$ ,

где $\rho$ - произвольная функция, $\psi(x\,;\,\theta)= (\frac {\partial}{\partial{\theta}})\rho(x\,;\,\theta)$ , называется $M-$ оценкой (или оценкой типа максимального правдоподобия); заметим, что если выбрать в качестве функции $\rho(x\,;\,\theta)$ $-\log f(x\,;\,\theta)$ , то мы получим обычную оценку максимального правдоподобия.

В частности, нас будут интересовать оценки сдвига

$\sum_{i=1}^n \rho (x_i - T_n) \rightarrow \min$

или

$\sum_{i=1}^n \psi (x_i - T_n) = 0$ .

Последнее уравнение можно записать в эквивалентном виде

$\sum_{i=1}^n \omega_i (x_i - T_n) = 0$ ,

где

$\omega_i=\frac{\psi (x_i -Y_n)}{x_i - T_n}$

Тогда мы можем представить оценку $T_n$ в форме взвешенного среднего

$T_n=\frac{\sum_{i=1}^n\omega_i x_i}{\sum_{i=1}^n w_i}$

с весовыми коэффициентами $\omega_i$ , зависящими от выборки.

Линейные комбинации порядковых статистик (L-оценки)

Рассмотрим статистику, которая представляет собой линейную комбинацию порядковых статистик или, в более общей постановке, значений на некоторой функции $h$ :

$T_n = \sum_{i=1}^n a_{ni}h(x_{(i)})$

Предположим, что весовые коэффициенты порождаются при помощи (знакопеременной) меры $M$ на интервале (0,1):

$a_{ni}=\frac{1}{2} M \left{ \left(\frac{i-n}{n}\,,\,\frac{i}{n}\right)\right} + \frac{1}{2} M \left{ \left[\frac{i-n}{n}\,,\,\frac{i}{n}\right]\right}$

(Такой выбор коэффициентов оставляет общую массу без изменений, т.е. $\sum_{i=1}^n a_{in}=M\{(0,1)\}$ , и обеспечивает симметричность коэффициентов, если мера $M$ симметрична относительно точки $t=1/2$ .)

В рассматриваевом случае оценка $T_n=T(F_n)$ получается при помощи функционала

$T(F)=\int {h(F^{-1}(s))M(ds)}$ .

Здесь под функцией, обратной к ффункции распределения $F$ , понимается функция

$F^{-1}(s)=inf\{x|F(x) \ge s\}\,,\;\; 0<s<1$

Примеры

Самым простым примером служит медиана выборки.
Винзоризованное среднее (Winsorized mean). Для его вычисления значения исходную выборку упорядочивают в определенном порядке (например, возрастания), затем с каждой стороны отсекается какой-то процент данных (обычно, берут по 10% или 25% с каждой стороны одинаково),а убранные специально подобранным образом заменяются на значения из оставшихся чисел, затем выисляется среднее по всей выборке.
Усеченное среднее (Truncated mean). Для его вычисления усредняются данные вариационного ряда выборки после удаления с обеих сторон определенной доли объектов (она находится в пределах от 5 до 25%).
Обрезанное среднее (Trimean). Величина $TM$ вычисляется по следующей формуле $TM=\frac{Q_1+2Q_2+Q_3}{4}$ , где $Q_i$ - квартили i-го порядка.

Замечание

Далеко не все порядковые статистики являются робастными. Максимум, минимум, среднее и полусумма максимума и минимума не являются робастными, их характеристика, показывающая сколько наблюдения можно изменить, чтобы это не повлияло на конечный результат, равна 0. У робастных оценок эта характеристика равна 50% в случае медианы, а в остальных меньше и зависит от процента, используемого для отсечения данных.

Оценки, получаемые в ранговых критериях (R-оценки)

Рассмотрим двухвыборочный ранговый критерий для определения параметра сдвига: пусть $x_1,\;\;\dots, x_m$ и $y_1,\;\;\dots, y_n$ суть две независимые выборки с распределениями $F(x)$ и $G(x)=F(x-\Delta)$ соответственно.Объединим эти выборку в одну выборку объема $m+n$ .Пусть $R_i$ есть ранг наблюдения $x_i$ в объединенной выборке. Зададим веса $a_i=a(i)\,,\;\; 1 \le i \le m+n$ . Критерий для проверки гипотезы $\Delta=0$ при альтернативе $\Delta > 0$ построим на основе статистики

$S_{m,n}=\frac1m\sum_{i=1}^m a(R_i)$

Как правило, мы полагаем, что весовые коэффициенты $a_i$ получаются при помощи некоторой функции $J$ по формуле

$a_i=J\left(\frac{i}{m+n+i}\right)$

В действительности предпочитают работать со следующим вариантов вычисления

$a_i=(m+n)\;\int_{(i-1)/(m+n)}^{i/(m+n)}\; {J(s)ds}$ .

Для упрощения с этого момента полагаем, что $m=n$ . Запишем статистику $S$ в виде функционала

$S(F\,,\,G)=\int J\left[\frac12F(x)+\frac12G(x)\right]F(dx)$ ,

который при подстановке $F(x)=s$ примет вид

$S(F\,,\,G)=\int J\left[\frac12s+\frac12G(F^{-1}(s))\right]ds$ .

На практике работают с последним. Кроме того, работаем с условием того, что

$\int {J(s)ds} = 0$ ,

соответсвующее равенству

$\sum a_i=0$

В этих предположениях математическое ожидание статистики $S$ при нулевой гипотезе равно 0.

Оценки сдвига $\Delta_n$ в двухвыборочной постановке и сдвига $T_n$ в случае одной выборки можно получить при помощи следующих ранговых критериев.

В случае двух выборок получить $\Delta_n$ из приближенного уравнения $S_{n,n} \approx 0$ полученного для выборок $(x_1,\;\;\dots, x_n)$ и $(y_1 - \Delta_n,\;\;\dots, y_n - \Delta_n)$
В случае одной выборки получить $T_n$ из условия $S_{n,n} \approx 0$ ,вычисленного для выборок $(x_1,\;\;\dots, x_n)$ и $(2T_n - x_1 ,\;\;\dots, 2T_n-x_n)$ . В этом случае отсутствующей второй выборкой служит зеркальное отражение исходной выборки.

Иными словами, вторая выборка смещается до тех пор, пока критерий не перстает чувствовать различие в сдвиге. Заметим, что нулевое значение в точности может и не достигаться, поскольку $S_{n,n}$ - разрывная функция.

Таким образом, наша оценка сдвига $T_n$ , полученная при помощи функционала $T(F)$ , определяется неявным уравнением

$\int J\left{\frac12\left[s+1 - F(2T(F) - F^{-1}(s))\right]\right}ds=0$ .

Пример

Критерий Уилкоксона, в котором $J(t)=t - \frac12$ , приводит к оценкам Ходжеса-Лемана, а именно к оценкам $\Delta_n = med \{ y_i -x_i\}$ и $T_n = med \{ \frac12 (x_i + x_j) \}$ . Заметим, что наши указания во втором случае приводят к медиане набора их всех $n^2$ пар; в более традиционных вариантах используются только те пары, у которых $i<j$ или $i \le j$ , но асимптотически все три варианта эквивалентны. Эти оценки являются робастными.

Вычисление робастных оценок

Робастность, связанная с регрессией, носит особый характер, и здесь возникают довольно сложные задачи. В случае линейной регрессии используется метод наименьших квадратов. Здесь мы работаем с М-оценками.

Рассмотрим пример. Для оценки $p$ неизвестных параметров $\theta_1,\; \dots ,\theta_p$ используется $n$ наблюдений $y_1,\; \dots,y_n$ , причем они связаны между собой следующим неравенством $\mathbf{y}=X\mathbf{\theta}+\mathbf{u}$ , где элементы матрицы $X$ суть известные коэффициенты, а $\mathbf{u}$ - вектор независимых случайных величин,имеющих (приблизительное)одинаковые функции распределения.

Тогда решение сводится к следующему: $|\mathbf{y}-X\mathbf{\theta}|^2 \rightarrow \min$

Если матрица $X$ - матрица полного ранга $p$ , то $\hat \theta={(X^{T}X)}^{-1}X^T\mathbf{y}$ , а оценки $\hat y_i$ будут высиляться по следующей формуле $\hat{\mathbf{y}} = H\mathbf{y}$ , где $H=X{(X^{T}X)}^{-1}X^T$ , далее $H$ - матрица подгонки.

Допустим, что мы получили значения $\hat y_i$ и остатки $r_i=y_i-\hat y_i$ .

Пусть $s_i$ - некоторая оценка стандартной ошибки наблюдений $y_i$ (или стандартной ошибки остатков $r_i$ )

Метрически винзоризуем наблюдения $y_i$ , заменяя их псевдонаблюдениями ${y_i}^{\ast}$ :

${y_i}^{\ast}= \left{ y_i\,, \; \;\; |r_i| \le cs_i \\ \hat y_i - cs_i\,, \;\; r_i<-cs_i \\ \hat y_i + cs_i\,, \;\; r_i>cs_i \right.$

Константа $c$ регулирует степень робастности, её значения хорошо выбирать из промежутка от 1 до 2, например, чаще всего $c=1.5$ .

Затем по псевдонаблюдениям $y_i^{\ast}$ вычисляются новые значения $\hat{y_i}$ подгонки (и новые $s_i$ ). Действия повторяются до достижения сходимости.

Если все наблюдения совершенно точны, то классическая оценка дисперсии отдельного наблюдения имеет вид $s^2=\frac{1}{n-p}\sum{r_i^2}$ , и стандартную ошибку остатка $r_i$ можно в этом случае оценивать величиной $s_i=\sqrt{1-h_i}s$ , где $h_i$ есть $i$ -й диагональный элемент матрицы $H$ .

При использовании вместо остатков $r_i$ модифицированных остатков $r_i^{\ast}=y_i^{\ast}- \hat y_i$ , как нетрудно видеть, получается заниженная оценка масштаба. Появившееся смещение можно ликвидировать, полагая (в первом приближении)

$s^2=\frac{1}{n-p}\sum{{r_i}^{\ast2}/(\frac{m}{n})^2}$ ,

где $n-p$ - число наблюдений без числа параметров, $m$ - число неизменных наблюдений ( $y_i^{\ast}=y_i$ ).

Очевидно, что эта процедура сводит на нет влияние выделяющихся наблюдений.

Таким способом можно получить робастный вариант любой процедуры. Сначала данные "редактируются" - выделяющиеся наблюдения замещаются значениями, полученными при подгонке, а затем последовательно проводят переподгонку до тех пор, пока не появится сходимость. После этого к псевдонаблюдениям применяется нужная процедура.

Литература

Хьюбер П. Робастность в статистике. — М.: Мир, 1984.

Ссылки

См. также

Метод наименьших квадратов

Данная статья является непроверенным учебным заданием.

Студент: Участник:Джумабекова Айнагуль

Преподаватель: Участник:Vokov

Срок: 6 января 2010

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%BE%D0%B1%D0%B0%D1%81%D1%82%D0%BD%D0%BE%D0%B5_%D0%BE%D1%86%D0%B5%D0%BD%D0%B8%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5»

Категории: Математическая статистика | Робастная регрессия | Непроверенные учебные задания