Достаточная статистика

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Новая: Статистика <tex>T_n=T_n(X_1,\ldots,X_n)</tex> назвается '''достаточной''' для параметра <tex>\theta</tex>, если условное распр...)
м (Вероятность успеха в последовательности испытаний Бернулли)
 
(19 промежуточных версий не показаны.)
Строка 1: Строка 1:
Статистика <tex>T_n=T_n(X_1,\ldots,X_n)</tex> назвается '''достаточной''' для параметра <tex>\theta</tex>, если условное распределение выборки <tex>X^n=(X_1,\ldots,X_n)</tex> при условии того, что <tex>T_n=a</tex>, не зависит от параметра <tex>\theta</tex> для всех <tex>a\in\mathbb{R}</tex>.
Статистика <tex>T_n=T_n(X_1,\ldots,X_n)</tex> назвается '''достаточной''' для параметра <tex>\theta</tex>, если условное распределение выборки <tex>X^n=(X_1,\ldots,X_n)</tex> при условии того, что <tex>T_n=a</tex>, не зависит от параметра <tex>\theta</tex> для всех <tex>a\in\mathbb{R}</tex>.
-
Важность понятия достаточной статистики обуславливается следующим '''утверждением'''. Если <tex>T_n</tex> - достаточная статистика, а <tex>\widehat\theta_n</tex> - несмещенная оценка параметра <tex>\theta</tex>, тогда [[условное математическое ожидание]] <tex>\mathbb{E}(\widehat\theta_n|T_n)</tex> является также несмещенной оценкой параметра <tex>\theta</tex>, причем ее дисперсия меньше или равна дисперсии исходной оценки <tex>\widehat\theta_n</tex>.
+
Важность понятия достаточной статистики обуславливается следующим '''утверждением'''. Если <tex>T_n</tex> &mdash; достаточная статистика, а <tex>\widehat\theta_n</tex> &mdash; несмещенная оценка параметра <tex>\theta</tex>, тогда [[условное математическое ожидание]] <tex>\mathbb{E}(\widehat\theta_n|T_n)</tex> является также несмещенной оценкой параметра <tex>\theta</tex>, причем ее дисперсия меньше или равна дисперсии исходной оценки <tex>\widehat\theta_n</tex>.
Напомним, что [[условное математическое ожидание]] <tex>\mathbb{E}(\widehat\theta_n|T_n)</tex> есть случайная величина, являющаяся функцией от <tex>T_n</tex>. Таким образом, в классе несмещенных оценок достаточно рассматривать только такие, которые являются функциями от достаточной статистики (при условии, что такая существует для данной задачи).
Напомним, что [[условное математическое ожидание]] <tex>\mathbb{E}(\widehat\theta_n|T_n)</tex> есть случайная величина, являющаяся функцией от <tex>T_n</tex>. Таким образом, в классе несмещенных оценок достаточно рассматривать только такие, которые являются функциями от достаточной статистики (при условии, что такая существует для данной задачи).
Строка 9: Строка 9:
Можно сказать, что достаточная статистика содержит в себе всю информацию об оцениваемом параметре, которая содержится в выборке <tex>X^n</tex>.
Можно сказать, что достаточная статистика содержит в себе всю информацию об оцениваемом параметре, которая содержится в выборке <tex>X^n</tex>.
-
====Критерий факторизации====
+
=Критерий факторизации=
-
Пусть <tex>p(X^n,\theta)</tex> - плотность распределения выборки в абсолютно непрерывном случае или вероятность в дискретном случае. Тогда статистика <tex>T_n(X^n)</tex> является достаточной для параметра <tex>\theta</tex> тогда и только тогда, когда <tex>p</tex> может быть представлена в виде произведения двух сомножителей:
+
Пусть <tex>p_{\theta}(x)</tex> &mdash; плотность распределения выборки в абсолютно непрерывном случае. Тогда статистика <tex>T_n(x)</tex> является достаточной для параметра <tex>\theta</tex> тогда и только тогда, когда <tex>p</tex> может быть представлена в виде произведения двух сомножителей:
-
<center><tex>p(X^n,\theta)=g(T_n(X^n),\theta)\cdot h(X^n)</tex>,</center>
+
::<tex>p_{\theta}(x)=g_{\theta}\left(T_n\left(x\right)\right)\cdot h\left(x\right),</tex>
-
первый из которых зависит от выборки только через значение статистики <tex>T_n</tex>, а второй не зависит от параметра <tex>\theta</tex>.
+
первый из которых зависит от выборки только через значение статистики <tex>T_n,</tex> а второй не зависит от параметра <tex>\theta.</tex>
 +
В случае дискретного распределения случайной величины <tex>X</tex> верно аналогичное утверждение для вероятности <tex>P_{\theta}(x)=P\left\{X_n=x\right\}</tex> и равенства
-
====Пример====
+
::<tex>P_{\theta}(x)=g_{\theta}\left(T_n\left(x\right)\right)\cdot h\left(x\right).</tex>
-
Рассмотрим задачу оценивания неизвестной вероятности некоторого события <tex>p</tex> по результатам серии из <tex>n</tex> испытаний Бернулли.
+
=Примеры=
 +
==Вероятность успеха в последовательности испытаний Бернулли==
 +
Пусть мы имеем дело с последовательностью испытаний Бернулли: испытания проводятся с неизвестной постоянной вероятностью успеха <tex>p,</tex> <tex>X_i=1</tex> означает успех, <tex>X_i=1</tex> &mdash; неудачу.
-
Выборка <tex>X^n=(X_1,\ldots,X_n)</tex> состоит из независимых бернуллиевских случайных величин, каждая из которых равна 1 с вероятностью <tex>p</tex> и 0 с вероятностью <tex>1-p</tex>. Эти величины являются индикаторами того, произошло или нет в соответствующем испытании заданное событие.
+
Выборка <tex>\left(X_1,X_2,\ldots,X_n\right)</tex> содержит информацию о количестве успехов в серии испытаний и порядке их появления. С точки зрения задачи оценивания параметра <tex>p,</tex> порядок появления не даёт нам никакой информации. Если известно, что число успехов в последовательности испытаний <tex>\sum X_i</tex> равно <tex>t</tex>, то все <tex> {n} \choose {t} </tex> перестановок успехов равновероятны вне зависимости от <tex>p.</tex>
-
Вероятность того, что в результате серии получится заданная двоичная последовательность <tex>(x_1,\ldots,x_n)</tex>, <tex>x_i\in\{0,1\}</tex>, равна
+
Зная только лишь <tex>\sum X_i</tex> и не имея никакой другой информации о <tex>X_i</tex> и <tex>p,</tex> можно, используя таблицу случайных чисел, сконструировать множество случайных величин <tex>X'_1,X'_2,\ldots,X'_n,</tex> совместное распределение которых будет таким же, как совместное распределение <tex>X_1,X_2,\ldots,X_n.</tex> Таким образом, с точки зрения задачи оценивания параметра <tex>p,</tex> информация, содержащаяся в <tex>X_i</tex>, эквивалентна совокупности информации, имеющейся в <tex>\sum X_i</tex> и в таблице случайных чисел.
-
<center><tex>p(x_1,\ldots,x_n)=p^S(1-p)^{n-S}</tex>, где <tex>S=\sum_{i=1}^nx_i</tex>.</center>
+
==Распределение Пуассона==
-
 
+
Пусть <tex>X_1,X_2,\ldots,X_n</tex> &mdash; совокупность независимых одинаково распределённых величин, имеющих [[распределение Пуассона]] с параметром <tex>\lambda.</tex> Тогда
-
Таким образом, вероятность зависит от выборки только через сумму элементов выборки <tex>S</tex>, которая, согласно критерию факторизации, является достаточной статистикой для параметра <tex>p</tex> (сомножитель <tex>h</tex> в данном случае равен 1).
+
::<tex>P_{\lambda}\left(x_1,x_2,\ldots,x_n\right) = \frac{\lambda^{\sum x_i} e^{-n\lambda}}{\prod_{j=1}^n x_j!}.</tex>
-
 
+
Из вида данного распределения по критерию факторизации можно заключить, что <tex>T_n\left(x\right)=\sum X_i</tex> является достаточной статистикой для оценивания <tex>\lambda:</tex>
-
Действительно, если зафиксировать некоторое значение <tex>S</tex>, то мы знаем, сколько в проведенной серии должно быть единиц и нулей. Для того, чтобы полностью описать результаты наблюдений, остается указать порядок, в котором эти элементы должны следовать. Поскольку наблюдения независимы, то легко показать, что все возможные перестановки будут равновероятны, т.е. от значения <tex>p</tex> распределение уже зависеть не будет.
+
:: <tex>h(x) = \frac{1}{\prod_{j=1}^n x_j!}</tex> &mdash; не зависит от <tex>\lambda,</tex>
-
 
+
:: <tex>g_{\lambda}\left(T_n\left(x\right) \right) = \lambda^{T_n\left(x\right)} e^{-n\lambda}</tex> &mdash; зависит от выборки только через значение статистики <tex>T_n\left(x\right).</tex>
-
Таким образом, статистика <tex>S</tex>, равная количеству экспериментов, в которых данное событие произошло, содержит в себе всю информацию о неизвестной вероятности <tex>p</tex>. Эффективную оценку этой вероятности следует искать в виде функции от этой статистики. В данной задаче такой оценкой будет <tex>\widehat p=S/n</tex>, т.е. частота, с которой искомое событие происходило в наблюденной серии. А порядок, в котором происходили эти события, для оценки учитывать не нужно, он о данном параметре информацию не несет.
+
[[Категория:Прикладная статистика]]
 +
[[Категория:Математическая статистика]]

Текущая версия

Статистика T_n=T_n(X_1,\ldots,X_n) назвается достаточной для параметра \theta, если условное распределение выборки X^n=(X_1,\ldots,X_n) при условии того, что T_n=a, не зависит от параметра \theta для всех a\in\mathbb{R}.

Важность понятия достаточной статистики обуславливается следующим утверждением. Если T_n — достаточная статистика, а \widehat\theta_n — несмещенная оценка параметра \theta, тогда условное математическое ожидание \mathbb{E}(\widehat\theta_n|T_n) является также несмещенной оценкой параметра \theta, причем ее дисперсия меньше или равна дисперсии исходной оценки \widehat\theta_n.

Напомним, что условное математическое ожидание \mathbb{E}(\widehat\theta_n|T_n) есть случайная величина, являющаяся функцией от T_n. Таким образом, в классе несмещенных оценок достаточно рассматривать только такие, которые являются функциями от достаточной статистики (при условии, что такая существует для данной задачи).

(Несмещенная) эффективная оценка параметра всегда является достаточной статистикой.

Можно сказать, что достаточная статистика содержит в себе всю информацию об оцениваемом параметре, которая содержится в выборке X^n.

Содержание

Критерий факторизации

Пусть p_{\theta}(x) — плотность распределения выборки в абсолютно непрерывном случае. Тогда статистика T_n(x) является достаточной для параметра \theta тогда и только тогда, когда p может быть представлена в виде произведения двух сомножителей:

p_{\theta}(x)=g_{\theta}\left(T_n\left(x\right)\right)\cdot h\left(x\right),

первый из которых зависит от выборки только через значение статистики T_n, а второй не зависит от параметра \theta.

В случае дискретного распределения случайной величины X верно аналогичное утверждение для вероятности P_{\theta}(x)=P\left\{X_n=x\right\} и равенства

P_{\theta}(x)=g_{\theta}\left(T_n\left(x\right)\right)\cdot h\left(x\right).

Примеры

Вероятность успеха в последовательности испытаний Бернулли

Пусть мы имеем дело с последовательностью испытаний Бернулли: испытания проводятся с неизвестной постоянной вероятностью успеха p, X_i=1 означает успех, X_i=1 — неудачу.

Выборка \left(X_1,X_2,\ldots,X_n\right) содержит информацию о количестве успехов в серии испытаний и порядке их появления. С точки зрения задачи оценивания параметра p, порядок появления не даёт нам никакой информации. Если известно, что число успехов в последовательности испытаний \sum X_i равно t, то все  {n} \choose {t} перестановок успехов равновероятны вне зависимости от p.

Зная только лишь \sum X_i и не имея никакой другой информации о X_i и p, можно, используя таблицу случайных чисел, сконструировать множество случайных величин X'_1,X'_2,\ldots,X'_n, совместное распределение которых будет таким же, как совместное распределение X_1,X_2,\ldots,X_n. Таким образом, с точки зрения задачи оценивания параметра p, информация, содержащаяся в X_i, эквивалентна совокупности информации, имеющейся в \sum X_i и в таблице случайных чисел.

Распределение Пуассона

Пусть X_1,X_2,\ldots,X_n — совокупность независимых одинаково распределённых величин, имеющих распределение Пуассона с параметром \lambda. Тогда

P_{\lambda}\left(x_1,x_2,\ldots,x_n\right) = \frac{\lambda^{\sum x_i} e^{-n\lambda}}{\prod_{j=1}^n x_j!}.

Из вида данного распределения по критерию факторизации можно заключить, что T_n\left(x\right)=\sum X_i является достаточной статистикой для оценивания \lambda:

h(x) = \frac{1}{\prod_{j=1}^n x_j!} — не зависит от \lambda,
g_{\lambda}\left(T_n\left(x\right) \right) = \lambda^{T_n\left(x\right)} e^{-n\lambda} — зависит от выборки только через значение статистики T_n\left(x\right).
Личные инструменты