Модель панельных данных с фиксированными эффектами

Материал из MachineLearning.

(Различия между версиями)

Версия 18:09, 8 января 2009

Модель панельных данных с фиксированными эффектами ( fixed effect model) опирается на структуру панельных данных, что позволяет учитывать неизмеримые индивидуальные различия объектов. Эти отличия называются эффектами. В данной модели эффекты интерпретируются как мешающий параметр, и оценивание направлено на то, чтобы их исключить.

Содержание

1 Обозначения
2 Описание модели панельных данных с фиксированными эффектами
3 Недостатки модели панельных данных с фиксированными эффектами
4 Литература
5 См. также
6 Ссылки

Обозначения

Введем обозначения:

$i = 1,...,n$ – номера объектов, $t = 1,...,T$ – моменты времени, $k$ – число признаков.
$x_{it}$ – набор независимых переменных (вектор размерности $k$ )
$y_{it}$ – зависимая переменная для экономической единицы $i$ в момент времени $t$
$\varepsilon_{it}$ – соответствующая ошибка.
Обозначим также:

$\begin{equation*} y_i= \left[y_{i1} \\ ...\\ y_{iT} \right] \text{,} \quad X_i= \left[ x'_{i1} \\ ...\\ x'_{iT} \right] \text{,} \quad \varepsilon_i= \left[ \varepsilon_{i1} \\ ...\\ \varepsilon_{iT} \right]. \end{equation*}$

Введем также «объединенные» наблюдения и ошибки:

$\begin{equation*} y= \left[ y_1 \\ ...\\ y_n \right] \text{,} \quad X= \left[ X_1 \\ ...\\ X_n \right] \text{,} \quad \varepsilon= \left[ \varepsilon_1 \\ ...\\ \varepsilon_n \right]. \end{equation*}$

Здесь $y, \varepsilon$ – $nT \times 1$ векторы, $X$ – $nT \times k$ матрица.

Описание модели панельных данных с фиксированными эффектами

В введенных обозначениях (см. также Объединённая модель панельных данных) модель панельных данных с фиксированными эффектами описывается уравнением

(1)

$y_{it} = \alpha_i + x'_{it} \cdot \beta + \varepsilon_{it}$ .

Величина $\alpha_i$ выражает индивидуальный эффект объекта $i$ , не зависящий от времени $t$ , при этом регрессоры $x_{it}$ не содержат константу .

Параметры модели: $\beta \in \mathbb{R}^k, \alpha_i \in \mathbb{R} (i=1,...,n)$ .

Основные предположения

Предположим, что выполнены следующие условия:

ошибки $\varepsilon_{it}$ некоррелированы между собой по $i$ и $t$ , $\mathbb{E}(\varepsilon_{it}) = 0$ , $\mathbb{V}(\varepsilon_{it}) = \sigma_{\varepsilon }^2$ ;
ошибки $\varepsilon_{it}$ некоррелированы с регрессорами $x_{js}$ при всех $i, j, t, s$ .

Понижение размерности. Исключение эффектов.

Для панельных данных типична ситуация, когда число объектов $n$ достаточно велико. Поэтому, применяя непосредственно метод наименьших квадратов к уравнению (1), при оценивании параметров можно столкнуться с вычислительными проблемами. Их можно преодолеть, исключая из рассмотрения индивидуальные эффекты $\alpha_i$ . При этом мы понижаем размерность задачи с $(n+k)$ до $k$ .

Наиболее простой способ – переход в уравнении (1) к средним по времени величинам:

(2)

$\overline{y_i}= \alpha_i + \overline{x'_i} \cdot \beta + \overline{\varepsilon_i}$ ,

где $\overline{y_i} = \frac{1}{T} \sum_{t=1}^T y_{it},\; \overline{x_i} = \frac{1}{T} \sum_{t=1}^T x_{it},\; \overline{\varepsilon _i} = \frac{1}{T} \sum_{t=1}^T \varepsilon _{it}$ .

Вычитая почленно (2) из (1), получаем:

(3)

$y_{it} - \overline{y_i}= (x_{it} - \overline{x_i})' \cdot \beta + \varepsilon_{it} - \overline{\varepsilon_i}$ .

Данная модель уже не зависит от эффектов $\alpha_i$ . По существу, это уравнение (1), записанное в отклонениях от индивидуальных средних по времени.

Оценка параметров модели

Применяя обычный метод наименьших квадратов к уравнению (3), мы получим оценки

(4)

$\widehat{\beta} = \left(\sum_{i=1}^n \sum_{t=1}^T (x_{it} - \overline{x_i}) \cdot (x_{it} - \overline{x_i})'\right)^{-1} \cdot \sum_{i=1}^n \sum_{t=1}^T (x_{it} - \overline{x_i}) \cdot (y_{it} - \overline{y_i})$ .

Эти оценки называются внутригрупповыми оценками ( within estimator) или оценками с фиксированным эффектом ( fixed effect estimator).

Условия 1)-2), наложенные на модель, гарантируют несмещённость и состоятельность оценок с фиксированным эффектом.

В качестве оценок индивидуальных эффектов можно взять

$\widehat{\alpha_i} = \overline{y_i} - \overline{x'_i} \cdot \widehat{\beta},\; i = 1,...,n$ .

Эти оценки являются несмещёнными и состоятельными для фиксированного $n$ при $t \rightarrow \infty$ .

Из формулы (4) вытекает выражение для матрицы ковариации оценки $\widehat{\beta}$ :

$V(\widehat{\beta}) = \sigma_{\varepsilon }^2 \left(\sum_{i=1}^n \sum_{t=1}^T (x_{it} - \overline{x_i}) \cdot (x_{it} - \overline{x_i})'\right)^{-1}$ .

Как и в обычной линейной модели, в качестве оценки дисперсии $\sigma_{\varepsilon }^2$ можно взять сумму квадратов остатков регрессии, деленную на число степеней свободы:

$\widehat{\sigma_{\varepsilon }}^2 = \frac {\sum_{i=1}^n \sum_{t=1}^T (y_{it} - \overline{y_i} - (x_{it} - \overline{x_i})' \widehat{\beta})^2}{nT-n-k}$ .

При достаточно слабых условиях регулярности оценки с фиксированным эффектом являются асимптотически нормальными (при $n \rightarrow \infty$ или при $T \rightarrow \infty$ ), поэтому можно пользоваться стандартными процедурами ( $t$ -тесты, $F$ -тесты) для проверки гипотез относительно параметров $\beta$ .

Недостатки модели панельных данных с фиксированными эффектами

В панельных данных среди независимых переменных $x_{it}$ могут быть такие, которые не меняются во времени для каждого объекта. Например, при анализе зарабатной платы в число факторов часто включают пол или расовую принадлежность. Модель с фиксированным эффектом не позволяет идентифицировать соответствующие таким переменным коэффициенты. Формально это объясняется тем, что в уравнении (3) один или несколько регрессоров равны нулю, и, следовательно, метод наименьших квадратов применять нельзя.

Литература

Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс. — М.: Дело, 2004. — 576 с.

Коленков С.О. Прикладной эконометрический анализ в статистическом пакете Stata. — 2003.

См. также

Ссылки

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C_%D0%BF%D0%B0%D0%BD%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%D1%81_%D1%84%D0%B8%D0%BA%D1%81%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D0%BC%D0%B8_%D1%8D%D1%84%D1%84%D0%B5%D0%BA%D1%82%D0%B0%D0%BC%D0%B8»

Категория: Прикладная статистика

@@ Строка 1: / Строка 1: @@
+'''Модель панельных данных с фиксированными эффектами ''' (''''' fixed effect model''''') опирается на структуру панельных данных, что позволяет учитывать неизмеримые индивидуальные различия объектов. Эти отличия называются '''эффектами'''. В данной модели эффекты интерпретируются как мешающий параметр, и оценивание направлено на то, чтобы их исключить.
+== Обозначения ==
+Введем обозначения:
+* <tex> i = 1,...,n</tex> – номера объектов, <tex>t = 1,...,T</tex>  – моменты времени, <tex>k </tex> – число признаков.
+* <tex> x_{it}</tex>  – набор независимых переменных (вектор размерности <tex>k </tex>)
+* <tex> y_{it}</tex>  – зависимая переменная для экономической единицы <tex>i</tex> в момент времени <tex>t</tex>
+* <tex> \varepsilon_{it}</tex>  – соответствующая ошибка.
+* Обозначим также:
+::<tex> \begin{equation*} y_i= \left[y_{i1} \\ ...\\  y_{iT} \right] \text{,} \quad X_i= \left[ x'_{i1} \\ ...\\ x'_{iT}  \right] \text{,} \quad \varepsilon_i= \left[ \varepsilon_{i1} \\ ...\\ \varepsilon_{iT} \right]. \end{equation*} </tex>
+*Введем также «объединенные» наблюдения и ошибки:
+::<tex> \begin{equation*} y= \left[ y_1 \\ ...\\ y_n \right] \text{,} \quad X= \left[  X_1 \\ ...\\ X_n \right] \text{,} \quad \varepsilon= \left[  \varepsilon_1 \\ ...\\ \varepsilon_n  \right]. \end{equation*}</tex>
+Здесь <tex>y, \varepsilon</tex>  – <tex>nT \times 1</tex> векторы, <tex>X</tex>  – <tex>nT \times k</tex> матрица.
+== Описание модели панельных данных с фиксированными эффектами ==
+В введенных обозначениях  (см. также [[Объединённая модель панельных данных]]) '''модель панельных данных с фиксированными эффектами ''' описывается уравнением
+{{eqno|1}}
+::<tex>y_{it} = \alpha_i + x'_{it} \cdot \beta + \varepsilon_{it}</tex>.
+Величина <tex>\alpha_i</tex> выражает индивидуальный эффект объекта <tex> i</tex>, не зависящий от времени <tex>t </tex>, ''при этом регрессоры <tex> x_{it}  </tex> не содержат константу ''.
+'''Параметры модели''': <tex>\beta \in \mathbb{R}^k, \alpha_i \in \mathbb{R} (i=1,...,n) </tex>.
+=== Основные предположения ===
+Предположим, что выполнены следующие условия:
+# ошибки <tex>\varepsilon_{it}</tex> некоррелированы между собой по <tex> i</tex> и <tex>t </tex>, <tex>\mathbb{E}(\varepsilon_{it}) = 0</tex>, <tex>\mathbb{V}(\varepsilon_{it}) = \sigma_{\varepsilon }^2</tex>;
+# ошибки <tex>\varepsilon_{it}</tex> некоррелированы с регрессорами <tex> x_{js}</tex> при всех <tex>i, j, t, s</tex>.
+=== Понижение размерности. Исключение эффектов. ===
+Для панельных данных типична ситуация, когда число объектов <tex> n</tex> достаточно велико. Поэтому, применяя непосредственно [[метод наименьших квадратов]] к уравнению {{eqref|1}}, при оценивании параметров можно столкнуться с вычислительными проблемами. Их можно преодолеть, исключая из рассмотрения индивидуальные эффекты <tex>\alpha_i</tex>. При этом мы ''понижаем размерность задачи с <tex>(n+k)</tex>  до <tex> k</tex> ''.
+Наиболее простой способ – переход в уравнении {{eqref|1}} к средним по времени величинам:
+{{eqno|2}}
+::<tex>\overline{y_i}= \alpha_i + \overline{x'_i} \cdot \beta + \overline{\varepsilon_i}</tex>,
+где <tex>\overline{y_i} = \frac{1}{T} \sum_{t=1}^T y_{it},\;  \overline{x_i} = \frac{1}{T} \sum_{t=1}^T x_{it},\;  \overline{\varepsilon _i} = \frac{1}{T} \sum_{t=1}^T \varepsilon _{it}</tex>.
+Вычитая почленно {{eqref|2}} из {{eqref|1}}, получаем:
+{{eqno|3}}
+::<tex> y_{it} - \overline{y_i}= (x_{it} - \overline{x_i})' \cdot \beta + \varepsilon_{it} - \overline{\varepsilon_i}</tex>.
+Данная модель уже не зависит от эффектов <tex>\alpha_i</tex>. По существу, это уравнение {{eqref|1}}, записанное в отклонениях от индивидуальных средних по времени.
+=== Оценка параметров модели ===
+Применяя обычный [[метод наименьших квадратов]] к уравнению {{eqref|3}}, мы получим оценки
+{{eqno|4}}
+::<tex>\widehat{\beta} = \left(\sum_{i=1}^n \sum_{t=1}^T (x_{it} - \overline{x_i}) \cdot (x_{it} - \overline{x_i})'\right)^{-1} \cdot \sum_{i=1}^n \sum_{t=1}^T (x_{it} - \overline{x_i}) \cdot (y_{it} - \overline{y_i})</tex>.
+Эти оценки называются ''' внутригрупповыми оценками''' (''' within estimator''') или ''' оценками с фиксированным эффектом''' (''' fixed effect estimator''').
+Условия 1)-2), наложенные на модель, гарантируют ''[[несмещённость]] '' и ''[[состоятельность]] '' оценок с фиксированным эффектом.
+В качестве оценок индивидуальных эффектов можно взять
+::<tex>\widehat{\alpha_i} = \overline{y_i} - \overline{x'_i} \cdot \widehat{\beta},\;  i  = 1,...,n</tex>.
+Эти оценки являются ''[[несмещённость| несмещёнными]] '' и ''[[состоятельность| состоятельными]] '' для фиксированного <tex> n</tex> при <tex> t \rightarrow \infty</tex>.
+Из формулы {{eqref|4}} вытекает выражение для [[матрица ковариации| матрицы ковариации]] оценки <tex>\widehat{\beta}</tex>:
+::<tex>V(\widehat{\beta}) = \sigma_{\varepsilon }^2 \left(\sum_{i=1}^n \sum_{t=1}^T (x_{it} - \overline{x_i}) \cdot (x_{it} - \overline{x_i})'\right)^{-1}</tex>.
+Как и в обычной линейной модели, в качестве оценки дисперсии <tex>\sigma_{\varepsilon }^2</tex> можно взять [[Остаточная сумма квадратов| сумму квадратов остатков регрессии]], деленную на число степеней свободы:
+::<tex>\widehat{\sigma_{\varepsilon }}^2 = \frac {\sum_{i=1}^n \sum_{t=1}^T (y_{it} - \overline{y_i} - (x_{it} - \overline{x_i})' \widehat{\beta})^2}{nT-n-k}</tex>.
+При достаточно слабых условиях регулярности оценки с фиксированным эффектом являются ''асимптотически нормальными'' (при <tex> n \rightarrow \infty</tex> или при <tex> T \rightarrow \infty</tex>), поэтому можно пользоваться стандартными процедурами (<tex>t</tex>-тесты, <tex>F</tex>-тесты) для проверки гипотез относительно параметров <tex>\beta</tex>.
+== Недостатки модели панельных данных с фиксированными эффектами ==
+В панельных данных среди независимых переменных <tex>x_{it}</tex> могут быть такие, которые не меняются во времени для каждого объекта. Например, при анализе зарабатной платы в число факторов часто включают пол или расовую принадлежность. Модель с фиксированным эффектом не позволяет идентифицировать соответствующие таким переменным коэффициенты. Формально это объясняется тем, что в уравнении {{eqref|3}} один или несколько регрессоров равны нулю, и, следовательно, [[метод наименьших квадратов]] применять нельзя.
 == Литература ==
+# {{книга
+|автор        = Магнус Я. Р., Катышев П. К., Пересецкий А. А.
+|заглавие     = Эконометрика. Начальный курс
+|издательство = М.: Дело
+|год          = 2004
+|страниц      = 576
+}}
+# {{книга
+|автор        =Коленков С.О.
+| заглавие  = Прикладной эконометрический анализ в статистическом пакете Stata
+|год          = 2003
+|ссылка       = http://www.komkon.org/~tacik/Stata6Ec.pdf
+}}
 == См. также ==
+* [[Объединённая модель панельных данных]]
+* [[Модель панельных данных со случайными эффектами]]
+* [[Модель панельных данных с временны́ми эффектами]]
+* [[Ротационная панель]]
 == Ссылки ==
+* [http://en.wikipedia.org/wiki/Panel_data  Panel data] (Wikipedia)
-{{Stub|}}
+* [http://en.wikipedia.org/wiki/Panel_analysis  Panel analysis] (Wikipedia)
+* [http://en.wikipedia.org/wiki/Random_effects_model Random effects model] (Wikipedia)
+* [http://en.wikipedia.org/wiki/Fixed_effects_estimator Fixed effects estimation] (Wikipedia)
+* [http://teaching.sociology.ul.ie/DCW/confront/node45.html Fixed and random effects models]
 [[Категория: Прикладная статистика]]