Участник:EvgSokolov/Песочница
Материал из MachineLearning.
м |
м |
||
Строка 59: | Строка 59: | ||
Логарифмированная концентрация оценивается следующим образом: | Логарифмированная концентрация оценивается следующим образом: | ||
::<tex> \hat \theta_n = \frac{\sum_{j = 1}^{J_n} \frac{w_{jn}}{v_{jn}} Y_{jn}^*}{\sum_{j = 1}^{J_n} \frac{w_{jn}}{v_{jn}}} </tex>, | ::<tex> \hat \theta_n = \frac{\sum_{j = 1}^{J_n} \frac{w_{jn}}{v_{jn}} Y_{jn}^*}{\sum_{j = 1}^{J_n} \frac{w_{jn}}{v_{jn}}} </tex>, | ||
- | где <tex> v_{jn} = \hat \tau_{jn}^2 + \hat \sigma_{jn}^2 </tex> — оценка дисперсии скорректированной интенсивности <tex>Y_{jn}^*</tex>, а <tex> w_{jn} </tex> — веса, соответствующие некоторой M-оценке. | + | где <tex> v_{jn} = \hat \tau_{jn}^2 + \hat \sigma_{jn}^2 </tex> — оценка дисперсии скорректированной интенсивности <tex>Y_{jn}^*</tex>, а <tex> w_{jn} </tex> — веса, соответствующие некоторой [[М-оценка|M-оценке]]. |
Данная оценка учитывает с низкими весами выбросы (так как им соответствуют маленькие <tex>w_{jn}</tex>) и пробы с большой дисперсией шума. | Данная оценка учитывает с низкими весами выбросы (так как им соответствуют маленькие <tex>w_{jn}</tex>) и пробы с большой дисперсией шума. | ||
Строка 87: | Строка 87: | ||
Тогда робастную оценку для <tex> \mathbf \theta </tex> можно получить из следующей задачи взвешенных наименьших квадратов: | Тогда робастную оценку для <tex> \mathbf \theta </tex> можно получить из следующей задачи взвешенных наименьших квадратов: | ||
::<tex> \left\| {\mathbf W \left( \Sigma^{-\frac{1}{2}} Y_n^* - \Sigma^{-\frac{1}{2}} X \theta \right) } \right\|^2 \rightarrow \min_{\mathbf \theta} </tex>, | ::<tex> \left\| {\mathbf W \left( \Sigma^{-\frac{1}{2}} Y_n^* - \Sigma^{-\frac{1}{2}} X \theta \right) } \right\|^2 \rightarrow \min_{\mathbf \theta} </tex>, | ||
- | где <tex> \mathbf W </tex> — диагональная матрица весов, соответствующих некоторой M-оценке. | + | где <tex> \mathbf W </tex> — диагональная матрица весов, соответствующих некоторой [[М-оценка|M-оценке]]. |
Решение записывается следующим образом: | Решение записывается следующим образом: | ||
::<tex> {\mathbf \hat \theta} = \left( {\mathbf X^T \Sigma^{-\frac{1}{2}} W \Sigma^{-\frac{1}{2}} X} \right)^{-1} {\mathbf X^T \Sigma^{-\frac{1}{2}} W \Sigma^{-\frac{1}{2}} Y_n^* } </tex>. | ::<tex> {\mathbf \hat \theta} = \left( {\mathbf X^T \Sigma^{-\frac{1}{2}} W \Sigma^{-\frac{1}{2}} X} \right)^{-1} {\mathbf X^T \Sigma^{-\frac{1}{2}} W \Sigma^{-\frac{1}{2}} Y_n^* } </tex>. |
Версия 08:29, 24 октября 2011
Содержание |
fRMA (Frozen Robust Multi-Array Analysis)
Рассматривается следующая модель уровня экспрессии:
Здесь используются следующие обозначения:
-
— номер партии микрочипов
. Два чипа относятся к одной партии, если эксперименты с ними были проведены в одной лаборатории в одно и то же время.
-
— номер микрочипа
.
-
— номер набора проб
. Также через
мы будем обозначать номер гена, соответствующего
-му набору проб.
-
— номер пробы
.
-
— предобработанная (с вычтенным фоном и нормализованная) логарифмированная интенсивность пробы
из набора проб
микрочипа
из партии микрочипов
.
-
— экспрессия гена
на
-м микрочипе.
-
— коэффициент сродства пробы
гену
.
-
— случайная ошибка, вызывающая различия между партиями проб.
-
— случайная ошибка, вызывающая различия между пробами на чипах одной партии.
В данной модели предполагается, что пробы на разных чипах имеют одинаковую дисперсию случайной ошибки: .
Также делается предположение, что
— это случайная величина, дисперсия которой не зависит от партии чипов:
.
Обучение модели
Для обучения необходимы данные с большого числа микрочипов.
Сначала ко всем микрочипам применяется метод квантильной нормализации, приводящий все данные к одному распределению. В дальнейшем будем называть это распределение «представительным».
Непосредственная настройка модели (1) при наличии выбросов в обучающей выборке крайне сложна, поэтому предлагается перейти к более простой задаче. Рассматривается упрощенная модель
.
По обучающей выборке находятся робастные оценки параметров и
для данной модели.
Затем вычисляются остатки
, с помощью которых оцениваются дисперсии
и
:
;
,
где .
Обработка новых чипов
Рассмотрим процесс обработки новых чипов. Сначала делается фоновая поправка всех чипов методом RMA-свертки, затем с помощью квантильной нормализации интенсивности новых чипов приводятся к представительному распределению, полученному на этапе обучения. Последним шагом является суммаризация, которая подробно описана ниже.
В первую очередь делается поправка интенсивностей проб для учета коэффициента сродства:
(здесь — это индекс новой партии микрочипов).
Далее из скорректированных интенсивностей нужно получить робастную оценку для .
Это делается разными способами в зависимости от того, из скольких чипов состоит партия.
Один микрочип
В данном случае индексы и
могут быть опущены опущены, так как обрабатывается один микрочип и одна партия.
Логарифмированная концентрация оценивается следующим образом:
,
где — оценка дисперсии скорректированной интенсивности
, а
— веса, соответствующие некоторой M-оценке.
Данная оценка учитывает с низкими весами выбросы (так как им соответствуют маленькие ) и пробы с большой дисперсией шума.
Партия микрочипов
В данном случае индекс может быть опущен, так как обрабатывается одна партия микрочипов. Число чипов в новой партии будем обозначать через
Введем следующие обозначения:
-
— индикаторная матрица (
— матрица из единиц размера
;
— единичная матрица размера
;
— произведение Кронекера).
-
— вектор экспрессий.
-
— вектор интенсивностей пробы
набора
на всех чипах партии.
-
— вектор интенсивностей всех проб к гену
на всех чипах партии.
-
— вектор случайных ошибок, соответствующих интенсивностям из
.
Тогда модель (2) можно записать в матричном виде:
Матрица ковариации вектора случайных ошибок задается следующим образом:
С учетом данного выражения ковариационную матрицу вектора можно записать следующим образом:
Для параметров И
уже получены оценки, поэтому матрицу
можно считать известной.
Значит, с помощью преобразования
можно добиться независимости случайных ошибок.
Тогда робастную оценку для
можно получить из следующей задачи взвешенных наименьших квадратов:
,
где — диагональная матрица весов, соответствующих некоторой M-оценке.
Решение записывается следующим образом:
.