Участник:EvgSokolov/Песочница
Материал из MachineLearning.
fRMA (Frozen Robust Multi-Array Analysis)
Рассматривается следующая модель уровня экспрессии:
Здесь используются следующие обозначения:
-
— номер партии микрочипов
. Два чипа относятся к одной партии, если эксперименты с ними были проведены в одной лаборатории в одно и то же время.
-
— номер микрочипа
.
-
— номер набора проб
. Также через
мы будем обозначать номер гена, соответствующего
-му набору проб.
-
— номер пробы
.
-
— предобработанная (с вычтенным фоном и нормализованная) логарифмированная интенсивность пробы
из набора проб
микрочипа
из партии микрочипов
.
-
— экспрессия гена
на
-м микрочипе.
-
— коэффициент сродства пробы
гену
.
-
— поправка к коэффициенту сродства, учитывающая различия между партиями проб.
-
— случайная ошибка с нулевым средним.
В данной модели предполагается, что пробы на разных чипах имеют одинаковую дисперсию случайной ошибки: .
Также делается предположение, что
— это случайная величина, дисперсия которой не зависит от партии чипов:
.
Обучение модели
Для обучения необходимы данные с большого числа микрочипов.
Сначала ко всем микрочипам применяется метод квантильной нормализации, приводящий все данные к одному распределению. В дальнейшем мы будем называть это распределение «представительным».
Непосредственная настройка модели (1) при наличии выбросов в обучающей выборке крайне сложна, поэтому предлагается перейти к более простой задаче. Рассмотрим упрощенную модель
.
Данная модель с помощью робастного метода настраивается по обучающей выборке для получения оценок параметров и
.
Затем вычисляются остатки
, с помощью которых оцениваются дисперсии
и
:
;
,
где .