Нормализация ДНК-микрочипов

Материал из MachineLearning.

Версия от 15:01, 6 мая 2010; Riabenko (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Нормализация - важный этап предобработки ДНК-микрочипов, позволяющий сделать несколько рассматриваемых в эксперименте чипов пригодными к сравнению между собой. Основная цель анализа на этом этапе - исключить влияние систематических небиологических различий между микрочипами. Источников таких различий множество: вариации эффективности обратной транскрипции, маркировки красителями, гибридизации, физические различия между чипами (повреждения, царапины), небольшие различия в концентрации реагентов, вариация лабораторных условий.

Парадигмы нормализации

Нормализация на все гены, нормализация на гены домашнего хозяйства, нормализация на стабильные гены^[1]

Методы нормализации

Масштабирование

Один из ДНК-микрочипов выбирается в качестве базового, затем все остальные масштабируются таким образом, чтобы их средняя интенсивность равнялась средней интенсивности базового (этот способ эквивалентен построению линейной регрессии каждого чипа на базовый и последующей нормализации при помощи регрессионной функции).

Для большей устойчивости можно использовать усечённое среднее. Так, в стандартном программном обеспечении производителя микрочипов Affymetrix перед подсчётом среднего отбрасываются по 2 % наибольших и наименьших значений интенсивности. Другая модификация — масштабирование к средней интенсивности не по всему базовому чипу, а по каждому подмножеству его проб, соответствующих одному гену.

Affymetrix предлагает использовать этот вид нормализации на последнем этапе предобработки, применяя масштабирование непосредственно к матрицам экспрессии, однако, возможно и его применение к матрицам интенсивности.

Схема выполнения масштабирования

Выбрать столбец $j$ матрицы $X$ в качестве базового.
Вычислить (усечённое) среднее $\tilde{X}_j$ по столбцу $j$
Для всех остальных столбцов матрицы $X$ : вычислить (усечённое) среднее $\tilde{X}_i$ по столбцу $i$ ; вычислить $\beta_i=\tilde{X}_j/\tilde{X}_i$ ; каждый элемент столбца $i$ умножить на $\beta_i$ .

Нелинейные методы

Предложено большое количество нелинейных способов нормализации данных, использующих различные настраиваемые функции, заменяющие линейную регрессию из предыдущего примера. Среди таких функций cross-validated splines^[1], running median lines^[1], loess smoothers^[1], и т.д. В типичном случае нелинейная нормализация проводится по множеству рангово-инвариантных проб, то есть, проб, имеющих один и тот же ранг во всех микрочипах.

Схема выполнения нелинейной нормализации

Выбрать столбец $j$ матрицы $X$ в качестве базового.
Для всех столбцов $i\neq\j$ матрицы настроить параметры нелинейной функции $f$ , отображающей столбец $i$ на столбец $j$ . Пусть $\hat{f}_i$ - полученное отображение.
Нормализованные значения в столбце $j$ определяются как $\hat{f}_i\left(X_j\right)$