Нормализация ДНК-микрочипов

Материал из MachineLearning.

(Различия между версиями)

Версия 05:54, 8 мая 2010

Нормализация - важный этап предобработки ДНК-микрочипов, позволяющий сделать несколько рассматриваемых в эксперименте чипов пригодными к сравнению между собой. Основная цель анализа на этом этапе - исключить влияние систематических небиологических различий между микрочипами. Источников таких различий множество: вариации эффективности обратной транскрипции, маркировки красителями, гибридизации, физические различия между чипами (повреждения, царапины), небольшие различия в концентрации реагентов, вариация лабораторных условий.

Парадигмы нормализации

Нормализация на все гены, нормализация на гены домашнего хозяйства, нормализация на стабильные гены^[1]

Методы нормализации

Масштабирование

Один из ДНК-микрочипов выбирается в качестве базового, затем все остальные масштабируются таким образом, чтобы их средняя интенсивность равнялась средней интенсивности базового (этот способ эквивалентен построению линейной регрессии каждого чипа на базовый и последующей нормализации при помощи регрессионной функции).

Для большей устойчивости можно использовать усечённое среднее. Так, в стандартном программном обеспечении производителя микрочипов Affymetrix перед подсчётом среднего отбрасываются по 2% наибольших и наименьших значений интенсивности. Другая модификация — масштабирование к средней интенсивности не по всему базовому чипу, а по каждому подмножеству его проб, соответствующих одному гену.

Affymetrix предлагает использовать масштабирование на последнем этапе предобработки, применяя его непосредственно к матрицам экспрессии, однако, возможно и применение к матрицам интенсивности.

Схема выполнения масштабирования

     Выбрать столбец  матрицы  в качестве базового.
     Вычислить (усечённое) среднее  по столбцу 
     Для всех остальных столбцов матрицы : вычислить (усечённое) среднее  по столбцу ; вычислить ; каждый элемент столбца  умножить на .

Нелинейные методы

Предложено большое количество нелинейных способов нормализации данных, использующих различные настраиваемые функции, заменяющие линейную регрессию из предыдущего примера. Среди таких функций cross-validated splines^[1], running median lines^[1], loess smoothers^[1], и т.д. В типичном случае нелинейная нормализация проводится по множеству рангово-инвариантных проб, то есть, проб, имеющих один и тот же ранг во всех микрочипах.

Схема выполнения нелинейной нормализации

     Выбрать столбец  матрицы  в качестве базового.
     Для всех столбцов  матрицы настроить параметры нелинейной функции , отображающей столбец  на столбец . Пусть  - полученное отображение.
     Нормализованные значения в столбце  определяются как

Метод квантильной нормализации преобразует распределения интенсивностей

Квантильная нормализация

Цель квантильной нормализации - сделать эмпирические распределения интенсивностей всех микрочипов одинаковыми. Для этого используется преобразование вида $x'_i=F^(-1)\left[G\left(x_i\right)\right],$ где $G$ - эмпирическое распределение интенсивностей каждого чипа, $F$ - эмпирическое распределение интенсивностей усреднённого чипа. Можно модифицировать метод, оценивая $F^(-1)$ и $G$ более гладкими функциями. Однако, для данных большой размерности на практике достаточно и грубой оценки.

Схема выполнения квантильной нормализации

     Имея  микрочипов размерности , построить матрицу  размерности , где в каждом столбце находятся значения интенсивности по каждому чипу.
     Отсортировать все столбцы  независимо друг от друга, сформировав матрицу .
     Взять среднее по каждой строке матрицы  и создать  - матрицу той же размерности, что и , в каждой строке которой все значения равны среднему по строке .
     Получить матрицу , переставив значения в столбцах  в том порядке, в каком они стояли в исходной матрице .

Циклическая нормализация при помощи локальной регрессии

Алгоритм LOWESS

Примечания

Это незавершённая статья. Вы поможете проекту, исправив и дополнив её.

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%9D%D0%BE%D1%80%D0%BC%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F_%D0%94%D0%9D%D0%9A-%D0%BC%D0%B8%D0%BA%D1%80%D0%BE%D1%87%D0%B8%D0%BF%D0%BE%D0%B2»

Категории: Биоинформатика | Незавершённые статьи

@@ Строка 11: / Строка 11: @@
 Для большей устойчивости можно использовать усечённое среднее. Так, в стандартном программном обеспечении производителя микрочипов Affymetrix перед подсчётом среднего отбрасываются по 2% наибольших и наименьших значений интенсивности. Другая модификация — масштабирование к средней интенсивности не по всему базовому чипу, а по каждому подмножеству его проб, соответствующих одному гену.
-Affymetrix предлагает использовать этот вид нормализации на последнем этапе предобработки, применяя масштабирование непосредственно к матрицам экспрессии, однако, возможно и его применение к матрицам интенсивности.
+Affymetrix предлагает использовать масштабирование на последнем этапе предобработки, применяя его непосредственно к матрицам экспрессии, однако, возможно и применение к матрицам интенсивности.
 =====Схема выполнения масштабирования=====
-# Выбрать столбец <tex>j</tex> матрицы <tex>X</tex> в качестве базового.
+      Выбрать столбец <tex>j</tex> матрицы <tex>X</tex> в качестве базового.
-# Вычислить (усечённое) среднее <tex>\tilde{X}_j</tex> по столбцу <tex>j</tex>
+      Вычислить (усечённое) среднее <tex>\tilde{X}_j</tex> по столбцу <tex>j</tex>
-# Для всех остальных столбцов матрицы <tex>X</tex>: вычислить (усечённое) среднее <tex>\tilde{X}_i</tex> по столбцу <tex>i</tex>; вычислить <tex>\beta_i=\tilde{X}_j/\tilde{X}_i</tex>; каждый элемент столбца <tex>i</tex> умножить на <tex>\beta_i</tex>.
+      Для всех остальных столбцов матрицы <tex>X</tex>: вычислить (усечённое) среднее <tex>\tilde{X}_i</tex> по столбцу <tex>i</tex>; вычислить <tex>\beta_i=\tilde{X}_j/\tilde{X}_i</tex>; каждый элемент столбца <tex>i</tex> умножить на <tex>\beta_i</tex>.
 === Нелинейные методы ===
@@ Строка 26: / Строка 26: @@
 =====Схема выполнения нелинейной нормализации=====
-# Выбрать столбец <tex>j</tex> матрицы <tex>X</tex> в качестве базового.
+      Выбрать столбец <tex>j</tex> матрицы <tex>X</tex> в качестве базового.
-# Для всех столбцов <tex>i\neq\j</tex> матрицы настроить параметры нелинейной функции <tex>f</tex>, отображающей столбец <tex>i</tex> на столбец <tex>j</tex>. Пусть <tex>\hat{f}_i</tex> - полученное отображение.
+      Для всех столбцов <tex>i\neq\j</tex> матрицы настроить параметры нелинейной функции <tex>f</tex>, отображающей столбец <tex>i</tex> на столбец <tex>j</tex>. Пусть <tex>\hat{f}_i</tex> - полученное отображение.
-# Нормализованные значения в столбце <tex>j</tex> определяются как <tex>\hat{f}_i\left(X_j\right)</tex>
+      Нормализованные значения в столбце <tex>j</tex> определяются как <tex>\hat{f}_i\left(X_j\right)</tex>
+[[Изображение:Quantile-quantile normalization.png|thumb|300px|Метод квантильной нормализации преобразует распределения интенсивностей]]
 === Квантильная нормализация ===
+Цель квантильной нормализации - сделать эмпирические распределения интенсивностей всех микрочипов одинаковыми. Для этого используется преобразование вида <tex>x'_i=F^(-1)\left[G\left(x_i\right)\right],</tex> где <tex>G</tex> - эмпирическое распределение интенсивностей каждого чипа, <tex>F</tex> - эмпирическое распределение интенсивностей усреднённого чипа. Можно модифицировать метод, оценивая <tex>F^(-1)</tex> и <tex>G</tex> более гладкими функциями. Однако, для данных большой размерности на практике достаточно и грубой оценки.
+=====Схема выполнения квантильной нормализации=====
+      Имея <tex>n</tex> микрочипов размерности <tex>p</tex>, построить матрицу <tex>X</tex> размерности <tex>p\times n</tex>, где в каждом столбце находятся значения интенсивности по каждому чипу.
+      Отсортировать все столбцы <tex>X</tex> независимо друг от друга, сформировав матрицу <tex>X_s</tex>.
+      Взять среднее по каждой строке матрицы <tex>X_s</tex> и создать <tex>X'_s</tex> - матрицу той же размерности, что и <tex>X</tex>, в каждой строке которой все значения равны среднему по строке <tex>X_s</tex>.
+      Получить матрицу <tex>X_n</tex>, переставив значения в столбцах <tex>X'_s</tex> в том порядке, в каком они стояли в исходной матрице <tex>X</tex>.
 === Циклическая нормализация при помощи локальной регрессии ===