Контроль качества в анализе ДНК-микрочипов

Материал из MachineLearning.

Перейти к: навигация, поиск

Важным этапом анализа ДНК-микрочипов является контроль качества изображений, полученных при сканировании чипов. На изображениях чипов могут появляться различные "пятна" или неоднородности, вызванные, например, пылью или неравномерным распределением свечения. Такие "пятна" достаточно трудно разглядеть невооруженным глазом на микрочипе в силу большого разброса значений интенсивностей свечения проб. Их обнаружения можно добиться путем сравнения интенсивности свечения пробы с каким-нибудь контрольным значением или с помощью моделирования значений в некотором наборе микрочипов.

Содержание

Выбор контрольных значений

Важным вопросом является определение того, что считать выбросом или нетипичностью. Значение интенсивности выбросов не должно встречаться слишком редко, так это может быть обусловлено случайным распределением интенсивностей, а должно встречаться относительно часто вследствие некой достаточно заметной неоднородности. Необходимо найти способ определения выбросов с высокой чувствительностью и с высокой специфичностью. Для увеличения специфичности всегда можно использовать второй проход, в котором выбросы, окруженные пикселями, не являющимися выбросами, перестают считаться выбросами. Это основано на том, что выбросы представляют собой не отдельно взятые пробы, а некоторые области на чипе с нетипичным поведением. При исследовании технических репликат контрольным значением может быть выбрано медианное значение интенсивности пробы по всем репликатам, как это сделано в алгоритме Harshlight. Также контрольное значение может быть оценено по большой выборке чипов одного типа, например, средним, медианой или другими более устойчивыми способами.

Алгоритмы нахождения нетипичностей

Harshlight

Примеры трех видов дефектов на изображении чипа. На чипе A: сплошная линия — компактный дефект, пунктир — диффузный. На чипе B: сильный дефект.
Примеры трех видов дефектов на изображении чипа. На чипе A: сплошная линия — компактный дефект, пунктир — диффузный. На чипе B: сильный дефект.
Harshlight, обнаружение компактных дефектов: по распределению интенсивностей определяются выбросы; с помощью алгоритма FloodFill ищутся связные области выбросов; применяется пороговое отсечение по размеру области.
Harshlight, обнаружение компактных дефектов: по распределению интенсивностей определяются выбросы; с помощью алгоритма FloodFill ищутся связные области выбросов; применяется пороговое отсечение по размеру области.
Harshlight, обнаружение диффузных дефектов: по распределению интенсивностей определяются выбросы; выделяются области с большой плотностью выбросов; алгоритмом FloodFill ищутся связные области; применяется пороговое правило на размер области; выполняется процедура замыкания.
Harshlight, обнаружение диффузных дефектов: по распределению интенсивностей определяются выбросы; выделяются области с большой плотностью выбросов; алгоритмом FloodFill ищутся связные области; применяется пороговое правило на размер области; выполняется процедура замыкания.

Harshlight[1] — это программа, распространяемая в свободном доступе, предназначенная для поиска на изображении чипа нетипичностей трех видов: сильные дефекты ("extended defects"), компактные дефекты ("compact defects") и диффузные дефекты ("diffuse defects"). Сильные дефекты — это большие области на изображении чипа, которые сильно отличаются от остального части чипа по интенсивности свечения. Компактные дефекты — области небольшого размера либо слишком ярких, либо слишком темных проб. Диффузные дефекты — области чипа, плотности распределения ярких или темных проб в которых значительно отличаются от их плотности в остальной части чипа. Сначала алгоритм ищет сильные дефекты, а затем компактные и диффузные дефекты. При обнаружении сильных дефектов авторы алгоритма настоятельно рекомендуют исключить чип из исследования.

Алгоритм начинает работу с построения изображения ошибок ("error image") E, которое представляет собой отклонение логарифмированных интенсивностей конкретного чипа от других в эксперименте. Это изображение представляется в виде

E = B_E+\nu_E,

где B_E — фон изображения E, \nu_E — локальные вариации, которые при отсутствии дефектов вызваны представляющими основной интерес изменениями экспрессии генов. Предположив, что фон и локальные вариации являются некоррелированными величинами, можно записать

\sigma^2_E = \sigma^2_{B_E}+\sigma^2_{\nu_E}.

Для оценки \sigma^2_{B_E} используется изображение \widetilde E, полученное из E путем медианной фильтрации. Далее считается \sigma^2_{B_E}/\sigma^2_E. Если оно превышает заданный порог, то считается, что сильный дефект обнаружен.

Для обнаружения компактных дефектов применяется следующий подход: мы строим бинарные изображения по изображению E, в котором 1 соответствуют пиксели, с интенсивностью, либо меньшей \alpha-перцентили (темные выбросы), либо большей (1-\alpha)-перцентили (яркие выбросы). Для этих двух изображений применяется алгоритм нахождения связанных областей FloodFill. Если размер обнаруженного связной области превышает заданного порога, то считается, что обнаружен компактный дефект.

Для обнаружения диффузных дефектов опять определяются темные и яркие выбросы. Темным выбросом считается пиксель с интенсивностью E_i \le - \log_2(x+1), светлым — E_i \ge \log_2(x+1), где x — некоторый процент от ожидаемого значения интенсивности. Изображения темных и ярких выбросов сканируются окном, и определяется локальная плотность выбросов в области внутри этого окна. Далее ко всему изображению применяется процедура замыкания[1] для более точного определения области диффузного дефекта. Обнаруженные дефекты заполняются либо пропусками, либо медианой по остальным чипам в эксперименте.

MBR

Microarray Blob Remover[1] (MBR) - программа, распространяемая в свободном доступе, предназначенная для поиска на изображении чипов так называемых "блобов". "Блоб" - большая связная область пикселей с высокой интенсивностью свечения, возникшая в результате внешних источников и не связанная с уровнем транскрипции. Алгоритм MBR состоит из двух шагов. На первом шаге изображение сканируется квадратным окном 100×100. Окно двигается по вертикали и горизонтали на 50 проб. В каждом окне считается количество проб, интенсивность которых больше k-ой квантили, по умолчанию k выбирается равным 90. Если количество таких проб в окне превышает 50% от общего числа проб в окне, то выполняется следующий шаг. Квадратное окно сканируется круглым, с радиусом 20. Если процент проб в этом окне, интенсивность которых больше (k-5)-ой квантили, превышает p%, то все пробы внутри окошка объявляются принадлежащим "блобу". По умолчанию p равно 90. MBR обнаруживает "блобы", но не исправляет дефекты сам. Пробы, принадлежащие найденным "блобам" MBR записывает в .CEL файл на место секции "Outlier entries", полученной при рaботе Affymetrix GCOS.

Примечания

Личные инструменты