Контроль качества в анализе ДНК-микрочипов

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 10: Строка 10:
Алгоритм начинает работу с построения изображения ошибок ("error image") <tex>E</tex>, которое представляет собой отклонение логарифмированных интенсивностей конкретного чипа от других в эксперименте. Это изображение представляется следующим образом: <tex>E = B_E+\nu_E</tex>, где <tex>B_E</tex> - фон изображения <tex>E</tex>, а <tex>\nu_E</tex> локальные вариации, которые при незагрязненном изображении, являются индикатором экспрессии генов. Предположив, что фон и локальные вариации являются некоррелированными величинами, то можно записать, что <tex>\sigma^2_E = \sigma^2_{B_E}+\sigma^2_{\nu_E}</tex>. Для оценки <tex>\sigma^2_{B_E}</tex> используется изображение <tex>\widetilde E</tex>, полученное из <tex>E</tex> путем медианной фильтрации. Далее считается <tex>\sigma^2_{B_E}/\sigma^2_E</tex>. Если оно превышает заданный порог, то считается, что сильный дефект обнаружен.
Алгоритм начинает работу с построения изображения ошибок ("error image") <tex>E</tex>, которое представляет собой отклонение логарифмированных интенсивностей конкретного чипа от других в эксперименте. Это изображение представляется следующим образом: <tex>E = B_E+\nu_E</tex>, где <tex>B_E</tex> - фон изображения <tex>E</tex>, а <tex>\nu_E</tex> локальные вариации, которые при незагрязненном изображении, являются индикатором экспрессии генов. Предположив, что фон и локальные вариации являются некоррелированными величинами, то можно записать, что <tex>\sigma^2_E = \sigma^2_{B_E}+\sigma^2_{\nu_E}</tex>. Для оценки <tex>\sigma^2_{B_E}</tex> используется изображение <tex>\widetilde E</tex>, полученное из <tex>E</tex> путем медианной фильтрации. Далее считается <tex>\sigma^2_{B_E}/\sigma^2_E</tex>. Если оно превышает заданный порог, то считается, что сильный дефект обнаружен.
Для обнаружения компактных дефектов применяется следующий подход: мы строим бинарные изображения по изображению <tex>E</tex>, в котором 1 соответствуют пиксели, с интенсивностью, либо меньшей <tex>\alpha</tex>-перцентили (темные выбросы), либо большей <tex>(1-\alpha)</tex>-перцентили (яркие выбросы). Для этих двух изображений применяется алгоритм нахождения связанных областей FloodFill. Если размер обнаруженного связной области превышает заданного порога, то считается, что обнаружен компактный дефект.
Для обнаружения компактных дефектов применяется следующий подход: мы строим бинарные изображения по изображению <tex>E</tex>, в котором 1 соответствуют пиксели, с интенсивностью, либо меньшей <tex>\alpha</tex>-перцентили (темные выбросы), либо большей <tex>(1-\alpha)</tex>-перцентили (яркие выбросы). Для этих двух изображений применяется алгоритм нахождения связанных областей FloodFill. Если размер обнаруженного связной области превышает заданного порога, то считается, что обнаружен компактный дефект.
-
[[Изображение:Finding_compact_defects.png|thumb|250px|Harshlight. Обнаружение компактных дефектов. Сначала определяются выбросы согласно распределению интенсивностей, потом с помощью алгоритм FloodFill ищутся связные области выбросов. Применяется пороговое отсечение по размеру области.]]
+
[[Изображение:Finding_compact_defects.png|thumb|250px|Harshlight. Обнаружение компактных дефектов. Сначала определяются выбросы согласно распределению интенсивностей, потом с помощью алгоритма FloodFill ищутся связные области выбросов. Применяется пороговое отсечение по размеру области.]]
Для обнаружения диффузных дефектов опять определяются темные и яркие выбросы. Темный выбросом считается пиксель с интенсивностью <tex>E_i \le - log_2(x+1)</tex>, где <tex>x</tex> - некоторый процент от ожидаемого значения интенсивности. Изображения темных и ярких выбросов сканируются окном и определяется локальная плотность выбросов в области внутри этого окна. Далее ко всему изображению применяется процедура закрытия для более точного определения области диффузного дефекта. Обнаруженные дефекты маскируются либо пропущенными значениями либо медианой по остальным чипам в эксперименте.
Для обнаружения диффузных дефектов опять определяются темные и яркие выбросы. Темный выбросом считается пиксель с интенсивностью <tex>E_i \le - log_2(x+1)</tex>, где <tex>x</tex> - некоторый процент от ожидаемого значения интенсивности. Изображения темных и ярких выбросов сканируются окном и определяется локальная плотность выбросов в области внутри этого окна. Далее ко всему изображению применяется процедура закрытия для более точного определения области диффузного дефекта. Обнаруженные дефекты маскируются либо пропущенными значениями либо медианой по остальным чипам в эксперименте.
-
[[Изображение:Finding_diffuse_defects.png|thumb|250px|Harshlight. Обнаружение диффузных дефектов. Сначала определяются выбросы согласно распределению интенсивностей, потом. Определяются области с большой плотностью выбросов. Алгоритмом FloodFill ищутся связные области. Применяется пороговое правило на размер области. Далее выполняется процедура закрытия. ]]
+
[[Изображение:Finding_diffuse_defects.png|thumb|250px|Harshlight. Обнаружение диффузных дефектов. Сначала определяются выбросы согласно распределению интенсивностей. Потом определяются области с большой плотностью выбросов. Алгоритмом FloodFill ищутся связные области, потом применяется пороговое правило на размер области. Далее выполняется процедура закрытия. ]]
=== MBR ===
=== MBR ===
Microarray Blob Remover<ref name="MBR">Microarray Blob Remover: http://liulab.dfci.harvard.edu/Software/MBR/MBR.htm </ref> (MBR) - программа, распространяемая в свободном доступе, предназначенная для поиска на изображении чипов так называемых "блобов". "Блоб" - большая связная область пикселей с высокой интенсивностью свечения, возникшая в результате внешних источников и не связанная с уровнем транскрипции. Алгоритм MBR состоит из двух шагов. На первом шаге изображение сканируется квадратным окном 100×100. Окно двигается по вертикали и горизонтали на 50 проб. В каждом окне считается количество проб, интенсивность которых больше k-ой квантили, по умолчанию k выбирается равным 90. Если количество таких проб в окне превышает 50% от общего числа проб в окне, то выполняется следующий шаг. Квадратное окно сканируется круглым, с радиусом 20. Если процент проб в этом окне, интенсивность которых больше (k-5)-ой квантили, превышает p%, то все пробы внутри окошка объявляются принадлежащим "блобу". По умолчанию p равно 90. MBR обнаруживает "блобы", но не исправляет дефекты сам. Пробы, принадлежащие найденным "блобам" MBR записывает в .CEL файл на место секции "Outlier entries", полученной при рaботе Affymetrix GCOS.
Microarray Blob Remover<ref name="MBR">Microarray Blob Remover: http://liulab.dfci.harvard.edu/Software/MBR/MBR.htm </ref> (MBR) - программа, распространяемая в свободном доступе, предназначенная для поиска на изображении чипов так называемых "блобов". "Блоб" - большая связная область пикселей с высокой интенсивностью свечения, возникшая в результате внешних источников и не связанная с уровнем транскрипции. Алгоритм MBR состоит из двух шагов. На первом шаге изображение сканируется квадратным окном 100×100. Окно двигается по вертикали и горизонтали на 50 проб. В каждом окне считается количество проб, интенсивность которых больше k-ой квантили, по умолчанию k выбирается равным 90. Если количество таких проб в окне превышает 50% от общего числа проб в окне, то выполняется следующий шаг. Квадратное окно сканируется круглым, с радиусом 20. Если процент проб в этом окне, интенсивность которых больше (k-5)-ой квантили, превышает p%, то все пробы внутри окошка объявляются принадлежащим "блобу". По умолчанию p равно 90. MBR обнаруживает "блобы", но не исправляет дефекты сам. Пробы, принадлежащие найденным "блобам" MBR записывает в .CEL файл на место секции "Outlier entries", полученной при рaботе Affymetrix GCOS.

Версия 17:01, 23 октября 2011

Важным этапом анализа ДНК-микрочипов является контроль качества изображений, полученных при сканировании чипов. На изображениях чипов могут появляться различные "пятна" или неоднородности, вызванные, например, пылью или неравномерным распределением свечения. Такие "пятна" достаточно трудно разглядеть невооруженным глазом на микрочипе в силу большого разброса значений интенсивностей свечения проб. Их обнаружения можно добиться путем сравнения интенсивности свечения пробы с каким-нибудь контрольным значением или с помощью моделирования значений в некотором наборе микрочипов.

Содержание

Выбор контрольных значений

Важным вопросом является определение того, что считать выбросом или нетипичностью. Значение интенсивности выбросов не должно встречаться слишком редко, так это может быть обусловлено случайным распределением интенсивностей, а должно встречаться относительно часто вследствие некой достаточно заметной неоднородности. Необходимо найти способ определения выбросов с высокой чувствительностью и с высокой специфичностью. Для увеличения специфичности всегда можно использовать второй проход, в котором выбросы, окруженные пикселями, не являющимися выбросами, перестают считаться выбросами. Это основано на том, что выбросы представляют собой не отдельно взятые пробы, а некоторые области на чипе с нетипичным поведением. При исследовании технических репликат контрольным значением может быть выбрано медианное значение интенсивности пробы по всем репликатам, как это сделано в алгоритме Harshlight. Также контрольное значение может быть оценено по большой выборке чипов одного типа, например, средним, медианой или другими более устойчивыми способами.

Алгоритмы нахождения нетипичностей

Harshlight

Harshlight[1] - это программа, распространяемая в свободном доступе, предназначенная для поиска на изображении чипа нетипичностей трех видов: сильные дефекты ("extended defects"), компактные дефекты ("compact defects") и диффузные дефекты ("diffuse defects"). Сильные дефекты — это большие области на изображении чипа, которые сильно отличаются от остального части чипа по интенсивности свечения. Компактные дефекты — области небольшого размера либо слишком ярких, либо слишком темных проб. Диффузные дефекты - области чипа, плотности распределения ярких или темных проб в которых значительно отличаются от их плотности в остальной части чипа. Сначала алгоритм ищет сильные дефекты, а затем компактные и диффузные дефекты. При обнаружении сильных дефектов, авторы алгоритма настоятельно рекомендуют исключить чип из исследования.

Примеры трех видов дефектов на изображении чипа. На чипе A кружком с непрерывной границей изображен компактный дефект, с пунктирной - диффузный. На чипе B виден сильный дефект.
Примеры трех видов дефектов на изображении чипа. На чипе A кружком с непрерывной границей изображен компактный дефект, с пунктирной - диффузный. На чипе B виден сильный дефект.

Алгоритм начинает работу с построения изображения ошибок ("error image") E, которое представляет собой отклонение логарифмированных интенсивностей конкретного чипа от других в эксперименте. Это изображение представляется следующим образом: E = B_E+\nu_E, где B_E - фон изображения E, а \nu_E локальные вариации, которые при незагрязненном изображении, являются индикатором экспрессии генов. Предположив, что фон и локальные вариации являются некоррелированными величинами, то можно записать, что \sigma^2_E = \sigma^2_{B_E}+\sigma^2_{\nu_E}. Для оценки \sigma^2_{B_E} используется изображение \widetilde E, полученное из E путем медианной фильтрации. Далее считается \sigma^2_{B_E}/\sigma^2_E. Если оно превышает заданный порог, то считается, что сильный дефект обнаружен. Для обнаружения компактных дефектов применяется следующий подход: мы строим бинарные изображения по изображению E, в котором 1 соответствуют пиксели, с интенсивностью, либо меньшей \alpha-перцентили (темные выбросы), либо большей (1-\alpha)-перцентили (яркие выбросы). Для этих двух изображений применяется алгоритм нахождения связанных областей FloodFill. Если размер обнаруженного связной области превышает заданного порога, то считается, что обнаружен компактный дефект.

Harshlight. Обнаружение компактных дефектов. Сначала определяются выбросы согласно распределению интенсивностей, потом с помощью алгоритма FloodFill ищутся связные области выбросов. Применяется пороговое отсечение по размеру области.
Harshlight. Обнаружение компактных дефектов. Сначала определяются выбросы согласно распределению интенсивностей, потом с помощью алгоритма FloodFill ищутся связные области выбросов. Применяется пороговое отсечение по размеру области.

Для обнаружения диффузных дефектов опять определяются темные и яркие выбросы. Темный выбросом считается пиксель с интенсивностью E_i \le - log_2(x+1), где x - некоторый процент от ожидаемого значения интенсивности. Изображения темных и ярких выбросов сканируются окном и определяется локальная плотность выбросов в области внутри этого окна. Далее ко всему изображению применяется процедура закрытия для более точного определения области диффузного дефекта. Обнаруженные дефекты маскируются либо пропущенными значениями либо медианой по остальным чипам в эксперименте.

Harshlight. Обнаружение диффузных дефектов. Сначала определяются выбросы согласно распределению интенсивностей. Потом определяются области с большой плотностью выбросов. Алгоритмом FloodFill ищутся связные области, потом применяется пороговое правило на размер области. Далее выполняется процедура закрытия.
Harshlight. Обнаружение диффузных дефектов. Сначала определяются выбросы согласно распределению интенсивностей. Потом определяются области с большой плотностью выбросов. Алгоритмом FloodFill ищутся связные области, потом применяется пороговое правило на размер области. Далее выполняется процедура закрытия.

MBR

Microarray Blob Remover[1] (MBR) - программа, распространяемая в свободном доступе, предназначенная для поиска на изображении чипов так называемых "блобов". "Блоб" - большая связная область пикселей с высокой интенсивностью свечения, возникшая в результате внешних источников и не связанная с уровнем транскрипции. Алгоритм MBR состоит из двух шагов. На первом шаге изображение сканируется квадратным окном 100×100. Окно двигается по вертикали и горизонтали на 50 проб. В каждом окне считается количество проб, интенсивность которых больше k-ой квантили, по умолчанию k выбирается равным 90. Если количество таких проб в окне превышает 50% от общего числа проб в окне, то выполняется следующий шаг. Квадратное окно сканируется круглым, с радиусом 20. Если процент проб в этом окне, интенсивность которых больше (k-5)-ой квантили, превышает p%, то все пробы внутри окошка объявляются принадлежащим "блобу". По умолчанию p равно 90. MBR обнаруживает "блобы", но не исправляет дефекты сам. Пробы, принадлежащие найденным "блобам" MBR записывает в .CEL файл на место секции "Outlier entries", полученной при рaботе Affymetrix GCOS.

Примечания

Личные инструменты