Биоинформатика

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Основные биоинформационные программы)
(9 промежуточных версий не показаны.)
Строка 1: Строка 1:
-
'''Биоинформа́тика''' или '''вычисли́тельная биоло́гия''' — одна из дисциплин биологии, изучающая молекулярные процессы, но не in vitro, а in silico, т.е. не в пробирке, а при помощи компьютеров.
+
'''Биоинформа́тика''' — в настоящее время, данным термином обозначаются любые попытки биологов ввести обобщения эвристического толка на гигантские массивы биологических данных. До недавнего времени (2000-2002г), под биоинформатикой подразумевалось, в большинстве случаев, использование процедур сравнения символьных последовательностей (аминокислотные последовательности белков, нуклеотидные последовательности ДНК и РНК). После публикации последовательности генома человека в начале 2000-х годов стало ясно, что сравнение символьных последовательностей само по себе не позволяет дать ответ на вопросы о функции генов и белков. Поэтому, сейчас происходит разворот в сторону более широкого понимания биоинформатики как "менеджмента разнородных биологических данных" (см. https://www.novapublishers.com/catalog/product_info.php?products_id=4277).
== Терминология ==
== Терминология ==
-
Под биоинформатикой понимают любое использование компьютеров для обработки биологической информации. На практике, иногда это определение более узкое, под ним понимают использование компьютеров для обработки экспериментальных данных по структуре биологических макромолекул белков и нуклеиновых кислот с целью получения биологически значимой информации.
+
Лексический анализ слова "биоинформатика" указывает на приставку "био-" (от греч. "жизнь") и слово "информатика" (термин, вполне понятный для посетителей сайта machinelearning.ru). Однако, как это не парадоксально, "биоинформатика" (англ. bioinformatics), до недавнего времени, не имела практически ничего общего с "информатикой" (англ. "computer science"). В этом легко убедится, проведя поиски по этим ключевым словам в базах данных публикаций по всем областям биологии, включая биоинформатику. В базе данных MEDLINE содержится почти 20 млн абстрактов (см. http://www.ncbi.nlm.nih.gov/sites/entrez).
-
Основные усилия исследователей в этой области направлены на изучение [[геном]]ов, анализ и предсказание структуры [[белок|белков]], анализ и предсказание взаимодействий молекул белка друг с другом и другими молекулами, а также реконструкция эволюции.
+
В среде биологов, под биоинформатикой понимают использование компьютеров для обработки
-
Основная линия в проектах биоинформатики — это использование математических средств для извлечения полезной информации из «шумных» или слишком объёмных данных о структуре [[ДНК]] и белков, полученных экспериментально.
+
экспериментальных данных по структуре биологических макромолекул белков и нуклеиновых кислот с целью получения биологически значимой информации. Основные усилия исследователей в этой области направлены на изучение [[геном]]ов, анализ и распознавание (менее приемлемый термин "предсказание") структуры [[белок|белков]], анализ и распознавание ("предсказание") взаимодействий молекул белков различных типов друг с другом и др.
-
Термины ''биоинформатика'' и «[[вычислительная биология]]» часто употребляются как синонимы, хотя последний чаще указывает на разработку алгоритмов и конкретные вычислительные методы. Считается, что не всякое использование вычислительных методов в биологии является биоинформатикой, например, математическое моделирование биологических процессов — это не биоинформатика.
+
Термины ''биоинформатика'' и «[[вычислительная биология]]» часто употребляются как синонимы, хотя каждый автор в данной области придумывает, как правило, свои собственные определения для каждого. Иногда считают, что не всякое использование вычислительных методов в биологии является биоинформатикой, например, математическое моделирование биологических процессов — это не биоинформатика.
== Основные области исследований ==
== Основные области исследований ==
=== Анализ генетических последовательностей ===
=== Анализ генетических последовательностей ===
-
C тех пор как в 1977 году был [[Секвенирование|секвенирован]] фаг Phi-X174, [[Генетический код|последовательности ДНК]] всё большего числа организмов были дешифрованы и сохранены в базах данных. Эти данные используются для определения последовательностей [[Белок|белков]] и регуляторных участков. Сравнение генов в рамках одного или разных видов может продемонстрировать сходство функций белков или отношения между видами (таким образом могут быть составлены филогенетические деревья). С возрастанием количества данных уже давно стало невозможным вручную анализировать последовательности. В наши дни для поиска по [[геном]]ам тысяч организмов, состоящих из миллиардов пар [[нуклеотид]]ов используются компьютерные программы. Программы могут однозначно сопоставить («выровнять») похожие последовательности ДНК в геномах разных видов; часто такие последовательности несут сходные функции, а различия возникают в результате мелких мутаций, таких как замены отдельных нуклеотидов, вставки нуклеотидов, и их «выпадения» (делеции). Один из вариантов такого выравнивания применяется при самом процессе секвенирования. Так называемая техника «дробного секвенирования» (которая была, например, использована [[Институт генетических исследований|Институтом Генетических Исследований]] для секвенирования первого бактериального генома, ''Haemophilus influenzae'') вместо полной последовательности нуклеотидов даёт последовательности коротких фрагментов ДНК (каждый длиной около 600—800 нуклеотидов). Концы фрагментов накладываются друг на друга и, совмещённые должным образом, дают полный геном. Такой метод быстро даёт результаты секвенирования, но сборка фрагментов может быть довольно сложной задачей для больших геномов. В проекте по расшифроке генома человека сборка заняла несколько месяцев компьютерного времени. Сейчас этот метод применяется для практически всех геномов, и алгоритмы сборки геномов являются одной из острейших проблем биоинформатики на сегодняшний момент.
+
Начиная с середины 1970-х, было поределено более 100 млн нуклеотидных последовательностей генов различных организмов. Эти данные используются для определения последовательностей [[Белок|белков]] и регуляторных участков. Сравнение генов в рамках одного или разных видов может продемонстрировать сходство функций белков или отношения между видами (таким образом могут быть составлены филогенетические деревья). С возрастанием количества данных уже давно стало невозможным вручную анализировать последовательности. В наши дни для поиска по [[геном]]ам тысяч организмов, состоящих из миллиардов пар [[нуклеотид]]ов используются компьютерные программы. Программы могут однозначно сопоставить («выровнять») похожие последовательности ДНК в геномах разных видов; часто такие последовательности несут сходные функции, а различия возникают в результате мелких мутаций, таких как замены отдельных нуклеотидов, вставки нуклеотидов, и их «выпадения» (делеции). Один из вариантов такого выравнивания применяется при самом процессе секвенирования. Так называемая техника «дробного секвенирования» (которая была, например, использована [[Институт генетических исследований|Институтом Генетических Исследований]] для секвенирования первого бактериального генома, ''Haemophilus influenzae'') вместо полной последовательности нуклеотидов даёт последовательности коротких фрагментов ДНК (каждый длиной около 600—800 нуклеотидов). Концы фрагментов накладываются друг на друга и, совмещённые должным образом, дают полный геном. Такой метод быстро даёт результаты секвенирования, но сборка фрагментов может быть довольно сложной задачей для больших геномов. В проекте по расшифроке генома человека сборка заняла несколько месяцев компьютерного времени. Сейчас этот метод применяется для практически всех геномов, и алгоритмы сборки геномов являются одной из острейших проблем биоинформатики на сегодняшний момент.
Другим примером применения компьютерного анализа последовательностей является автоматический поиск генов и регуляторных последовательностей в геноме. Не все нуклеотиды в геноме используются для задания последовательностей белков. Например, в геномах высших организмов, большие сегменты ДНК явно не кодируют белки и их функциональная роль неизвестна. Разработка алгоритмов выявления кодирующих белки участков генома является важной задачей современной биоинформатики.
Другим примером применения компьютерного анализа последовательностей является автоматический поиск генов и регуляторных последовательностей в геноме. Не все нуклеотиды в геноме используются для задания последовательностей белков. Например, в геномах высших организмов, большие сегменты ДНК явно не кодируют белки и их функциональная роль неизвестна. Разработка алгоритмов выявления кодирующих белки участков генома является важной задачей современной биоинформатики.
Строка 17: Строка 17:
=== Аннотация геномов ===
=== Аннотация геномов ===
-
В контексте [[Геномика|геномики]] '''аннотация''' — процесс маркировки генов и других объектов в последовательности ДНК. Первая программная система аннотации геномов была создана в 1995 году Оуэном Уайтом (Owen White), работавшим в команде, секвенировавшей и проанализировавшей первый декодированный геном свободноживущего организма, бактерии ''Haemophilus influenzae'' (палочка Пфайфера). Доктор Уайт построил систему для нахождения генов, тРНК и других объектов ДНК и сделал первые обозначения функций этих генов. Большинство современных систем работают сходным образом, но эти программы постоянно развиваются и улучшаются.
+
В контексте [[Геномика|геномики]] '''аннотация''' — процесс маркировки генов и других объектов в последовательности ДНК.
-
=== Вычислительная эволюционная биология ===
+
=== Основные программы сравнения аминокислотных и нуклеотидных последовательностей ===
-
 
+
-
[[Эволюционная биология]] исследует происхождение и появление биологических видов, также как их развитие с течением времени.
+
-
Информатика помогает эволюционным биологам в нескольких аспектах:
+
-
* изучать эволюцию большого числа организмов, измеряя изменения в их [[ДНК]], а не только в строении или физиологии;
+
-
* сравнивать целые [[геном]]ы (см. [[BLAST]]), что позволяет изучать более комплексные эволюционные события, такие как: [[дупликация генов]], [[латеральный перенос генов]], и предсказывать бактериальные специализирующие факторы;
+
-
* строить компьютерные модели популяций, чтобы предсказать поведение системы во времени;
+
-
* отслеживать появление публикаций, содержащих информацию о большом количестве видов.
+
-
 
+
-
=== Основные биоинформационные программы ===
+
* [http://www.sanger.ac.uk/Software/ACT/ ACT (Artemis Comparison Tool)] — геномный анализ
* [http://www.sanger.ac.uk/Software/ACT/ ACT (Artemis Comparison Tool)] — геномный анализ
Строка 37: Строка 28:
* [[ClustalW]] — множественное выравнивание нуклеотидных и аминокислотных последовательностей
* [[ClustalW]] — множественное выравнивание нуклеотидных и аминокислотных последовательностей
* [[ClustalX]] — множественное выравнивание нуклеотидных и аминокислотных последовательностей
* [[ClustalX]] — множественное выравнивание нуклеотидных и аминокислотных последовательностей
-
* [http://www.ub.es/dnasp/ DnaSP] — анализ полиморфизма последовательностей ДНК
 
* [http://www.ebi.ac.uk/Tools/fasta/index.html FASTA] — набор алгоритмов определения схожести нуклеотидных и аминокислотных последовательностей
* [http://www.ebi.ac.uk/Tools/fasta/index.html FASTA] — набор алгоритмов определения схожести нуклеотидных и аминокислотных последовательностей
-
* [http://tree.bio.ed.ac.uk/software/figtree/ FigTree] — редактор филогенетических деревьев
 
-
* [ftp://ftp.cefe.cnrs.fr/ Genepop] — популяционно-генетический анализ
 
-
* [http://www.univ-montp2.fr/~genetix/genetix/genetix.htm Genetix] — популяционно-генетический анализ (программа доступна только на французском языке)
 
* [http://www.jalview.org JalView] — редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей
* [http://www.jalview.org JalView] — редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей
-
* [http://phylogeny.arizona.edu/macclade/macclade.html MacClade] — коммерческая программа для интерктивного эволюционного анализа данных
 
-
* [http://www.megasoftware.net MEGA] — молекулярно-эволюционный генетический анализ
 
* [http://mesquiteproject.org Mesquite] — программа для сравнительной биологии на языке Java
* [http://mesquiteproject.org Mesquite] — программа для сравнительной биологии на языке Java
* [http://www.drive5.com/muscle/ Muscle] — множественное сравнение нуклеотидных и аминокислотных последовательностей. Более быстрая и точная по сравнению с [[ClustalW]]
* [http://www.drive5.com/muscle/ Muscle] — множественное сравнение нуклеотидных и аминокислотных последовательностей. Более быстрая и точная по сравнению с [[ClustalW]]
-
* [http://paup.csit.fsu.edu/ PAUP] — филогенетический анализ с использованием метода парсимонии (и других методов)
 
-
* [[PHYLIP]] — пакет филогенетических программ
 
-
* [http://pbil.univ-lyon1.fr/software/phylowin.html Phylo_win] — филогенетический анализ. Программа имеет графический интерфейс.
 
* [http://www.ualberta.ca/~fyeh/index.htm PopGene] — анализ генетического разнообразия популяций
* [http://www.ualberta.ca/~fyeh/index.htm PopGene] — анализ генетического разнообразия популяций
* [http://bioinformatics.org/~tryphon/populations/ Populations] — популяционно-генетический анализ
* [http://bioinformatics.org/~tryphon/populations/ Populations] — популяционно-генетический анализ
-
* [http://pbil.univ-lyon1.fr/software/seaview.html Seaview] — филогенетический анализ (с графическим интерфейсом)
 
-
* [[Sequin]] — депонирование последовательностей в [[GenBank]], [[EMBL]], [[DDBJ]]
 
-
* [http://www.splitstree.org SplitsTree]
 
-
* [http://igs-server.cnrs-mrs.fr/~cnotred/Projects_home_page/t_coffee_home_page.html T-Coffee] — множественное прогрессивное выравнивание нуклеотидных и аминокислотных последовательностей. Более чувствительное, чем в [[ClustalW]]/[[ClustalX]].
 
<!--
<!--
Строка 73: Строка 51:
== Ссылки ==
== Ссылки ==
<!--
<!--
-
* Major Societies
 
-
** [http://www.iscb.org/ The International Society for Computational Biology]
 
* Major Organizations
* Major Organizations
-
** [http://bioinformatics.org/ The Bioinformatics Organization (Bioinformatics.Org)]
+
** [http://www.iscb.org/ The International Society for Computational Biology]
** [http://www.embnet.org/ EMBnet is a science-based group of collaborating nodes throughout Europe and a number of nodes outside Europe]
** [http://www.embnet.org/ EMBnet is a science-based group of collaborating nodes throughout Europe and a number of nodes outside Europe]
** [http://www.cbse.ucsc.edu/ Center for Biomolecular Science and Engineering]
** [http://www.cbse.ucsc.edu/ Center for Biomolecular Science and Engineering]
Строка 85: Строка 61:
** [http://www.ncbi.nlm.nih.gov/ National Center for Biotechnology Information]
** [http://www.ncbi.nlm.nih.gov/ National Center for Biotechnology Information]
** [http://www.open-bio.org/ Open Bioinformatics Foundation: umbrella non-profit organization supporting certain open-source projects in bioinformatics]
** [http://www.open-bio.org/ Open Bioinformatics Foundation: umbrella non-profit organization supporting certain open-source projects in bioinformatics]
-
** [http://ncbo.us National Center for Biomedical Ontology]
 
-->
-->
Строка 91: Строка 66:
* [http://www.bioinformatix.ru/ bioinformatix.ru — Биоинформатика, геномика, протеомика, биософт, имэйджинг — портал по биоинформатике, имейджингу и биософту]
* [http://www.bioinformatix.ru/ bioinformatix.ru — Биоинформатика, геномика, протеомика, биософт, имэйджинг — портал по биоинформатике, имейджингу и биософту]
* [http://www.bionet.nsc.ru/labs/theorylabmain/index.php Лаборатория теоретической генетики в ИЦиГ СО РАН]
* [http://www.bionet.nsc.ru/labs/theorylabmain/index.php Лаборатория теоретической генетики в ИЦиГ СО РАН]
-
* [http://www.iscb.org/ Международное сообщество вычислительной биологии]
 
* [http://www.molbiol.ru/ Русскоязычный портал молекулярных биологов]
* [http://www.molbiol.ru/ Русскоязычный портал молекулярных биологов]
-
* [http://www.rusbiotech.ru/ Российские биотехнологии и биоинформатика]
 
* [http://www.jcbi.ru/bio/index.shtml Объединённый центр вычислительной биологии и биоинформатики]
* [http://www.jcbi.ru/bio/index.shtml Объединённый центр вычислительной биологии и биоинформатики]
* [http://www.bionet.nsc.ru/ Институт цитологии и генетики СО РАН]
* [http://www.bionet.nsc.ru/ Институт цитологии и генетики СО РАН]
Строка 99: Строка 72:
* [http://www.impb.ru/ Институт математических проблем биологии РАН]
* [http://www.impb.ru/ Институт математических проблем биологии РАН]
* [http://www.genebee.msu.su/ Институт физико-химической биологии им. Белозёрского]
* [http://www.genebee.msu.su/ Институт физико-химической биологии им. Белозёрского]
-
* [http://www.fbb.msu.ru/ Факультет биоинформатики и биоинженерии МГУ им. Ломоносова]
 
-
* [http://bioinform.genetika.ru/indexrus.htm Лаборатория биоинформатики в ГосНИИ Генетика]
 
* [http://www.biengi.ac.ru/analyz.htm Биоинформатика в Центре «Биоинженерия» РАН]
* [http://www.biengi.ac.ru/analyz.htm Биоинформатика в Центре «Биоинженерия» РАН]
* [http://www.sp2000.org/ Проект «Виды 2000»].
* [http://www.sp2000.org/ Проект «Виды 2000»].
-
* ''Дьяконов В. П., Круглов В. В.'' MATLAB 6.5 SP1, 7/7 SP1./7 SP2 + Simulink 5/6. Инструменты искусственного интеллекта и биоиформатики. М.: СОЛОН-ПРесс,2006, 456 с.
 
-
* ''М. С. Гельфанд.'' [http://elementy.ru/lib/430895 Что может биоинформатика] // Химия и жизнь. № 9, 2009.
 
== См. также ==
== См. также ==
-
* [http://ru.wikipedia.org/wiki/%D0%91%D0%B8%D0%BE%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%82%D0%B8%D0%BA%D0%B0 Биоинформатика] — статья из Википедии, свободной энциклопедии.
 
* [http://ru.wikipedia.org/wiki/%D0%92%D1%8B%D1%87%D0%B8%D1%81%D0%BB%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F_%D0%B1%D0%B8%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F Вычислительная биология] — статья из Википедии, свободной энциклопедии.
* [http://ru.wikipedia.org/wiki/%D0%92%D1%8B%D1%87%D0%B8%D1%81%D0%BB%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F_%D0%B1%D0%B8%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F Вычислительная биология] — статья из Википедии, свободной энциклопедии.
[[Категория:Биоинформатика]]
[[Категория:Биоинформатика]]

Версия 18:48, 9 мая 2010

Биоинформа́тика — в настоящее время, данным термином обозначаются любые попытки биологов ввести обобщения эвристического толка на гигантские массивы биологических данных. До недавнего времени (2000-2002г), под биоинформатикой подразумевалось, в большинстве случаев, использование процедур сравнения символьных последовательностей (аминокислотные последовательности белков, нуклеотидные последовательности ДНК и РНК). После публикации последовательности генома человека в начале 2000-х годов стало ясно, что сравнение символьных последовательностей само по себе не позволяет дать ответ на вопросы о функции генов и белков. Поэтому, сейчас происходит разворот в сторону более широкого понимания биоинформатики как "менеджмента разнородных биологических данных" (см. https://www.novapublishers.com/catalog/product_info.php?products_id=4277).

Содержание

Терминология

Лексический анализ слова "биоинформатика" указывает на приставку "био-" (от греч. "жизнь") и слово "информатика" (термин, вполне понятный для посетителей сайта machinelearning.ru). Однако, как это не парадоксально, "биоинформатика" (англ. bioinformatics), до недавнего времени, не имела практически ничего общего с "информатикой" (англ. "computer science"). В этом легко убедится, проведя поиски по этим ключевым словам в базах данных публикаций по всем областям биологии, включая биоинформатику. В базе данных MEDLINE содержится почти 20 млн абстрактов (см. http://www.ncbi.nlm.nih.gov/sites/entrez). В среде биологов, под биоинформатикой понимают использование компьютеров для обработки экспериментальных данных по структуре биологических макромолекул белков и нуклеиновых кислот с целью получения биологически значимой информации. Основные усилия исследователей в этой области направлены на изучение геномов, анализ и распознавание (менее приемлемый термин "предсказание") структуры белков, анализ и распознавание ("предсказание") взаимодействий молекул белков различных типов друг с другом и др.

Термины биоинформатика и «вычислительная биология» часто употребляются как синонимы, хотя каждый автор в данной области придумывает, как правило, свои собственные определения для каждого. Иногда считают, что не всякое использование вычислительных методов в биологии является биоинформатикой, например, математическое моделирование биологических процессов — это не биоинформатика.

Основные области исследований

Анализ генетических последовательностей

Начиная с середины 1970-х, было поределено более 100 млн нуклеотидных последовательностей генов различных организмов. Эти данные используются для определения последовательностей белков и регуляторных участков. Сравнение генов в рамках одного или разных видов может продемонстрировать сходство функций белков или отношения между видами (таким образом могут быть составлены филогенетические деревья). С возрастанием количества данных уже давно стало невозможным вручную анализировать последовательности. В наши дни для поиска по геномам тысяч организмов, состоящих из миллиардов пар нуклеотидов используются компьютерные программы. Программы могут однозначно сопоставить («выровнять») похожие последовательности ДНК в геномах разных видов; часто такие последовательности несут сходные функции, а различия возникают в результате мелких мутаций, таких как замены отдельных нуклеотидов, вставки нуклеотидов, и их «выпадения» (делеции). Один из вариантов такого выравнивания применяется при самом процессе секвенирования. Так называемая техника «дробного секвенирования» (которая была, например, использована Институтом Генетических Исследований для секвенирования первого бактериального генома, Haemophilus influenzae) вместо полной последовательности нуклеотидов даёт последовательности коротких фрагментов ДНК (каждый длиной около 600—800 нуклеотидов). Концы фрагментов накладываются друг на друга и, совмещённые должным образом, дают полный геном. Такой метод быстро даёт результаты секвенирования, но сборка фрагментов может быть довольно сложной задачей для больших геномов. В проекте по расшифроке генома человека сборка заняла несколько месяцев компьютерного времени. Сейчас этот метод применяется для практически всех геномов, и алгоритмы сборки геномов являются одной из острейших проблем биоинформатики на сегодняшний момент.

Другим примером применения компьютерного анализа последовательностей является автоматический поиск генов и регуляторных последовательностей в геноме. Не все нуклеотиды в геноме используются для задания последовательностей белков. Например, в геномах высших организмов, большие сегменты ДНК явно не кодируют белки и их функциональная роль неизвестна. Разработка алгоритмов выявления кодирующих белки участков генома является важной задачей современной биоинформатики.

Биоинформатика помогает связать геномные и протеомные проекты, к примеру, помогая в использовании последовательности ДНК для идентификации белков.

Аннотация геномов

В контексте геномики аннотация — процесс маркировки генов и других объектов в последовательности ДНК.

Основные программы сравнения аминокислотных и нуклеотидных последовательностей

  • ACT (Artemis Comparison Tool) — геномный анализ
  • Arlequin — анализ популяционно-генетических данных
  • BioEdit — редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей
  • BioNumerics — коммерческий универсальный пакет программ
  • BLAST — поиск родственных последовательностей в базе данных нуклеотидных и аминокислотных последовательностей
  • ClustalW — множественное выравнивание нуклеотидных и аминокислотных последовательностей
  • ClustalX — множественное выравнивание нуклеотидных и аминокислотных последовательностей
  • FASTA — набор алгоритмов определения схожести нуклеотидных и аминокислотных последовательностей
  • JalView — редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей
  • Mesquite — программа для сравнительной биологии на языке Java
  • Muscle — множественное сравнение нуклеотидных и аминокислотных последовательностей. Более быстрая и точная по сравнению с ClustalW
  • PopGene — анализ генетического разнообразия популяций
  • Populations — популяционно-генетический анализ


Ссылки

См. также

Личные инструменты