Прогнозирование класса третичной структуры белка по первичной (пример)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Аннотация)
(ссылки)
 
(7 промежуточных версий не показаны.)
Строка 1: Строка 1:
== Аннотация ==
== Аннотация ==
-
Рассматривается задача классификации третичной структуры белка по первичной.
+
 
-
Для решения задачи применяется алгоритм "Метод ближайшего соседа".
+
Рассматривается задача классификации третичной структуры белка по его аминокислотной последовательности.
-
Подбираются и сравниваются параметры алгоритма.
+
Эта задача является актуальной проблемой [[Биоинформатика|биоинформатики]] последние 20 лет.
 +
В работе предлагается использовать для создания признакового описания частоты встречаемости аминокислот в последовательности первичной структуры белка.
 +
Для решения задачи применяется алгоритм «[[Метод ближайших соседей]]».
Построен график точности алгоритма с доверительными интервалами в зависимости от параметров предложенного алгоритма.
Построен график точности алгоритма с доверительными интервалами в зависимости от параметров предложенного алгоритма.
== Постановка задачи ==
== Постановка задачи ==
 +
Первичная структура белка представляет собой линейную цепь аминокислот, расположенных в определенной последовательности и соединенных между собой пептидными связями.
 +
 +
Дана последовательность аминокислот длины <tex>$N$</tex>,
 +
 +
<tex>$\{s_i\}_{i=1}^N,\;s_i \in A \$</tex>,
 +
 +
где <tex>$ A $</tex> — множество из двадцати аминокислот, которые кодируются уникальными буквами
 +
 +
<tex>$ A = \{a,\;r,\; d,\;n,\; v,\; h,\; g,\; e,\; q,\; i,\;,l,\; k,\;m,\; p,\; s,\; y,\;t,\; w,\; f,\; c\}.$</tex>
 +
 +
и метки классов третичной структуры белка
 +
 +
<tex>$ \{y_i\}_{i=1}^7,\;y_i\in Y = \{a,\;b,\;c,\;d,\;e,\;f,\;g\}.$</tex>.
 +
 +
Требуется определить класс третичной структуры по первичной новых белков.
== Данные ==
== Данные ==
-
Предлагается использовать базу данных "ASTRAL SCOP Genetic Domain Sequences 1.75"[http://astral.berkeley.edu/scopseq-1.75.html], архив PDB SEQRES records: astral-scopdom-seqres-gd-all-1.75.fa[http://astral.berkeley.edu/seq.cgi?get=scopdom-seqres-gd-all;ver=1.75]
+
Предлагается использовать базу данных «ASTRAL SCOP Genetic Domain Sequences 1.75» [http://astral.berkeley.edu/scopseq-1.75.html], архив PDB SEQRES records: astral-scopdom-seqres-gd-all-1.75.fa[http://astral.berkeley.edu/seq.cgi?get=scopdom-seqres-gd-all;ver=1.75]
-
Структура данных
+
Структура данных
>d1dlya_ a.1.1.1 (A:) Protozoan/bacterial hemoglobin {Green alga (Chlamydomonas eugametos) [TaxId: 3054]}
>d1dlya_ a.1.1.1 (A:) Protozoan/bacterial hemoglobin {Green alga (Chlamydomonas eugametos) [TaxId: 3054]}
slfaklggreaveaavdkfynkivadptvstyfsntdmkvqrskqfaflayalggasewk
slfaklggreaveaavdkfynkivadptvstyfsntdmkvqrskqfaflayalggasewk
gkdmrtahkdlvphlsdvhfqavarhlsdtltelgvppeditdamavvastrtevlnmpq
gkdmrtahkdlvphlsdvhfqavarhlsdtltelgvppeditdamavvastrtevlnmpq
-
* d1dlya_ -- идентификатор эксперимента (код файла в PDB),
+
* d1dlya_ — идентификатор эксперимента (код файла в PDB),
-
* a.1.1.1 -- классификатор белка, иерархическая структура разделена точками,
+
* a.1.1.1 — классификатор белка, иерархическая структура разделена точками,
-
* slfaklggreavea... -- последовательность аминокислот (без пробелов и переносов до символа >).
+
* slfaklggreavea… — последовательность аминокислот (без пробелов и переносов до символа >).
 +
 
 +
== Пути решения задачи ==
 +
Предлагается использовать в качестве признаков частоты повторения отдельных аминокислот.
 +
[[Изображение:MorozovKNN.png|1000px]]
 +
 
 +
[[Категория:Биоинформатика]]

Текущая версия

Содержание

Аннотация

Рассматривается задача классификации третичной структуры белка по его аминокислотной последовательности. Эта задача является актуальной проблемой биоинформатики последние 20 лет. В работе предлагается использовать для создания признакового описания частоты встречаемости аминокислот в последовательности первичной структуры белка. Для решения задачи применяется алгоритм «Метод ближайших соседей». Построен график точности алгоритма с доверительными интервалами в зависимости от параметров предложенного алгоритма.

Постановка задачи

Первичная структура белка представляет собой линейную цепь аминокислот, расположенных в определенной последовательности и соединенных между собой пептидными связями.

Дана последовательность аминокислот длины $N$,

$\{s_i\}_{i=1}^N,\;s_i \in A \$,

где $ A $ — множество из двадцати аминокислот, которые кодируются уникальными буквами

$ A = \{a,\;r,\; d,\;n,\; v,\; h,\; g,\; e,\; q,\; i,\;,l,\; k,\;m,\; p,\; s,\; y,\;t,\; w,\; f,\; c\}.$

и метки классов третичной структуры белка

$ \{y_i\}_{i=1}^7,\;y_i\in Y = \{a,\;b,\;c,\;d,\;e,\;f,\;g\}.$.

Требуется определить класс третичной структуры по первичной новых белков.

Данные

Предлагается использовать базу данных «ASTRAL SCOP Genetic Domain Sequences 1.75» [1], архив PDB SEQRES records: astral-scopdom-seqres-gd-all-1.75.fa[2]

Структура данных

>d1dlya_ a.1.1.1 (A:) Protozoan/bacterial hemoglobin {Green alga (Chlamydomonas eugametos) [TaxId: 3054]}
slfaklggreaveaavdkfynkivadptvstyfsntdmkvqrskqfaflayalggasewk
gkdmrtahkdlvphlsdvhfqavarhlsdtltelgvppeditdamavvastrtevlnmpq
  • d1dlya_ — идентификатор эксперимента (код файла в PDB),
  • a.1.1.1 — классификатор белка, иерархическая структура разделена точками,
  • slfaklggreavea… — последовательность аминокислот (без пробелов и переносов до символа >).

Пути решения задачи

Предлагается использовать в качестве признаков частоты повторения отдельных аминокислот.

Личные инструменты