5.24M

Элементы биоинформатики

1.

Элементы
биоинформатики
Осень 2025

2.

Павел Аркадьевич Певзнер —
советский и американский биоинформатик

3.

Научная задача.
Есть белок, который связывается с ДНК в определённых местах, у него есть
определённый мотив связывания длиной примерно 19 нуклеотидов, каждая
строка представляет собой участок ДНК - начало мотива +-200 нуклеотидов
(столбец V1000 - начало мотива).
Нужно предсказать переменную bind (TRUE/FALSE) — будет ли белок
связываться с ДНК в этом месте.
Для решения этой задачи используйте нейронные сети со свёрточной
архитектурой.
Данные для исследования выберите согласно своему варианту.

4.

5.

Поиск точки начала репликации на бактериальных
геномах
А - аденин
С - цитозин
G - гуамин
Т - тимин

6.

Фрэнсис Крик и Джеймс Уотсон внесли фундаментальный вклад
в развитие биологии, открыв структуру ДНК в 1953 году, что
положило начало современному пониманию генетики. Их работа
над моделью двойной спирали ДНК, опираясь на данные
рентгеновской дифракции Розалинд Франклин и Мориса Уилкинса,
определила механизм передачи наследственной информации и
стала основой для развития таких областей, как генная инженерия
и персонализированная медицина.

7.

Репликация генома является одной из важнейших задач, выполняемых в
клетке. Прежде чем клетка сможет делиться, она должна сначала
продублировать свой геном, чтобы каждая из двух дочерних клеток
унаследовала свою собственную копию.
В 1953 году Джеймс Уотсон и Фрэнсис Крик завершили свою статью о
двойной спирали ДНК известной фразой:
It has not escaped our notice that the specific pairing we have postulated
immediately suggests a possible copying mechanism for the genetic material.

8.

Комплементарные связи
А-Т
С-G
Пример
ATTCGT
TTAGCA

9.

10.

Репликативный белок А (RPA)
RPA — это главный белок, связывающий одноцепочечную ДНК (оцДНК), у
эукариот. Его можно назвать "швейцарским ножом" для управления
одноцепочечной ДНК, которая постоянно образуется во многих клеточных
процессах.
Основные функции RPA.
1. Репликация ДНК (главная роль, откуда и название)
2. Репарация (починка) ДНК
3. Рекомбинация
4. Сигнализация о повреждении ДНК и запуск клеточного ответа

11.

Бактериальный геном

12.

Фрагмент генома
AAGCTTACACATGAAAAGGAAACTATACAATTAAAGAAAACCAAAACCAAATT
AAGAAAGAAAAAAAAAGGAAAAAGATAATTAATTTTAAGAAATAATTAAAGAAT
TAACCAGAAAGGAAACTATGAAAGAATTAATAACAAAGAAAACCAAAAAGAAC
CAAAAGAAAAATTAAAGAAAATTGGAAAGAAACCAAGAAAGAAAATTAAAGAA
TTAAGAAAATTAAAAGGGGAAAACAAAGAAAGAAAACCAAGAAAACAAGAGAA
ATTAAATAAATGAAAAGAATAATTAAACCAGGAAACTATCCAAAACGAAAGAA
AGGAAAAGGAAAAAACCAAATTATTTAAAATAAAAAACCAAAATTTAACCTTCC
AAAACCCAAACCCAAGCAATAAAGGGGAAACTATAAAAAACCCAAAAAAAAAA
AGGAACAACAACAAAGGAAAAAGGAATTGAACCAATAACCCAAACCATACCC
CAAAAAAAGGAAAAAGGAGGAAACTATAAAAAGGAAAAAGGGGAAACCCCAA
AAGGAA

13.

Поиск девяти-мера
AAGCTTACACATGAAAAGGAAACTATACAATTAAAGAAAACCAAAACCAAATT
AAGAAAGAAAAAAAAAGGAAAAAGATAATTAATTTTAAGAAATAATTAAAGAAT
TAACCAGAAAGGAAACTATGAAAGAATTAATAACAAAGAAAACCAAAAAGAAC
CAAAAGAAAAATTAAAGAAAATTGGAAAGAAACCAAGAAAGAAAATTAAAGAA
TTAAGAAAATTAAAAGGGGAAAACAAAGAAAGAAAACCAAGAAAACAAGAGAA
ATTAAATAAATGAAAAGAATAATTAAACCAGGAAACTATCCAAAACGAAAGAA
AGGAAAAGGAAAAAACCAAATTATTTAAAATAAAAAACCAAAATTTAACCTTCC
AAAACCCAAACCCAAGCAATAAAGGGGAAACTATAAAAAACCCAAAAAAAAAA
AGGAACAACAACAAAGGAAAAAGGAATTGAACCAATAACCCAAACCATACCC
CAAAAAAAGGAAAAAGGAGGAAACTATAAAAAGGAAAAAGGGGAAACCCCAA
AAGGAA

14.

Поиск подстроки в строке.

15.

Алгоритм Рабина-Карпа. Идея.

16.

Полиномиальная хеш-функция.

17.

Полиномиальная хеш-функция. Пример.
Пусть P=5, x=2
hash(ATGTA)=(1·16+2·8+3·4+2·2+1) mod 5 = 4
Коды букв:
A→1→(1;0;0;0)
T→2→(0;1;0;0)
G→3→(0;0;1;0)
C→4→(0;0;0;1)

18.

Вычисление хеш-функции итеративно.

19.

20.

21.

Алгоритм Рабина-Карпа. Окончательная версия.

22.

Другие скрытые послания
k-меры образует (L,t) группу в геномной строке, если найдётся участок
генома длины L, в котором этот k-мер встречается t раз

23.

Подсчёт вхождения определённого нуклеотида в
фрагмент генома.

24.

Разность чисел вхождения гуанина и цитозина.

25.

Процесс репликации более подробно

26.

Мотив
Мотив (t,d) - это t-мерное слово, в котором разрешено замещение не более d
букв другими буквами.

27.

Циркадные ритмы

28.

Строка консенсус

29.

Минимизация оценочной функции мотивов.
Дано: множество строк, значение k длины k-мера. Нужно выбрать из каждой
строки мотив, так чтобы значение оценочной функции принимало
наименьшее значение.
Оценка времени работы алгоритма: (n-k+1)t · t · k, где
n - длина строки,
t - количество строк,
k - длина k-мера.

30.

Расстояние Хэмминга (англ. Hamming distance):
число позиций, в которых соответствующие символы двух слов
одинаковой длины различны.
Упражнение: докажите, что значение оценочной функции равно сумме
расстояний Хэмминга от от каждого элемента множества мотивов до
консенсуса.

31.

Медианная строка это k-мер, который доставляет минимум суммы расстояний от этого k-мера
до всех строк фрагмента. Расстояние от k-мера до строки вычисляется, как
сумма расстояний Хэмминга при скольжении заданного k-мера вдоль строки.
English     Русский Правила