Компьютерные методы анализа нуклеотидных последовательностей
Раздел дисциплины
Освежим свою память
Используемые форматы данных FASTA-формат
Буквенные обозначения нуклеотидов
Nexus файл
Nexus файл
GB-формат
GB-формат
GB-формат
379.50K
Категория: БиологияБиология

Компьютерные методы анализа нуклеотидных последовательностей

1. Компьютерные методы анализа нуклеотидных последовательностей

Бабкин Игорь Викторович
Тикунов Артем Юрьевич

2. Раздел дисциплины

• Методы изучения генома, основные понятия и
определения.
• Биоинформационные подходы, позволяющие
планировать эксперименты. Дизайн праймеров.
• Анализ данных секвенирования.
• Базы данных, извлечение и депонирование
информации. Поиск гомологичных
последовательностей.
• Выравнивания и филогенетические деревья.
• Определение функционально важных областей.
• Предсказание структуры и свойств
биополимеров.

3.

Основная литература:
1. И.В. Бабкин, Н.В. Тикунова, С.В. Нетесов. Компьютерные
методы анализа нуклеотидных последовательностей.
Новосибирский государственный университет, 2017.
2. Леск А. Введение в биоинформатику. Изд-во «Бином»,
Москва, 2009.
3. Игнасимуту С. Основы биоинформатики. Изд-во
«Регулярная и хаотичная динамика», Ижевск, 2007.
4. Лукашов В.В. Молекулярная эволюция и филогенетический
анализ. Изд-во «Бином», Москва, 2009.
Дополнительная литература:
1. Сетубал Ж., Мейданис Ж. Введение в вычислительную
молекулярную биологию. Изд-во «Регулярная и хаотичная
динамика», Ижевск, 2007.

4.

Полезные Интернет-сайты:
1. http://www.ncbi.nlm.nih.gov/
2. http://www.ebi.ac.uk/
3. http://web.expasy.org/
4. http://evolution.genetics.washington.edu/phylip/software.html#methods
5. http://blast.ncbi.nlm.nih.gov/Blast.cgi
6. http://mafft.cbrc.jp/alignment/server/index.html
7. http://unafold.rna.albany.edu/?q=mfold/DNA-Folding-Form
8. http://molbiol.ru/

5. Освежим свою память

• ДНК, РНК, нуклеотид, нуклеозид
• Основная парадигма молекулярной
биологии

6.

Терминология:
Вектор – самореплицирующая молекула ДНК (например, бактериальная плазмида),
используемая в генетической инженерии для переноса генов от организма-донора в
организм-реципиент, а также для клонирования нуклеотидных последовательностей
Выравнивание - процесс или результат согласования нуклеотидных или
аминокислотных остатков двух или более биологических последовательностей для
достижения максимальных уровней идентичности.
Глобальное выравнивание - выравнивание двух последовательностей нуклеиновых
кислот или белков по всей их длине.
Локальное выравнивание - выравнивание областей с высоким коэффициентом
сходства двух последовательностей нуклеиновых кислот или белков.
Гомология – сходство, объясняемое происхождением от общего предка. Гомологичные
биологические компоненты (гены, белки, структуры) называются гомологами.
Идентичность - доля одинаковых остатков в одинаковых положениях у двух
выровненных (нуклеотидных или аминокислотных) последовательностей, часто
выраженная в процентах.
Домен - дискретная часть белка, которая предположительно складывается независимо
от остальной части белка и обладает собственными функциями.
Контиг представляет собой набор перекрывающихся сегментов ДНК, которые в
совокупности представляют собой консенсусную область ДНК. В задаче сборки генома
контиги представляют собой продолжительные участки ДНК (строки из нуклеотидов),
полученные в процессе сборки.
Рид (read) – короткая секвенированная нуклеотидная последовательность.

7.


Современная молекулярная биология немыслима без привлечения
компьютеров. История
1202 г. — Леонардо Пизанский (Фибоначчи) опубликовал книгу «Liber
abaci», которая содержала решение задачи о размножении кроликов.
1925 и 1926 гг. — Вито Вольтерра и Альфред Лотка предложили
математическую модель совместного существования «хищник—жертва».
1950 г. — Пер Виктор Эдман предложил метод секвенирования пептидов.
1951 г. — Лайнус Полинг открыл белковую α-спираль, что ознаменовало
рождение новой науки — структурной биологии.
1953 г. — Джеймс Уотсон и Френсис Крик открыли структуру ДНК в форме
двух комплементарных цепей, образующих двойную спираль.
1953 г. — Первый расчет состояния идеализированной молекулярной
системы методом Монте-Карло.
1957 г. — Первый расчет молекулярной динамики идеализированной
молекулярной системы.
1964 г. — Первая система компьютерной визуализации молекул.
1967 г. — Создание метода самосогласованных силовых полей — основы
современной молекулярной динамики.

8.

• 1967 г. — Пер Эдман совместно с Джофри Бэггом создали первый
автоматический белковый секвенатор.
• 1970 г. — Полина Хогевег предложила термин «биоинформатика».
• 1970 г. — Первый алгоритм выравнивания последовательностей.
• 1975 г. — Фредерик Сенгер предложил первый метод секвенирования
ДНК.
• 1975 г. — Первая работа по изучению белок—белковых взаимодействий
с применением компьютеров.
• 1977 г. — Фредерик Сенгер опубликовал метод определения
последовательности ДНК, «метод терминаторов», который лег в основу
современного автоматического секвенирования в капиллярных
секвенаторах.
• 1977 г. — Секвенировали геном бактерифага φX-174 — первый полный
геном; первый случай использования «метода дробовика».
• 1977 г. — Первый расчет молекулярной динамики белковой глобулы.
• 1981 г. — Секвенировали митохондриальную ДНК человека: 16 659
нуклеотидных пар (п.н.).
• 1982 г. — Первая программа для молекулярного докинга.
• 1984 г. — Секвенировали геном вируса Эпштейна—Барр: 172 281 п.н.

9.

• 1986 г. — Первый автоматический ДНК-секвенатор (Applied Biosystems,
США).
• 1990 г. — Разработали программу BLAST.
• 1990 г. — Запустили международный проект «Геном человека».
• 1995 г. — Секвенировали первый бактериальный геном (Haemophilus
influenzae).
• 1996 г. — Полная последовательность генома дрожжей Saccharomyces
cerevisiae (первый геном эукариот).
• 1999 г. — Корпорация Celera закончила секвенирование генома
Drosophila melanogaster — самого «популярного» объекта в
молекулярной генетике.
• 1999 г. — Опубликовали полную последовательность одной из хромосом
человека.
• 2000 г. — Окончание секвенирования генома человека (в общих чертах).
• 2003 г. — Реальное окончание секвенирования генома человека.
• 2006 г. — Публикация полной последовательности последней
человеческой хромосомы: фактическое завершение проекта «Геном
человека».

10. Используемые форматы данных FASTA-формат

>Rattus_norvegicus | Rattus norvegicus heat shock 20kDa protein
(Loc192245), mRNA
GCAGGATGGAGATCCGGGTGCCTGTGCAGCCTTCTTGGCTGCGCCGTGCTTCAGCT
CCTTTACCGGGTTTTTCCACTCCGGGACGCCTCTTTGACCAGCGTTTCGGCGAAGG
GCTGCTTGAGGCAGAGCTGGCTTC
>Homo_sapiens | Homo sapiens cDNA FLJ32389 fis, clone SKMUS1000138,
highly similar to HEATSHOCK 20 KDA LIKEPROTEIN P20.
ACTGCAACGCGGAGGAGCAGGATGGAGATCCCTGTGCCTGTGCAGCCGTCTTGGC
TGCGCCGCGCCTCGGCCCCGTTGCCCGGACTTTCGGCGCCCGGACGCCTCTTTGAC
CAGCGCTTCGGCGAGGGGCTGCTG
>Mus_musculus | Mus musculus similar to heat shock 20kDa protein
(LOC243912), mRNA.
GGCAGCGTAGGAACAGGATGGAGATCCCCGTGCCTGTGCAGCCTTCTTGGCTGCGC
CGTGCTTCAGCTCCTTTACCAGGTTTCTCTGCTCCGGGACGCCTCTTTGACCA

11. Буквенные обозначения нуклеотидов

12. Nexus файл

#NEXUS
Begin data;
Dimensions ntax=4 nchar=15;
Format datatype=dna missing=? gap=-;
Matrix
Species1 atgctagctagctcg
Species2 atgcta??tag-tag
Species3 atgttagctag-tgg
Species4 atgttagctag-tag
;
End;

13. Nexus файл

Файлы данных Nexus всегда начинаются с символов #nexus, но
в остальном организованы в основные блоки. Некоторые
блоки распознаются большинством программ, использующих
формат файла Nexus, тогда как другие блоки являются
частными (распознаются только одной программой).
Блоки в свою очередь организованы в команды после которых
стоит точка с запятой . Очень важно помнить, что все
команды должны заканчиваться точкой с запятой .

14. GB-формат

15. GB-формат

16. GB-формат

English     Русский Правила