Выравнивания
Форматы файлов, используемых в биоинформатике
ClustalW
ClustalW
ClustalW
ClustalW - результат
http://www.ebi.ac.uk/Tools/msa/muscle/
Step 1
Step 2
Step 2 cont…
Step 3
Статистика выравнивания
Таблица
Задание на дом
Поиск консервативных участков глазами и руками
Система оценки - белки
Задание на дом
Задание на дом
Программы на http://www.expasy.org/tools/
Построение Logo Weblogo –
1 этап – определяем консервативный участок
2 этап – выбираем общее выравнивание этого участка
3 этап – запускаем WebLogo
4 этап – последовательности вставляем в окно
4 этап – последовательности вставляем в окно
5 этап – создание Logo
6 этап – готовый Logo
Можно поиграть с настройками (при желании)
Задание на дом
7.86M
Категория: ИнформатикаИнформатика

Выравнивания. Форматы файлов, используемых в биоинформатике

1. Выравнивания

2. Форматы файлов, используемых в биоинформатике

FASTA
>roa1_drome Rea guano receptor type III >> 0.1
MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDV
VVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVK
KLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQK
QHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNW
NNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGG
GGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGN
NQGFNNGGNNRRY
>roa2_drome Rea guano ligand
MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDV
VVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVK
KLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQK
QHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNW
NNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGG
GGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGN
NQGFNNGGNNRRY

3. ClustalW

• Очень известная и широко распространённая
программа: UNIX, Internet, Windows.
• Выполняет MSA; может строить филогенетические
деревья.
• Входной файл – формат multi-fasta.

4. ClustalW

• To fasta @ list
Making the file in unix
>IPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
>IPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input file:
Multi-fasta

5. ClustalW

CLUSTAL W (1.7) multiple sequence alignment
IPNS_STRJU
IPNS_STRGR
IPNS_FLASS
IPNS_PENCH
IPNS_CEPAC
-MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVV
-MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVV
----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFT
--MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKT
MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
*.** **:* * *.: . * :* *: *.* :***** :**:*: *. .
IPNS_STRJU
IPNS_STRGR
IPNS_FLASS
IPNS_PENCH
IPNS_CEPAC
NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIK
NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIR
TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIK
REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQ
NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
.:* :: :** :***.*** : : * *** .: *** **:*****.*. **. *:
Выходной файл: aln format
форматы
http://www.ebi.ac.uk/help/formats.html

6. ClustalW - результат

7. http://www.ebi.ac.uk/Tools/msa/muscle/

8. Step 1

9. Step 2

10. Step 2 cont…

11. Step 3

12.

13.

14.

15.

16.

17. Статистика выравнивания

18. Таблица

19. Задание на дом

Провести выравнивание последовательностей из файла
(Muscle)
Дать статистику выравнивания: описать, какие белки имеют
большее сходство (по результатам таблицы).
Найти участки консервативные (глазами и руками )

20. Поиск консервативных участков глазами и руками

Поиск консервативных
участков глазами и руками
CcL1A65
Cc1HFU_A
LacC_Trame
Tsp3KW7_A
LacB_Trame
LacD_Trame
Tt2HRH_A
TvL1KYA
Tv1KYA_A
Th3V9C
Th3FPX
LacA_Trame
LacE_Trame
TvL1GYC
Tv1GYC_A_A
GPDGVTQCPIAQSGDSFTYSFDAGNEAGTFWYHSHYGTQYCDGLRGPLVIYDDNDPYKNL
GADGVNQCPIS-PGHAFLYKFTPAGHAGTFWYHSHFGTQYCDGLRGPMVIYDDNDPHAAL
GPAFVTQCPII-AGNDFLYNFQVPDQTGTYWYHSHLATQYCDGLRGPLVIYDPHDPHKHL
GPAFVNQCPIA-SGNSFLYDFTVPDQAGTFWYHSHLSTQYCDGLRGPLVVYDPSDPYASM
GAAFVNQCPIA-SGNSFLYDFNVTDQAGTFWYHSHLSTQYCDGLRGPMVVYDPNDPHADL
GPAFVNQCPIA-SGNSFLYDFQVPDQAGTFWYHSHLSTQYCDGLRGAMVVYDPFDFQRHL
GPAFVNQCPIS-TGHAFLYDFQVPDQAGTFWYHSHLSTQYCDGLRGPIVVYDPQDPHKSL
GPAFINQCPIS-SGHSFLYDFQVPDQAGTFWYHSHLSTQYCDGLRGPFVVYDPNDPAADL
GPAFINQCPIS-SGHSFLYDFQVPDQAGTFWYHSHLSTQYCDGLRGPFVVYDPNDPAADL
GPAFINQCPIS-PGHSFLYDFQVPDQAGTFWYHSHLSTQYCDGLRGPFVVYDPNDPHASR
GPAFINQCPIS-PGHSFLYDFQVPDQAGTFWYHSHLSTQYCDGLRGPFVVYDPNDPHASR
GPAFINQCPIS-PGHSFLYDFQVPDQAGTFWYHSHLSTQYCDGLRGPFVVYDPNDPHASR
GPAFVNQCPIA-SGHSFLYDFHVPDQAGTFWYHSHLSTQYCDGLRGPMVVYDPKDPQAYL
GPAFVNQCPIA-SGHSFLYDFHVPDQAGTFWYHSHLSTQYCDGLRGPFVVYDPKDPHASR
GPAFVNQCPIA-SGHSFLYDFHVPDQAGTFWYHSHLSTQYCDGLRGPFVVYDPKDPHASR
*. :.**** .* * *.*
. :**:***** .*********.:*:** *
«*» - строго одна и та же ак у всех последовательностей;
« . » - замена ак из одной функциональной категории
« : » - замена ак из разных функциональных категорий

21. Система оценки - белки

Category
Amino Acid
Кислоты\амиды
Asp (D) Glu(E) Asn (N) Gln (Q)
Основания
His (H) Lys (K) Arg (R)
Ароматические
Phe (F) Tyr (Y) Trp (W)
Гидрофильные
Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные
Ile (I) Leu (L) Met (M) Val (V)

22. Задание на дом

Провести выравнивание последовательностей из файла
(Muscle)
Дать статистику выравнивания:
Найти участки консервативные (глазами и руками )
Построить LOGO консервативных участков (Weblogo)
(не менее трех участков, а лучше все, какие найдете.

23. Задание на дом

Провести выравнивание последовательностей из файла
с использованием других программ:
T-coffee
ClustalW
ProbCons
Сравнить результаты выравнивания последовательностей
разными программами (есть ли отличия – сделать
и описать скриншоты вырваниваний)

24. Программы на http://www.expasy.org/tools/

25. Построение Logo Weblogo –

http://weblogo.berkeley.edu/

26. 1 этап – определяем консервативный участок

CcL1A65
Cc1HFU_A
LacC_Trame
Tsp3KW7_A
LacB_Trame
LacD_Trame
Tt2HRH_A
TvL1KYA
Tv1KYA_A
Th3V9C
Th3FPX
LacA_Trame
LacE_Trame
TvL1GYC
Tv1GYC_A_A
GPDGVTQCPIAQSGDSFTYSFDAGNEAGTFWYHSHYGTQYCDGLRGPLVIYDDNDPYKNL
GADGVNQCPIS-PGHAFLYKFTPAGHAGTFWYHSHFGTQYCDGLRGPMVIYDDNDPHAAL
GPAFVTQCPII-AGNDFLYNFQVPDQTGTYWYHSHLATQYCDGLRGPLVIYDPHDPHKHL
GPAFVNQCPIA-SGNSFLYDFTVPDQAGTFWYHSHLSTQYCDGLRGPLVVYDPSDPYASM
GAAFVNQCPIA-SGNSFLYDFNVTDQAGTFWYHSHLSTQYCDGLRGPMVVYDPNDPHADL
GPAFVNQCPIA-SGNSFLYDFQVPDQAGTFWYHSHLSTQYCDGLRGAMVVYDPFDFQRHL
GPAFVNQCPIS-TGHAFLYDFQVPDQAGTFWYHSHLSTQYCDGLRGPIVVYDPQDPHKSL
GPAFINQCPIS-SGHSFLYDFQVPDQAGTFWYHSHLSTQYCDGLRGPFVVYDPNDPAADL
GPAFINQCPIS-SGHSFLYDFQVPDQAGTFWYHSHLSTQYCDGLRGPFVVYDPNDPAADL
GPAFINQCPIS-PGHSFLYDFQVPDQAGTFWYHSHLSTQYCDGLRGPFVVYDPNDPHASR
GPAFINQCPIS-PGHSFLYDFQVPDQAGTFWYHSHLSTQYCDGLRGPFVVYDPNDPHASR
GPAFINQCPIS-PGHSFLYDFQVPDQAGTFWYHSHLSTQYCDGLRGPFVVYDPNDPHASR
GPAFVNQCPIA-SGHSFLYDFHVPDQAGTFWYHSHLSTQYCDGLRGPMVVYDPKDPQAYL
GPAFVNQCPIA-SGHSFLYDFHVPDQAGTFWYHSHLSTQYCDGLRGPFVVYDPKDPHASR
GPAFVNQCPIA-SGHSFLYDFHVPDQAGTFWYHSHLSTQYCDGLRGPFVVYDPKDPHASR
*. :.**** .* * *.*
. :**:***** .*********.:*:** *

27. 2 этап – выбираем общее выравнивание этого участка

GTFWYHSHLSTQYCDGLRGPL
GTFWYHSHLSTQYCDGLRGPI
GTFWYHSHLSTQYCDGLRGPF
GTFWYHSHLSTQYCDGLRGPF
GTFWYHSHLSTQYCDGLRGPF
GTFWYHSHFGTQYCDGLRGPM
GTFWYHSHLSTQYCDGLRGPF
GTFWYHSHLSTQYCDGLRGPM
GTYWYHSHLATQYCDGLRGPL
GTFWYHSHLSTQYCDGLRGAM
GTFWYHSHLSTQYCDGLRGPM

28. 3 этап – запускаем WebLogo

29. 4 этап – последовательности вставляем в окно

30. 4 этап – последовательности вставляем в окно

31. 5 этап – создание Logo

32. 6 этап – готовый Logo

33. Можно поиграть с настройками (при желании)

Можно поиграть с
настройками (при желании )

34. Задание на дом

Провести выравнивание последовательностей из файла
(разные программы Muscle, T-coffee, ClustalW, ProbCons)
- Сравнить результаты выравнивания,
полученные разными программами
- Сделать отдельный файл (Word) с результатами
выравнивания Muscle
- Описать результат (выделить области, имеющие
идентичность и сходство, где они локализованы)
Дать статистику выравнивания: описать, какие белки имеют
большее сходство (по результатам таблицы).
Построить LOGO консервативных участков (Weblogo)
(не менее трех участков, а лучше все, какие найдете.
Высылаете 2 файла – один в Word с результатами
выравнивания Muscle; второй – в ppt – остальные результаты
English     Русский Правила