Краткий экскурс в историю становления биоинформатики
1968 - Нобелевская премия по физиологии и медицине
Первый отсеквенированный геном
Human Genome Project
Next Generation Sequencing, or NextGenSeq, or NGS
NextGen Sequencing Revolution
Next Generation Sequencing
Data Accumulation
ENCODE: Encyclopedia of DNA Elements
Machine-Learning for cracking the codes
Epigenetic code
2005-2015 много статей по распознаванию функциональных элементов генома методами “классического” машинного обучения
Deep Learning
Convolution Neural Network
DNA as picture?
2019 - 2024
DNA Computing
HAMILTONIAN PATH PROBLEM
DNA Polymerase
Polymerase in Action
DNA encoding of city-network
DNA Experiment Set-up
How Dense is the Information Storage?
How enormous is the parallelism?
How extraordinary is the energy efficiency?
Сomputer that ‘grows as it computes’
Nondeterministic universal Turing machine (NUTM)
A universal Thue system.
DNA computing.
Implementation of a DNA NUTM
Human disease-gene networks
Нобелевская премия по физиологии и медицине
19.86M
Категория: БиологияБиология

Краткий экскурс в историю становления биоинформатики

1.

Школа «Науки о данных»
Трек «Биоинформатика» 25-26 апреля

2. Краткий экскурс в историю становления биоинформатики

• Для биолога
Ряд Нобелевских
• Для биоинформатика
премий 1950-1970

3.

Вторичная структура – альфа-спираль и бета-лист
Нобелевская премия по химии 1954
Лайнус Полинг
Белки - текст,
написанный на
алфавите
Из 20 букв
Альфа-субъединица АТФ-синтетазы

4.

Вторичная структура ДНК - спираль
Нобелевская премия по физиологии и медицине 1962
Геном - текст,
написанный на
алфавите
из 4 букв
Лайнус Полинг - Нобелевская
премия мира 1962 г.

5. 1968 - Нобелевская премия по физиологии и медицине

Ниренберг, Хорана,
Холли
Соответствие между
4-буквенным и 20буквенным
алфавитами

6.

Рождение технологий

7.

Метод секвенирования Сэнгера
1992 г
Нобелевская премия по химии 1980 г.
• 1977 год
Начал с получения полной
аминокислотной
последовательности инсулина в
1951-52
The Wellcome Trust Sanger Institute, 1992

8. Первый отсеквенированный геном

• 1995 г.
бактерия Haemophilus
influenzae –гемофильная
палочка или палочка
Пфейфера
5 Mb

9. Human Genome Project

• Started in 1990
• Finished 2001/2003
• Sanger Sequencing
3 Gb

10.

11. Next Generation Sequencing, or NextGenSeq, or NGS

12.

13.

14. NextGen Sequencing Revolution

To print is more expensive than to sequence
Human genome –
130 Volumes, double-sided,
4pt, ~ 43,000 chars per page

15. Next Generation Sequencing


DNA-seq
RNA-seq
Chip-Seq
MNase-Seq
Hi-C
Massive parallel sequencing
1 million to 43 billion short reads per instrument run

16. Data Accumulation

17. ENCODE: Encyclopedia of DNA Elements

And many more

18.

Relationship
of figure
panels
highlights
data set
dimensions

19. Machine-Learning for cracking the codes

20.

Nature 2006

21.

Nature 2010

22. Epigenetic code

Nature 2010

23. 2005-2015 много статей по распознаванию функциональных элементов генома методами “классического” машинного обучения

24. Deep Learning

25. Convolution Neural Network

26. DNA as picture?

Nature Methods volume 12, pages 931–934 (2015)
Nature 2015

27.

DeepBind
nature biotechnology 2015

28.

29.

30.

Not just
one hot encoding
Bioinformatics, 2016

31.

Plus
structure
information
Bioinformatics, 2018,

32.

Filter information
extraction

33.

The Inception
architecture
of GoogLeNet
Bioinformatics,
2018

34.

35.

36. 2019 - 2024

• Take the best solution from AI several years
later it was introduced in non-biological area
image recognition
language recognition
language translation (RNN)
• Apply it to the DNA

37. DNA Computing

38.

• Basic Idea:
–Perform molecular biology
experiment to find solution
to math problem.

39. HAMILTONIAN PATH PROBLEM

• Given a network of nodes and directed
connections between them, is there a path
through the network that begins with the start
node and concludes with the end node visiting
each node only once (“Hamiltonian path")?
• “Does a Hamiltonian path exist, or not?”

40.

Hamiltonian path does exist!
End city
Detroit
Chicago
Boston
Start city
Atlanta

41.

Hamiltonian path does not exist!
Start city
Detroit
Chicago
Boston
End city
Atlanta

42. DNA Polymerase

• - Protein that produces complementary
DNA strand
• - A -> T, T -> A, C -> G, G -> C
• - Enables DNA to reproduce
A
G
T
T
C
G
A
A
C
G
DNA
Polymerase
T
A
T
C
G
G
A
T

43. Polymerase in Action

• The “bio” nanomachine:
– hops onto DNA strand
– slides along
– reads each base
– writes its complement
onto new strand

44.

CITY
DNA NAME
ATLANTA
ACTTGCAG
BOSTON
TCGGACTG
CHICAGO
GGCTATGT
DETROIT
CCGAGCAA
CONNECTING PATH
ATLANTA-BOSTON
ATLANTA-DETROIT
BOSTON-CHICAGO
BOSTON-DETROIT
BOSTON-ATLANTA
CHICAGO-DETROIT
COMPLEMENT
TGAACGTC
AGCCTGAC
CCGATACA
GGCTCGTT
DNA PATH
GCAGTCGG
GCAGCCGA
ACTGGGCT
ACTGCCGA
ACTGACTT
ATGTCCGA

45. DNA encoding of city-network

Boston
Atlanta
Atlanta -Boston
GCAGTCGG
TGAACGTC AGCCTGAC
Atlanta
Boston

46.

End city
Detroit
Chicago
Boston
Start city
Atlanta
Atlanta-Boston Boston-Chicago Chicago-Detroit
Atlanta*
Boston*
Chicago*
Detroit*

47.

End city
Detroit
Chicago
Boston
Start city
Atlanta
Boston-Atlanta
Boston*
Atlanta-Detroit
Atlanta*
Detroit*

48. DNA Experiment Set-up

Ingredients and tools needed:
• - DNA strands that encode city names and
connections between them
• - Ligase, water, salt, other ingredients
• - Polymerase chain reaction (PCR) set
• - Gel electrophoresis tool (that filters out
non-solution strands)

49. How Dense is the Information Storage?

• Nucleotides are spaced at 0.35 nm along DNA
• data density is over a 1 mln Gbits/inch
• 7 Gbits/inch in typical high performance HDD.
Deepthi Bollu
49

50. How enormous is the parallelism?

• A test tube of DNA can contain trillions of strands.
Each operation on a test tube of DNA is carried out
on all strands in the tube in parallel !
Deepthi Bollu
50

51. How extraordinary is the energy efficiency?

• Adleman figured his computer was running
2 x 1019 operations per joule.
Deepthi Bollu
51

52. Сomputer that ‘grows as it computes’

2017

53.

Nondeterministic universal Turing machine (NUTM)
“Here, we demonstrate the first physical design of an NUTM”

54. Nondeterministic universal Turing machine (NUTM)

• Electronic computers need to choose which
path to follow first.
• DNA computer doesn’t need to choose, it
follows both paths at the same time.
• Quantum computers can also follow both
paths, but only if the maze has certain
symmetries, which greatly limits their use.

55. A universal Thue system.

Аксель Туэ (Axel Thue)
1863-1922
The application of a Thue rule
to a string therefore produces
a new string — equivalent to
change of state in a UTM.
Turing machines can be
viewed as rewrite systems

56. DNA computing.

57. Implementation of a DNA NUTM

14 paralleling executing processors (one each for both direction of the seven Thue
rules) and a mixing vessel.

58.

“As DNA molecules are very small a desktop
computer could potentially utilize more
processors than all the electronic computers in
the world combined - and therefore outperform
the world’s current fastest supercomputer, while
consuming a tiny fraction of its energy.”

59.

60. Human disease-gene networks

61.

Рэй Курцвейл

62.

• 2020 – Персональные компьютеры
достигнут вычислительной мощности,
сравнимой с человеческим мозгом.
• …
• 2028 – Солнечная энергия станет
настолько дешевой и распространенной,
что будет удовлетворять всей суммарной
энергетической потребности человечества.
• …
• 2033 – Самоуправляемые автомобили
заполнят дороги.

63.

• 2036 – Используя подход к биологии, как к
программированию, человечеству впервые
удастся запрограммировать клетки для
лечения болезней, а использование 3Dпринтеров позволит выращивать новые ткани и
органы.
• 2037 – Гигантский прорыв в понимании тайны
человеческого мозга. Некоторые из алгоритмов
будут расшифрованы и включены в
нейронные сети компьютеров.

64. Нобелевская премия по физиологии и медицине

• 203X год - за открытие
алгоритмов работы генома
• 203X год – за
программирование клеток

65.

Спасибо за внимание
English     Русский Правила