1.01M

Предсказание магнитных свойств наночастиц для биомедицинских применений. Сбор данных

1.

Предсказание магнитных
свойств наночастиц для
биомедицинских применений
Сбор данных

2.

Работа с данными в ML проектах
Под сбором данных понимается непосредственно сбор данных из самых разных источников,
первичная обработка и анализ целевых показателей
Нужно четко понимать задачу, которую нам надо решить
Это помогает выбрать данные, которые необходимо собрать
Качество данных напрямую влияет на эффективность моделей МО
2

3.

Способы сбора данных
Как мы можем собирать данные?
- Публичные базы данных (PubChem, ChEMBL, ZINC, Protein Data Bank,
Crystallography Open Database) – пожалуй, лучший из имеющихся источников
- Лабораторный журнал – долго оцифровывать бумажки
- Инструментальные данные – редко когда сырые данные пригодны для
использования
- Опубликованные статьи – успешные кейсы
- Неопубликованные данные – неуспешные кейсы
- -Компьютерное моделирование (пример – методы Монте-Карло)
Основная проблема состоит в том, что данных огромное количество, однако систематизированных данных
меньше в разы
Поэтому публичные базы данных непригодны для определенных классов проблем (как например,
наночастицы
English     Русский Правила