презентация маркович

1.

scikit-learn
Библиотека машинного обучения
Дисциплина: Интеллектуальные информационные системы
Студент: Демчук Сергей

Общие сведения о scikit-learn
Библиотека машинного обучения на Python
Основана на NumPy, SciPy, Matplotlib
Открытая и бесплатная
Ориентирована на практическое применение
Используется в Data Mining и ML

3.

Основные возможности
Классификация
Регрессия
Кластеризация
Снижение размерности
Оценка качества моделей
Подготовка данных

4.

Архитектура и принципы работы
Единый интерфейс моделей
— обучение модели
— получение прогнозов
Модульная структура
Интеграция с pandas и NumPy

5.

Загрузка данных: встроенные датасеты
Модуль sklearn.datasets
Примеры наборов данных:
Iris
Digits
Wine
Использование для обучения и тестирования алгоритмов

6.

Загрузка данных из внешних источников
Загрузка CSV, Excel через pandas
Преобразование в массивы NumPy
Работа с табличными и числовыми данными
Разделение признаков и целевой переменной

7.

Подготовка данных к анализу
Очистка данных
Обработка пропусков
Масштабирование признаков
Кодирование категориальных данных
Обязательный этап перед обучением моделей

8.

Модуль sklearn.preprocessing
StandardScaler — стандартизация
MinMaxScaler — нормализация
LabelEncoder, OneHotEncoder
Повышение качества и стабильности моделей

9.

Модуль sklearn.impute
Работа с пропущенными значениями
Класс SimpleImputer
Стратегии:
Среднее значение
Медиана
Наиболее частое значение
Предотвращение ошибок обучения

10.

Построение моделей анализа данных
Этапы:
Создание модели
Обучение (fit)
Получение прогнозов (predict)

11.

Методы predict, predict_proba, score
— предсказание класса или значения
— вероятности классов
— встроенная оценка качества модели
Использование для анализа результатов

12.

Оценка качества моделей (sklearn.metrics)
Основные метрики:
Accuracy, Precision, Recall
F1-score, Confusion Matrix
Выбор метрики зависит от задачи

13.

Спасибо за внимание!
Вопросы?
scikit-learn — мощный инструмент для машинного обучения

English Русский Правила