Введение в машинное обучение и основные понятия
Основные понятия
Основные понятия
Технология машинного обучения – место технологии в сфере ИИ
DS vs. ML
Технология машинного обучения - Модель черного ящика
Какие задачи может решать МО? – Рекомендательные системы
Какие задачи может решать МО? – Обработка изображений
Какие задачи может решать МО? – Обработка текста
Какие задачи может решать МО? – Другие задачи
Чего не может машинное обучение?
Проблемы МО (1/3)
Проблемы МО (2/3)
Проблемы МО (3/3)
Выводы:
Данные в машинном обучении
Зачем и какие данные нужны в процессе МО?
Какие задачи решает МО?
Объекты и признаки
Данные в машинном обучении
Пример представления данных
Представление данных
Представление данных
Типы признаков
Упражнение
Характеристики признаков
Характеристики признаков
Характеристики признаков
Характеристики признаков
Характеристики признаков
Симметричные выборки
Характеристики признаков
Характеристики признаков
Пример: посчитаем отклонение
Коэффициент корреляции
Коэффициент корреляции
Коэффициент корреляции
Коэффициент корреляции
Коэффициент корреляции
Выводы:
Основные проблемы с данными
Проблемы с данными
Проблемы с данными
Как можно обработать некорректные данные?
Пример
Как восстановить номинальный признак «Пол»?
Выводы
Восстановление данных с помощью метрики
Метрика
Евклидова метрика
Метрика Манхеттен
Max-метрика
Свойства метрики
Как с помощью метрики восстановить значение? (1/3)
Как с помощью метрики восстановить значение? (2/3)
Как с помощью метрики восстановить значение? (3/3)
Пример
Проблема с метриками
Способы нормировать значения признаков
По-хорошему значения в примере тоже надо было нормировать
Коэффициент корреляции для восстановления данных
Алгоритм восстановления значения признака с помощью КК (1/3)
Алгоритм восстановления значения признака с помощью КК (2/3)
Алгоритм восстановления значения признака с помощью КК (3/3)
Выводы
Удаление выбросов
Что такое выброс?
Задача удаления выбросов
Зачем удалять выбросы?
Как обнаружить выбросы
Как обнаружить выбросы
Методы, анализирующие один признак
Методы, анализирующие один признак
Симметричные выборки
Методы, анализирующие один признак
Методы, анализирующие один признак
Выводы
Упражнения
Упражнение 1*.
Упражнение 2*
Упражнение 3*
Упражнение 4.
Упражнение 5.
4.82M

01.Vvedenie+v+mashinnoe+obuchenie+i+osnovny'e+ponjatija (3)

1. Введение в машинное обучение и основные понятия

Подготовка данных для машинного обучения
Лекция 1 из 8
Кемерово 2026

2. Основные понятия

Data Science («Наука о данных», DS) - широкий спектр
методов и инструментов для анализа больших
объемов информации. Включает в себя:
• Сбор данных: извлечение данных из различных источников
(например, базы данных, веб-сайты, датчики устройств).
• Очистка данных: устранение ошибок, дубликатов,
пропущенных значений и других аномалий.
• Анализ данных: использование статистических методов,
визуализации и алгоритмов для выявления закономерностей
и трендов.
• Моделирование данных: создание моделей, которые
помогают предсказывать будущие события или объяснять
текущие данные.
• Визуализация данных: представление результатов анализа в
виде графиков, диаграмм и других наглядных форматов.
• Интерпретация результатов: объяснение выводов и их
значения для бизнеса или науки.
Кафедра
Цифровых технологий
2

3. Основные понятия

Искусственный интеллект (ИИ) – теоретическое
и прикладное направление информатики,
занимающееся исследованием и созданием
аппаратных и программных средств,
имитирующих интеллектуальную деятельность
человека.
Машинное обучение («Machine Learning», ML)
— подмножество методов ИИ, сосредоточенных
на создании алгоритмов, которые могут
самообучаться на основе данных и улучшать
свою производительность без явного
программирования.
Кафедра
Цифровых технологий
3

4. Технология машинного обучения – место технологии в сфере ИИ

Кафедра
Цифровых технологий
4

5. DS vs. ML

DS
фокусируется на всём
процессе работы с данными
от начала до конца,
включая анализ,
моделирование и
интерпретацию
ML
разработка и применение
конкретных алгоритмов для
автоматического обучения и
принятия решений на
основе данных
Кафедра
Цифровых технологий
5

6. Технология машинного обучения - Модель черного ящика

Технология машинного обучения Модель черного ящика
Кафедра
Цифровых технологий
6

7. Какие задачи может решать МО? – Рекомендательные системы

Кафедра
Цифровых технологий
7

8. Какие задачи может решать МО? – Обработка изображений

Кафедра
Цифровых технологий
8

9. Какие задачи может решать МО? – Обработка текста

Кафедра
Цифровых технологий
9

10. Какие задачи может решать МО? – Другие задачи

• Предсказание числовых величин (стоимость
товаров, объем спроса и др.)
• Ранжирование объектов (кредитный скоринг,
медицинская диагностика)
• Классификация объектов
• Поиск аномальных объектов
Кафедра
Цифровых технологий
10

11. Чего не может машинное обучение?

• Гарантировать истинность результатов работы
компьютерной модели.
Кафедра
Цифровых технологий
11

12. Проблемы МО (1/3)

• МО на пике модных тенденций
• Для адекватного составления и качественного
обучения моделей МО нужны специалисты – их
очень мало
• Заказчики не всегда понимают где и как им мог
бы помочь или навредить ИИ
• Эффект от использования ИИ (как +, так и -)
проявляется не сразу
Кафедра
Цифровых технологий
12

13. Проблемы МО (2/3)

• Действительно ли модель «научилась»
предсказывать, или это совпадение?
• Начиная с какого количества совпадений можно
говорить о появлении ИИ?
Кафедра
Цифровых технологий
13

14. Проблемы МО (3/3)

• Этические проблемы, проблемы с формальным
описанием этических вопросов
• Религиозные проблемы
• Кто будет нести ответственность за ущерб,
причиненный ИИ?
Кафедра
Цифровых технологий
14

15. Выводы:

• ИИ, как и его часть – машинное обучение, - на
пике модной волны, а информированность
заказчиков и квалификация исполнителей еще
нет;
• МО уже успешно решает широкий спектр задач,
но во многих областях еще несовершенно;
• Для МО необходимы данные, без данных нет
машинного обучения.
Кафедра
Цифровых технологий
15

16. Данные в машинном обучении

Кафедра
Цифровых технологий
16

17. Зачем и какие данные нужны в процессе МО?

Методы машинного обучения
основываются на:
• Статистике;
• Методах оптимизации;
• Алгебре;
• Элементах геометрии.
Кафедра
Цифровых технологий
17

18. Какие задачи решает МО?

• Восстановления данных
• Обнаружение аномальных объектов и
связей
• Обнаружение новых связей между
объектами и их признаками
Кафедра
Цифровых технологий
18

19. Объекты и признаки

Объект — сущность, для которой мы проводим анализ.
Признаки — характеристики объекта.
Например:
1. Объект: Человек.
Признаки: рост, возраст, вес и т.д.
2. Объект: Организация.
Признаки: юридический адрес, ФИО учредителя,
годовой оборот, ИНН и др.
3. Объект: Счет в банке.
Признаки: дата открытия счета, сумма на счете,
годовой % по счету и др.
Кафедра
Цифровых технологий
19

20. Данные в машинном обучении

• В машинном обучении данные нужны для
«обучения» машины1) и для тестирования
качества обучения.
• И речь идет не о десятках описаний объектов, а
о тысячах, десятках и сотнях тысяч объектов!
Конечно же в учебных задачах и для демонстрации
алгоритмов мы будем брать не больше десятка объектов,
потому что это всего лишь учебная модель!
1) Под термином «машина» понимается вычислительное устройство - ЭВМ, или,
проще говоря, компьютер.
Кафедра
Цифровых технологий
20

21. Пример представления данных

Обычно данные представляют в виде таблиц.
Таблицы состоят из строк - на них находятся объекты, и
столбцов - это признаки (свойства объектов)
строки
столбцы
Кафедра
Цифровых технологий
21

22. Представление данных

На пересечении строк и столбцов находятся ячейки. Они
хранят значения признаков объектов
Объект
A
p1
P11
p2
p12


p3
P1m
B
p21
p22

p2m





Объектn pn1
pn2

pnm
Каждому объекту можно поставить в соответствие вектор из
m значений признаков pi = (pi1, pi2,…, pim)
В данной таблице n – объем выборки (количество объектов)
Кафедра
Цифровых технологий
22

23. Представление данных

Банан
Огурец
Вес
100
120
Цвет
Желтый
Зеленый
Апельсин
80
Желтый
Тип
0
1
Размер
20,4
37,3
0
18,8
р(Банан) = {100; Желтый; 0; 20.4} – вектор
значений признаков объекта «Банан»
Кафедра
Цифровых технологий
23

24. Типы признаков

Признаки объекта могут быть разного типа:
• Количественные (число, целое или дробное)
• Порядковые (числовой, но не количественный
признак, например, место в рейтинге)
• Категориальные / номинальные (часто признак
нечисловой природы с конечным набором
значений - категорий)
частный случай бинарные признаки – принимают
значения 0 и 1, которыми можно закодировать
принадлежность к категории.
0 обычно закрепляют за более многочисленной
категорией
Кафедра
Цифровых технологий
24

25. Упражнение

• Перечислите признаки разных типов для
объекта «Кошка».
Кафедра
Цифровых технологий
25

26. Характеристики признаков

Кафедра
Цифровых технологий
26

27. Характеристики признаков

Рассмотрим вектор p = (p1, p2, …, pn) – столбец
признаков из таблицы данных
Объект
A
p1
P11
p2
p12


p3
P1m
B

Объектn
p21

pn1
p22

pn2



p2m

pnm
Кафедра
Цифровых технологий
27

28. Характеристики признаков

Как мы можем исследовать вектор значений признака?
Пусть у нас есть вектор
p = (p1, p2, …, pn)
Для этого вектора можно найти:
1. Минимальное и максимальное значение, размах
(разница между максимумом и минимумом)
2. Среднее арифметическое:
σ
English     Русский Правила