Похожие презентации:
Orange_summer
1.
Знакомство сOrange Data Mining
2.
Теоретическая часть2
3.
ЧТО ТАКОЕ ORANGE DATA MINING ?Orange— это популярный инструмент с открытым исходным кодом для машинного
обучения и визуализации данных. Он позволяет специалистам, не обладающим навыками
программирования, использовать подход визуального программирования для анализа и
визуализации данных.
Выпущенный под лицензией GPL, Orange расширяет возможности Python, предоставляя
богатый набор алгоритмов для предварительной обработки данных, классификации,
кластеризации и моделирования.
Идеально подходит для специалистов в различных областях, желающих анализировать
данные без глубоких знаний в программировании.
3
4.
ЧТО ТАКОЕ ORANGE DATA MINING ?Orange предлагает интуитивную среду визуального программирования, которая включает
в себя инструменты для импорта данных и перетаскивания виджетов, позволяя пользователям
легко соединять различные элементы для выполнения анализа данных. Инструмент использует
популярные библиотеки Python, такие как NumPy, SciPy и scikit-learn, для научных вычислений,
а его графический интерфейс, работающий на кроссплатформенном фреймворке Qt,
обеспечивает удобство и доступность на различных операционных системах.
4
5.
ОСНОВНЫЕ ВКЛАДКИOrange Data Mining — это мощный инструмент с широким набором
функций для анализа данных, который позволяет:
Orange содержит шесть основных вкладок
1) Импортировать данные из различных источников, включая файлы, SQLтаблицы и таблицы данных;
2) Обрабатывать данные с помощью выбора, объединения и фильтрации;
3) Создавать объекты и выявлять отклонения для более глубокого анализа;
4) Проводить предварительную обработку данных, подготавливая их для
дальнейшего анализа;
5) Визуализировать данные с помощью разнообразных графиков и
диаграмм, что позволяет легко интерпретировать результаты анализа;
6) Применять методы машинного обучения для построения моделей,
классификации, регрессии и кластеризации данных.
Список возможностей обширен, предоставляя пользователю множество
функций для эффективной работы с данными.
5
6.
КАТАЛОГ ВИДЖЕТОВhttps://orangedatamining.com/widget-catalog/
Со всеми виджетами можно
ознакомиться здесь
6
https://orangedatamining.com/widget-catalog/
7.
ВКЛАДКА DATAВ этой вкладке вы можете загружать данные
из различных источников, таких как CSV-файлы и
SQL-таблицы.
Здесь
также
доступны
инструменты для просмотра, редактирования и
анализа данных, включая функции для работы с
таблицами и статистикой.
7
8.
ВКЛАДКА DATAПри помощи виджета «CSV File Import» импортируем данные в
среду Orange для дальнейшей работы
Виджет «Data info» отображает
основную информацию о датасете
8
9.
ВКЛАДКА TRANSFORMВ этом разделе представлены инструменты для
изменения и подготовки данных. Здесь можно выполнять
выборку, фильтрацию, объединение и модификацию
данных, а также применять методы предварительной
обработки,
включая
заполнение
пропусков
и
преобразование непрерывных данных в категориальные
9
10.
ВКЛАДКА TRANSFORMВиджет «Ubique», с помощью него
можно удалить дубликаты
Виджет «Impute», с помощью которого можно
заменить пустые значения на часто
встречающиеся, а числовые на средние по
столбцу
10
11.
ВКЛАДКА VISUALIZEВ этом разделе собраны инструменты для
визуализации данных. Вы можете создавать
различные графики и диаграммы, такие как
диаграммы рассеяния, столбчатые диаграммы,
тепловые карты и многое другое, чтобы лучше понять и
представить ваши данные
11
12.
ВКЛАДКА VISUALIZEВиджет «Distributions» используется для визуализации распределения данных,
помогая быстро оценить структуру и особенности переменных в наборе данных
12
13.
ВКЛАДКА VISUALIZEВиджет «Box lot» в Orange используется для визуализации
распределения данных через диаграммы размаха, помогая
выявить медиану, квартили и выбросы в наборе данных
Виджет «Sieve Diagram» используется для визуализации
категориальных данных, помогая анализировать распределение
категорий и их взаимосвязи
13
14.
ВКЛАДКА MODELЭтот раздел предоставляет широкий спектр
алгоритмов машинного обучения для построения
моделей. Здесь вы можете использовать методы
классификации, регрессии, кластеризации и другие, а
также сохранять и загружать модели для дальнейшего
использования
14
15.
ВКЛАДКА EVALUATEВ этом разделе представлены инструменты
для оценки и анализа моделей машинного
обучения. Вы можете тестировать модели,
оценивать их производительность, строить
прогнозы и анализировать результаты с
помощью различных методов, таких как
матрица ошибок, ROC-анализ и калибровочные
графики
15
16.
ВКЛАДКА UNSUPERVISEDЭтот раздел предоставляет инструменты для
анализа данных без учителя. Здесь доступны
методы кластеризации, такие как k-средние и
иерархическая кластеризация, а также методы
снижения размерности, включая t-SNE и PCA. Вы
можете исследовать структуру данных, находить
выбросы и применять методы анализа
расстояний и соответствий
16
17.
ВКЛАДКА UNSUPERVISEDВиджет «Correlations» рассчитывает
коэффициенты корреляции для всех
возможных пар объектов
17
18.
ПОСЛЕДОВАТЕЛЬНОСТЬ РАБОТЫ С ДАННЫМИ18
19.
Практическаячасть
19
20.
ЗАДАНИЕ НА САМОСТОЯТЕЛЬНУЮ РАБОТУВ зависимости от вашего номера в списке (четный — вариант 1, нечетный — вариант
2), выполните предварительный анализ данных в среде Orange Data Mining. Оформите
отчет в виде презентации, дополнив скриншоты кратким анализом.
1) Импортируйте ваш набор данных в среду Orange;
2) Проведите предварительный анализ данных, включая поиск пропущенных значений
и удаление дубликатов;
3) Визуализируйте данные с помощью графиков и диаграмм по вашему выбору;
4) Подготовьте отчет в формате презентации.
20
21.
ВАРИАНТ 1Этот набор данных содержит информацию о людях и факторах риска развития сердечно-сосудистых
заболеваний. Данные включают демографическую информацию, такую как возраст и пол, а также сведения о
состоянии здоровья, образе жизни и симптомах, связанных с сердечно-сосудистыми заболеваниями. Целевая
переменная указывает, было ли у человека диагностировано сердечно-сосудистое заболевание.
Age
Gender
Cholesterol
Возраст человека (в годах).
Пол человека (Мужской/Женский).
Уровень холестерина в мг/дл.
Blood Pressure
Систолическое артериальное давление в мм рт. ст.
Heart Rate
Частота сердечных сокращений в ударах в минуту.
Smoking
Статус курения (Никогда/Бывший/Текущий).
Alcohol Intake
Частота употребления алкоголя (Нет/Умеренное/Чрезмерное).
Exercise Hours
Часы занятий спортом в неделю.
Family History
Семейный анамнез сердечных заболеваний (Да/Нет).
Diabetes
Obesity
Stress Level
Blood Sugar
Статус диабета (Да/Нет).
Статус ожирения (Да/Нет).
Уровень стресса по шкале от 1 до 10.
Уровень сахара в крови натощак в мг/дл.
Exercise Induced Angina
Наличие стенокардии, вызванной физической нагрузкой (Да/Нет).
Chest Pain Type
Тип испытываемой боли в груди (Типичная стенокардия/Атипичная
стенокардия/Неангинальная боль/Бессимптомная).
Heart Disease
Целевая переменная, указывающая на наличие болезни сердца (0:
Нет, 1: Да).
сsv-файл приложен к
заданию
heart_disease_dataset
21
22.
ВАРИАНТ 2Этот набор данных содержит информацию о заказах пиццы в
различных ресторанах за 2024-2025 годы. Он включает атрибуты, такие
как идентификатор заказа, название и местоположение ресторана,
время заказа и доставки, а также продолжительность доставки. Также
представлены данные о размере и типе пиццы, количестве топпингов,
расстоянии доставки, уровне трафика, методе оплаты, пиковых часах
заказа, выходных днях и эффективности доставки. Набор данных
полезен для анализа продаж, прогнозирования временных рядов и
создания информационных панелей.
xlsx-файл приложен к заданию
Enhanced_pizza_sell_data_2024-25
Order ID
Restaurant Name
Location
Order Time
Delivery Time
Delivery Duration (min)
Pizza Size
Pizza Type
Toppings Count
Distance (km)
Traffic Level
Payment Method
Is Peak Hour
Уникальный идентификатор заказа.
Название ресторана, в котором был сделан заказ.
Местоположение ресторана.
Время, когда был сделан заказ.
Время доставки заказа.
Продолжительность доставки в минутах.
Размер заказанной пиццы.
Тип заказанной пиццы.
Количество топпингов на пицце.
Расстояние доставки в километрах.
Уровень трафика во время доставки.
Метод оплаты заказа.
Указывает, был ли заказ сделан в час пик (Да/Нет).
Указывает, была ли доставка в выходной день
Is Weekend
(Да/Нет).
Delivery Efficiency (min/km) Эффективность доставки в минутах на километр.
Topping Density
Плотность топпингов на пицце.
Order Month
Месяц, в котором был сделан заказ.
Payment Category
Категория платежа.
Estimated Duration (min)
Оценка продолжительности доставки в минутах.
Delay (min)
Задержка доставки в минутах.
Is Delayed
Указывает, была ли задержка в доставке (Да/Нет).
Pizza Complexity
Сложность приготовления пиццы.
Traffic Impact
Влияние трафика на время доставки.
Order Hour
Час, в который был сделан заказ.
Restaurant Avg Time
Среднее время приготовления заказа в ресторане.
22
23.
ДОБАВЛЕНИЕ ВИДЖЕТОВ НА РАБОЧИЙ СТОЛТри способа добавить виджет:
Три способа добавить виджет:
1.Двойной клик на виджет.
1) Двойнойвиджета
клик нанавиджет;
2.Перетаскивание
рабочий стол.
3.Вызов
контекстного меню правой
кнопкой
мыши на рабочем столе.
2) Перетаскивание
виджета
на рабочий
стол;
3) Вызов контекстного меню правой
кнопкой мыши на рабочем столе.
23
24.
ОРГАНИЗАЦИЯ ПОТОКА ОБРАБОТКИ ДАННЫХШаги для связи виджетов:
1) Переместите виджет File на рабочий стол;
2) Переместите виджет Data Table на рабочий стол;
Организация потока обработки данных
3) Соедините виджеты, перетащив полукруглую форму из
виджета File в виджет Data Table;
4) Обратите внимание на коннектор между виджетами со
словом «Data»;
5) Укажите файл для загрузки, чтобы устранить ошибку в
виджете File.
24
25.
ЗАГРУЗКА ДАННЫХКак загрузить данные:
1) Переместите виджет File на рабочий стол;
2) Укажите путь к файлу. Можно использовать
встроенные наборы данных;
3) Поддерживаемые форматы: CSV, MS Excel,
собственный формат (tab);
4) Закройте окно после загрузки и дважды
кликните на виджет Data Table для просмотра
данных;
25
26.
ВИЗУАЛИЗАЦИЯ ДАННЫХИспользование виджета Distribution:
1) Перенесите виджет Distribution на рабочий
стол;
2) Соедините виджеты File и Distribution;
3) Дважды кликните на виджет Distribution для
просмотра визуализации;
4) Выберите переменные для анализа
распределения данных.
26
27.
ГРАФИК РАССЕЯНИЯИспользование виджета Scatter Plot:
1) Перенесите виджет Scatter Plot на рабочий
стол;
2) Соедините виджеты File и Scatter Plot;
3) Дважды кликните на виджет Scatter Plot для
визуализации;
4) Настройте параметры осей X и Y для
анализа проекции между параметрами.
27