Похожие презентации:
Двумерный анализ
1.
двумерный анализ2.
• Термин двумерный анализ относится к анализу двухпеременных. Вы можете запомнить это, потому что
приставка «би» означает «два».
• Цель двумерного анализа состоит в том, чтобы понять
взаимосвязь между двумя переменными.
• Существует три распространенных способа выполнения
двумерного анализа:
1. Диаграммы рассеяния
2. Коэффициенты корреляции
3. Простая линейная регрессия
3.
Диаграммы рассеяния• Создаем собственный dataframe
4.
• Вывод dataframe5.
• Построение диаграммы рассеяния6.
• Результат построения7.
Выводы• По оси x отложено количество часов обучения, а по оси y –
полученный балл за экзамен.
• Из графика видно, что между двумя переменными существует
положительная взаимосвязь: по мере увеличения количества
часов обучения экзаменационные баллы также имеют тенденцию
к увеличению
8.
Коэффициенты корреляции• Коэффициент корреляции Пирсона — это способ количественной
оценки линейной зависимости между двумя переменными.
• Мы можем использовать функцию corr() в pandas для создания
матрицы корреляции:
9.
• Матрица коэффициентов корреляцииКоэффициент корреляции оказывается равным 0,891.Это указывает на сильную положительную
корреляцию между отработанными часами и полученными экзаменационными баллами.
10.
Простая линейная регрессия• Простая линейная регрессия — это статистический метод,
который мы можем использовать для количественной оценки
взаимосвязи между двумя переменными.
• Мы можем использовать функцию OLS() из пакета statsmodels,
чтобы быстро подобрать простую модель линейной
регрессии для часов обучения и полученных баллов за экзамен:
11.
• Построение регрессии12.
• Результаты выполнения13.
Подогнанное уравнение регрессии оказывается таким:Экзаменационный балл = 69,0734 + 3,8471*(часы обучения)
• Это говорит нам о том, что каждый дополнительный час обучения
связан со средним увеличением экзаменационного балла на 3,8471 .
Мы также можем использовать подогнанное уравнение регрессии,
чтобы предсказать балл, который получит учащийся на основе общего
количества часов обучения.
• Например, предполагается, что студент, который занимается 3 часа,
получит 81,6147 баллов :
• Экзаменационный балл = 69,0734 + 3,8471*(часы обучения)
• Экзаменационный балл = 69,0734 + 3,8471*(3)
• Экзаменационный балл = 81,6147
14.
Дополнительные методы15.
• Приведенный выше график - это простая гистограммапеременной "total_bill". С первого взгляда видно, что стоимость
одного обеда в этом ресторане обычно составляет от $10 до $25,
при этом наблюдается положительный перекос из-за того, что
некоторые посетители заказывают более дорогие блюда по цене
выше $50. (Одномерный анализ)
16.
• Теперь попробуем визуализировать связь между двумяпеременными - "пол" и "total_bill", чтобы узнать, есть ли разница
в сумме, потраченной мужчинами и женщинами при посещении
ресторанов.
17.
• С первого взгляда можно сказать, что медианная сумма,потраченная мужчинами и женщинами, практически одинакова примерно $15-$19. Однако существует огромная разница в
минимальной и максимальной потраченных суммах.
• Есть женщины, которые тратили на еду всего $5, а максимальная
сумма составляет около $30.
18.
• Cтандартное отклонение — это мера количества вариацийили дисперсии набора значений. Низкое стандартное отклонение
указывает на то, что значения, как правило, близки к среднему (также
называемому ожидаемым значением ) набора, в то время как высокое
стандартное отклонение указывает на то, что значения разбросаны по
более широкому диапазону.
19.
Выполнил: Подберезен Григорий.• https://colab.research.google.com/drive/1PlgZx70Nk8bicSoEkxzyY22
oOVsxX2eb?usp=sharing