262.21K
Категория: МатематикаМатематика

Двумерный анализ

1.

двумерный анализ

2.

• Термин двумерный анализ относится к анализу двух
переменных. Вы можете запомнить это, потому что
приставка «би» означает «два».
• Цель двумерного анализа состоит в том, чтобы понять
взаимосвязь между двумя переменными.
• Существует три распространенных способа выполнения
двумерного анализа:
1. Диаграммы рассеяния
2. Коэффициенты корреляции
3. Простая линейная регрессия

3.

Диаграммы рассеяния
• Создаем собственный dataframe

4.

• Вывод dataframe

5.

• Построение диаграммы рассеяния

6.

• Результат построения

7.

Выводы
• По оси x отложено количество часов обучения, а по оси y –
полученный балл за экзамен.
• Из графика видно, что между двумя переменными существует
положительная взаимосвязь: по мере увеличения количества
часов обучения экзаменационные баллы также имеют тенденцию
к увеличению

8.

Коэффициенты корреляции
• Коэффициент корреляции Пирсона — это способ количественной
оценки линейной зависимости между двумя переменными.
• Мы можем использовать функцию corr() в pandas для создания
матрицы корреляции:

9.

• Матрица коэффициентов корреляции
Коэффициент корреляции оказывается равным 0,891.Это указывает на сильную положительную
корреляцию между отработанными часами и полученными экзаменационными баллами.

10.

Простая линейная регрессия
• Простая линейная регрессия — это статистический метод,
который мы можем использовать для количественной оценки
взаимосвязи между двумя переменными.
• Мы можем использовать функцию OLS() из пакета statsmodels,
чтобы быстро подобрать простую модель линейной
регрессии для часов обучения и полученных баллов за экзамен:

11.

• Построение регрессии

12.

• Результаты выполнения

13.

Подогнанное уравнение регрессии оказывается таким:
Экзаменационный балл = 69,0734 + 3,8471*(часы обучения)
• Это говорит нам о том, что каждый дополнительный час обучения
связан со средним увеличением экзаменационного балла на 3,8471 .
Мы также можем использовать подогнанное уравнение регрессии,
чтобы предсказать балл, который получит учащийся на основе общего
количества часов обучения.
• Например, предполагается, что студент, который занимается 3 часа,
получит 81,6147 баллов :
• Экзаменационный балл = 69,0734 + 3,8471*(часы обучения)
• Экзаменационный балл = 69,0734 + 3,8471*(3)
• Экзаменационный балл = 81,6147

14.

Дополнительные методы

15.

• Приведенный выше график - это простая гистограмма
переменной "total_bill". С первого взгляда видно, что стоимость
одного обеда в этом ресторане обычно составляет от $10 до $25,
при этом наблюдается положительный перекос из-за того, что
некоторые посетители заказывают более дорогие блюда по цене
выше $50. (Одномерный анализ)

16.

• Теперь попробуем визуализировать связь между двумя
переменными - "пол" и "total_bill", чтобы узнать, есть ли разница
в сумме, потраченной мужчинами и женщинами при посещении
ресторанов.

17.

• С первого взгляда можно сказать, что медианная сумма,
потраченная мужчинами и женщинами, практически одинакова примерно $15-$19. Однако существует огромная разница в
минимальной и максимальной потраченных суммах.
• Есть женщины, которые тратили на еду всего $5, а максимальная
сумма составляет около $30.

18.

• Cтандартное отклонение — это мера количества вариаций
или дисперсии набора значений. Низкое стандартное отклонение
указывает на то, что значения, как правило, близки к среднему (также
называемому ожидаемым значением ) набора, в то время как высокое
стандартное отклонение указывает на то, что значения разбросаны по
более широкому диапазону.

19.

Выполнил: Подберезен Григорий.
• https://colab.research.google.com/drive/1PlgZx70Nk8bicSoEkxzyY22
oOVsxX2eb?usp=sharing
English     Русский Правила