Финансовый университет при Правительстве РФ Департамент анализа данных, принятия решений и финансовых технологий АНАЛИЗ ДАННЫХ
В предыдущей лекции
1. Предварительная обработка данных
2. Выбросы и их обработка в Microsoft Excel
2. Выбросы и их обработка в Microsoft Excel
3. Пропущенные значения и их обработка в Microsoft Excel
3. Пропущенные значения и их обработка в Microsoft Excel
3. Пропущенные значения и их обработка в Microsoft Excel
4. Повторяющиеся строки и их обработка в Microsoft Excel
5. Синтетические признаки
5. Синтетические признаки
5. Синтетические признаки
6. Заключение
5. Семинар 1.4

Данные в экономике, их визуализация и предварительная обработка. Выбросы и их обработка в Microsoft Excel

1. Финансовый университет при Правительстве РФ Департамент анализа данных, принятия решений и финансовых технологий АНАЛИЗ ДАННЫХ

Тема 1. Данные в экономике, их визуализация
и предварительная обработка
Доцент Соловьев А.И., кандидат технических наук, доцент
Лекция
1.4 Предварительная обработка данных.
Выбросы и их обработка в Microsoft Excel.
Пропущенные значения и их обработка в Microsoft Excel.
Повторяющиеся строки и их обработка в Microsoft Excel.
Синтетические признаки.

2. В предыдущей лекции

Визуализация качественных признаков в Microsoft Excel.
Сводные таблицы и сводные диаграммы в Microsoft Excel.
Таблицы сопряженности и парадокс Симпсона.
Иерархия признаков в Microsoft Excel.

3. 1. Предварительная обработка данных

В предыдущих лекциях мы рассмотрели визуализацию количественных и
качественных признаков.
Это помогает правильно определить дальнейшие направления анализа данных.
Другой важной задачей является предварительная подготовка данных. Это
составляет значительную часть работы по анализу данных. Это связано с
тем, что:
Данные, с которыми мы имеем дело на практике, не идеальны (ошибки,
пропущен, повторы, выбросы), что сильно осложняющие их анализ.
Предварительная обработка данных может занимать столько же времени,
сколько их анализ с помощью различных интеллектуальных технологий, а
часто даже больше.

4. 2. Выбросы и их обработка в Microsoft Excel

Одной из самых типичных и самых важных проблем, является проблема
выбросов. Они которые искажают характеристики признаков и их взаимосвязей.
Выбросы - это значения признака, не попадающие в отрезок
[x0,25 – 1,5IQR; x0,75 + 1,5IQR].
Первым шагом при поиске выбросов является визуализация данных с помощью
диаграмм размаха и диаграмм рассеяния.
Первый вопрос – является ли «кандидат» в выбросы действительно выбросом,
либо в данных есть важные специальные подмножества, которые нужно
рассматривать отдельно.
Часто выбросы связаны с ошибками людей, участвовавших в подготовке
наборов данных – ошибки ввода данных (пропуск десятичной запятой или ввод
не в ту ячейку).
Иногда выбросы следует отбросить, чтобы избежать искажения результатов.

5. 2. Выбросы и их обработка в Microsoft Excel

В ряде ситуаций выбросы являются важнейшим предметом исследования.
Например,
в задаче обнаружения мошеннических транзакций по банковским картам именно
выбросы — необычные, нетипичные транзакции — представляют основной
интерес. Если отбросить выбросы или заменить их типичными транзакциями, то,
очевидно, что задача определения мошеннических транзакций решена не будет.
В общем случае, варианты работы с выбросами:
- замена выброса значением в соответствующих границах отрезка
[x0,25 – 1,5IQR; x0,75 + 1,5IQR];
- обработка выброса как пропущенного значения.
Замечание. Как правило, для каждого признака X целесообразно добавить в
набор данных специальный признак Xвыбр., значение которого равно единице, в
случае, если значение при знака X в данной строке исходного набора данных
было классифицировано как выброс.

6. 3. Пропущенные значения и их обработка в Microsoft Excel

Следующей проблемой анализа данных является отсутствие в наборах данных
некоторых значений. Они могут быть неизвестны по какой-либо причине, могут
быть утрачены, могут появиться в результате обработки выбросов.
ВАЖНО: Многие методы анализа данных невозможно использовать,
если набор данных содержит пустые ячейки.
Иногда можно догадаться, какое значение должно быть в соответствующей
ячейке.
Догадаться, сколько кредитов было выдано 2 августа, невозможно. В таком
случае можно, например, заполнить пропущенное значение средним, медианой
или модой.

7. 3. Пропущенные значения и их обработка в Microsoft Excel

В реальных наборах данных пропущенным значениям не всегда соответствуют
пустые ячейки. Вместо пропущенных чисел могут использоваться специальные
коды.
Например:
- в Microsoft Excel используются следующие коды ошибок: «#ДЕЛ/0!», «#Н/Д»,
«#ИМЯ?», «#ПУСТО!», «#ЧИСЛО!», «#ССЫЛКА!», «#ЗНАЧ!».
- в других системах могут использоваться коды «NA» (Not Available), «NaN» (Not a
Number) и др.
- ряд систем для обозначения ошибок и отсутствующих значений числовых
признаков вставляют нули или специальные числовые коды, например, «9999»
или «99999999».

8. 3. Пропущенные значения и их обработка в Microsoft Excel

Общие варианты работы с пропущенными значениями:
замена средним или медианой (это два наиболее часто используемых метода,
но только для количественных признаков);
удаление целой строки (удаление строки приводит к потере информации.
Этим методом пользуются тогда, когда потеря информации допустима);
замена специальным значением (пропуск признака «Число задержек
платежей по кредиту» в наборе данных о заемщиках банка целесообразно
заменить нулем, т.е. «Долгов нет»);
замена с помощью метода ближайших соседей (вычисление среднего, но не
по всему столбцу, а по нескольким близким строкам — ближайшим соседям);
замена модой (замена модой применяется к качественным признакам);
замена с помощью специальных методов (заполнения пропущенных
значений с помощью сингулярного разложения, линейной регрессии,
случайного леса, метода K-средних и др. — «Машинное обучение»).
Замечание. Как правило, при замене пропущенных значений для каждого признака X целесообразно добавить в набор
данных специальный признак Xпропущ., значение которого равно единице, в случае, если значение признака X в
данной строке исходного набора данных от сутствовало и было каким либо образом синтезировано.

9. 4. Повторяющиеся строки и их обработка в Microsoft Excel

Повторяющиеся в наборе данных строки искажают результаты анализа данных,
усиливая тенденции, которые, часто, не соответствуют действительности.
Перед проведением анализа данных из нескольких дублирующих строк
оставляет оставить одну.
В общем случае, варианты обработки повторяющихся строк:
- сохранение первой строки с удалением оставшихся;
- сохранение последней строки с удалением оставшихся;
- объединение повторяющихся строк в одну с вычислением средних значений
для каждого количественного признака и мод для каждого качественного
признака.

10. 5. Синтетические признаки

Важным этапом решения задач анализа данных является поиск синтетических
признаков (проектирование признаков).
Синтетические признаки являющихся определенными функциями от исходных
признаков: удачно построенные синтетические признаки очень помогают
находить в данных закономерности, определять общие свойства объектов и
различия между ними.
Например: Если в задаче анализа данных о заемщиках известен размер
ежемесячного платежа по кредиту и средний размер месячного дохода,
то, как правило, полезно рассмотреть дополнительный признак — долю
ежемесячного платежа по кредиту в месячном доходе.
Синтез новых признаков связан не столько с содержательным смыслом задачи,
сколько с необходимостью использования статистических методов, основанных
на применении следствий из законов распределения данных.
Бывает
полезно рассмотреть синтетические признаки, являющиеся
квадратами, квадратными корнями, логарифмами исходных признаков,
произведениями и частными парами признаков и т. п.

11. 5. Синтетические признаки

Признаки в наборе данных могут иметь одинаковую природу и одинаковые
единицы измерения (сколько времени в месяц люди тратят на работу,
домашние дела и развлечения (все три признака имеют одинаковый масштаб и
в единицах времени). Анализ транзакций по пластиковым картам дает набор
данных, содержащий структуру затрат держателей пластиковых карт — сколько
люди тратят на еду, на путешествия, на развлечения и т. д., здесь все
признаки будут иметь сходный масштаб и измеряться в тыс. руб.
Но так бывает редко. Большинство реальных наборов данных, с которыми
приходится иметь дело в экономике, управлении, финансах, состоят из
нескольких признаков, имеющих принципиально разную природу и
измеряющихся в разных единицах.
При анализе данных бывают важны относительные взаимосвязи между
признаками, не только между их абсолютными значениями. Кроме того,
многие методы анализа данных работают только в том случае, когда признаки
имеют одинаковый масштаб.

12. 5. Синтетические признаки

Как правило, нужно приводить признаки к единому масштабу. Чтобы это
сделать, наиболее часто используются два способа преобразования признаков:
- переход от признака X к признаку
приводит к тому, что у нового признака будет нулевое среднее и стандартное
отклонение, равное единице. Это z-преобразование;
- преобразование признака X в признак
гарантирует, что новый признак будет принимать значения из отрезка [0; 1].
Это min-max преобразование;
- может подойти и обычное нормирование Х/хмах.

13. 6. Заключение

В любом случае,
-
при анализе выбросов;
-
при обработке пропущенных значений;
-
при удалении повторяющихся строк;
-
синтезировании признаков,
очень важно разбираться в предметной области, соответствующей исследуемому
набору
данных,
проектировании
и
принимать
данных
с
решения
учетом
об
очистке,
специфики
содержательного смысла конкретной ситуации и задачи.
трансформации
предметной
и
области,

14. 5. Семинар 1.4

Задание: решение задач по плану преподавателя.
English     Русский Правила