Похожие презентации:
Снижение размерности признакового пространства методом главных компонент
1. Отбор признаков Снижение размерности признакового пространства методом главных компонент
2. Основные приложения
• Dimensionality reductionСнижение размерности данных при сохранении
всей или большей части информации
• Feature extraction
Выявление и интерпретация скрытых признаков
2
3. Анализ заемщиков банка
• Задача : Проанализировать заемщиков банка наоснове различных данных
3
4.
Данные могут быть:Личные данные
Семейное положение
Образование
Финансовое состояние
Имущество
Кредитная история
…
4
5. Пример: Give Me Some Credit*
Variable NameDescription
Type
RevolvingUtilizationOfUnsecuredLines
Total balance on credit cards and personal lines of credit except real estate and no
installment debt like car loans divided by the sum of credit limits
percentage
Age
Age of borrower in years
integer
NumberOfTime30-59DaysPastDueNotWorse
Number of times borrower has been 30-59 days past due but no worse in the last 2 years.
integer
DebtRatio
Monthly debt payments, alimony,living costs divided by monthy gross income
percentage
MonthlyIncome
Monthly income
real
NumberOfOpenCreditLinesAndLoans
Number of Open loans (installment like car loan or mortgage) and Lines of credit
(e.g. credit cards)
integer
NumberOfTimes90DaysLate
Number of times borrower has been 90 days or more past due.
integer
NumberRealEstateLoansOrLines
Number of mortgage and real estate loans including home equity lines of credit
integer
NumberOfTime60-89DaysPastDueNotWorse
Number of times borrower has been 60-89 days past due but no worse in the last 2 years.
integer
NumberOfDependents
Number of dependents in family excluding themselves (spouse, children etc.)
integer
* https://www.kaggle.com/c/GiveMeSomeCredit
5
6. Признаки
Возобновляемое использование необеспеченных линийВозраст
Количество просроченных дней 30-59
Коэффициент задолженности
Ежемесячный доход
Количество открытых кредитных линий и займов
Количество просрочек на 90 дней позже
Количество кредитов на недвижимость или линии
Количество просроченных дней 60-89
Количество иждивенцев
6
7. Пример: Give Me Some Credit*
RevolvingUtilizationOfUnsecuredLines
0.766126609
0.957151019
0.65818014
0.233809776
0.9072394
0.213178682
0.305682465
0.754463648
0.116950644
0.189169052
0.644225962
0.01879812
0.010351857
0.964672555
0.019656581
0.548458062
0.061086118
0.166284079
0.221812771
0.602794411
age
NumberOfTime3059DaysPastDueNot
Worse
DebtRatio
MonthlyIncome
45
40
38
30
49
74
57
39
27
57
30
51
46
40
76
64
78
53
43
25
2
0
1
0
1
0
0
0
0
0
0
0
0
3
0
0
0
0
0
0
0.802982129
0.121876201
0.085113375
0.036049682
0.024925695
0.375606969
5710
0.209940017
46
0.606290901
0.30947621
0.53152876
0.298354075
0.382964747
477
0.209891754
2058
0.18827406
0.527887839
0.065868263
9120
2600
3042
3300
63588
3500
NA
3500
NA
23684
2500
6501
12454
13700
0
11362
NA
8800
3280
333
NumberOfTime60NumberOfOpenCre NumberOfTimes90 NumberRealEstateL 89DaysPastDueNot NumberOfDepende
ditLinesAndLoans
DaysLate
oansOrLines
Worse
nts
* https://www.kaggle.com/c/GiveMeSomeCredit
13
4
2
5
7
3
8
8
2
9
5
7
13
9
6
7
10
7
7
2
0
0
1
0
0
0
0
0
0
0
0
0
0
3
0
0
0
0
0
0
6
0
0
0
1
1
3
0
0
4
0
2
2
1
1
1
2
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
2
1
0
0
0
1
0
0
NA
2
0
2
2
2
0
2
0
0
2
0
7
8. Задача снижения размерности
• Представить набор данных меньшим числомпризнаков таким образом, чтобы потеря
информации, содержащейся в оригинальных
данных, была минимальной.
8
9. Principal Component Analysis (PCA)
• Данные заданы матрицей X ( xij ) размерности n×m,где i 1, n и j 1, m , n – число наблюдений (объектов),
m – число признаков.
9
10. PCA в SAS Studio
1011. PCA в SAS Studio
1112. Principal Component Analysis
Обозначим за C (m×m) матрицу ковариаций признаковматрицы X:
n
cij
i j
x
p 1 k xk
i j , i, j {1...m},
n
i среднее значение признака i, i {1...m}
В матричном виде:
XTX
C
T ,
n
( 1... m )
12
13. Principal Component Analysis
• Вариация i-го признака:Var ( x i ) cii
m
• Общая вариация данных: Var ( X ) cii
i 1
• Задача: найти ортогональные векторы
такие, что T C max, т.е. проекция
данных на которые позволит сохранить
наибольшую вариацию
13
14. Principal Component Analysis
• Матрица C симметричная и положительноопределена. Имеет место равенство:
C V V T
1 0
0
2
... ...
0 0
0
... 0 собственные значения матрицы C ,
,
... ...
1 2 ... m 0
... m
...
m
m
c
i 1
i
i 1
ii
V (m m) матрица собственных векторов матрицы C
14
15. Principal Component Analysis
• Главные компоненты:U X , ,...., v
1
2
,
k T
k m
• Доля объясненной вариации:
k
i 1
i
Var ( X )
15
16. Доля объясненной вариации
1617. Доля объясненной вариации
1718. Интерпретация главных факторов
u1u2
u3
u4
u5
u6
RevolvingUtilizationOfUnsecuredLines
0.001
-0.014
-0.037
0.275
-0.953
0.118
age
0.089
0.345
0.718
0.027
-0.017
-0.043
NumberOfTime30-59DaysPastDueNotWorse
-0.989
0.078
0.011
-0.002
-0.001
0.005
DebtRatio
0.003
0.024
-0.009
-0.838
-0.298
-0.457
MonthlyIncome
0.017
0.218
-0.096
0.472
0.029
-0.847
NumberOfOpenCreditLinesAndLoans
0.117
0.819
0.034
-0.059
0.006
0.137
NumberOfTimes90DaysLate
-0.993
0.053
0.019
0.000
-0.001
0.000
NumberRealEstateLoansOrLines
0.080
0.793
-0.202
-0.045
-0.019
0.119
NumberOfTime60-89DaysPastDueNotWorse
-0.994
0.064
0.021
-0.001
-0.001
0.001
NumberOfDependents
0.000
0.122
-0.804
-0.027
0.033
0.039
18
19. Интерпретация главных факторов
• Исходя из структуры матрицы факторных нагрузок,можно предложить следующую интерпретацию:
–
–
–
–
–
–
U1: История просроченных выплат по кредитам
U2: Имеющиеся кредиты
U3: Показатель независимости
U4: Задолженности
U5: Показатель расточительности
U6: Доход
19
20. Интерпретация главных факторов
2021. Singular value decomposition
• Данные заданы матрицей X ( xij ) размерности n×m,где i 1, n и j 1, m , n – число наблюдений (объектов),
m – число признаков.
• Требуется среди всех матриц такого же размера n×m и
ранга ≤ k найти матрицу Y, для которой норма матрицы
X Y будет минимальной.
21
22. Выбор числа k главных факторов
• Общая дисперсия данных:Var ( X ) 12 22 ... m2
• Доля объясненной дисперсии:
12 22 ... k2
Var ( X )
,k m
• Хорошим значением считается доля объясненной
дисперсии ≥ 80%
22
23. Задания
1. Воспроизведите программный код, представленный в файлеСем 3_PCA.doc
2. Воспроизведите вычисления, представленные в лекционных
материалах для набора данных из файла ‘cs-training.csv’.
Выполните анализ методом главных компонент, выделите
главные факторы, объясняющие не менее 80% дисперсии
исходных признаков (или покажите, что этого сделать
нельзя), предложите смысловую интерпретацию выделенных
главных компонент.
23
24. PCA в SAS Studio (задание 1)
2425. PCA в SAS Studio
2526. PCA в SAS Studio
2627. PCA в SAS Studio
2728. PCA в SAS Studio
Матрица факторныхнагрузок
28
Право