오답 노트

주성분 분석

히니1008 2022. 5. 17. 01:59

1.주성분분석(Principal Component Analysis)

[ADSP책 참고-보다 간단한 설명] 

-여러 변수들의 변랑을 '주성분'이라는 서로 상관성이 높은 변수들의 선형결합으로 만들어 기존의 상관성이 높은 변수들을 요악,축소하는 기법

-첫번째 주성분으로 전체 변동을 가장 많이 설명할 수 있도록 하고, 두 번째 주성분으로는 첫번째 주성분과는 상관성이 없어서 첫번째 주성분이 설명하지 못하는 나머지 변동을 정보의 손실 없이 가장 많이 설명할 수 있도록 변수들의 선형조합을 만든다. 

[슬라이드 강의 설명]

주성분 변수를 원래 변수의 선형결합으로서 추출하는 통계기법. 주성분 변수는 원래 변수 정보를 축약한 변수이며, PCA는 일부 주성분에 의해 원래 변수의 변동이 충분히 설명되는지 알아보는 분석방법

→ 입력 데이터들의 공분산 행렬(covariance matrix)에 대한 고유값분해

데이터 하나하나에 대한 성분을 분석하는 것이 아니라, 여러 데이터들이 모여 하나의 분포를 이룰 때 이 분포의 주 성분을 분석하는 방법 

 

2.주성분 분석의 목적

-여러 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소함으로써 데이터를 이해하기 쉽고 관리하기 쉽게 해준다.

-다중공선성이 존재하는 경우, 상관성이 없는(적은) 주성분으로 변수들을 축소하여 모형 개발에 활용된다. 회귀분석 등의 모형 개발시 입력변수들간에 상관 관계가 높은 다중공선성이 존재할 경우 모형이 잘못 만들어져 문제가 생김

-연관성이 높은 변수를 주성분분석을 통해 차원을 축소한 후에 군집분석을 수행하면 군집화 결과와 연산속도를 개선할 수 있다.

-기계에서 나오는 다수의 센서데이터를 주성분분석으로 차원을 축소한 후에 시계열로 분포나 추세의 변화를 분석하면 기계의 고장징후를 사전에 파악하는데 활용되기도 한다.

 

3.주성분분석 vs 요인분석

공통점: 둘다 데이터를 축소하는데 사용됨