카테고리 없음

2.빅데이터 실습 예시- 2.회귀분석(Regression)

히니1008 2022. 5. 13. 16:24

1.회귀분석(Regression)절차

독립변수(x)종속변수(y)의 선택

②회귀식의 적합성 확인(F검정)

 

③통계 검정으로 회귀계수 선택(T검정)

적합성 평가:다중공선성(VIF),결정계수,조정결정계수 확인

 

잔차분석: 정규성,등분산성,독립성

최종 회귀 모형 선정

 

[선형회귀분석 결과 신뢰를 위한 4가지 전제조건]

1.선형성: 독립변수와 종속변수간에는 선형관계 존재

2.등분산성:잔차(추정오차)들은 동일한 분산을 갖는다

3.독립성:잔차들은 서로 독립적이다.

4.정규성:잔차는 평균이 0이고 분산이 정규분포를 따른다. 

→가정들 만족 여부는 잔차들의 그래프를 통해 확인


2.회귀분석(Regression) 절차

Step 1.독립변수(x) 종속변수(y)선택 산점도 그리기

 

독립변수 선택 방법

 

1.후진 제거법(Backward elimination)

모든 독립변수를 사용하여 하나의 회귀식을 수립하고 회귀식에서 중요하지 않은 독립변수 값들에 대한 검정을 한 후, 그 값이 가장 작은 변수부터 차례로 제거하고 남은 나머지 독립변수들을 바탕으로 회귀식을 다시 추정하는 방법

 

2.전진 선택법(Forward selection)

종속변수에 가장 큰 영향을 줄 것으로 판단되는 하나의 독립변수를 이용하여 회귀식을 수립한 후 단계마다 중요하다고 판단되는 독립변수를 하나씩 회귀식에 추가하여 회귀모델을 다시 추정하여 새로운 독립변수의 부분검정을 통해 중요 정도를 계산하는 방법

 

3.단계별 선택법(Stepwise selection)  >> 가장 많이 이용됨

후진 제거법과 전신 선택법의 절충적인 형태로 전진 선택법에 따라 종속변수에 가장 큰 상관관계가 있는 독립변수를 택함과 동시에 각 단계에서 후진 제거법과 같이 회귀식에서 중요하지 않은 독립변수를 제거하는 방법


Step 2.회귀식의 적합성 확인(F 검정)

 

가설검정:회귀식이 유용한지 판단 → 모든 회귀계수에 대한 유의성 검정

 

귀무가설(H${_0}$):회귀식이 유의하지 않다.(B1 = 0이다)

대립가설(H${_1}$):회귀식이 유의하다.(B1 = 0이 아니다)


Step 3.통계검정으로 회귀계수선택(t 검정) 

귀무가설(H${_0}$):독립변수(x)는 종속변수(y)에 영향을 미치지 않는다.(B1 = 0이다)

대립가설(H${_1}$):회귀식이 유의하다.(B1 = 0이 아니다)

 

만들어진 여러 개의 서로 다른 귀무가설들이 독립이 아니라는 보장이 없기 때문

=여러 개의 귀무가설이 각각 검정되는 경우에는 이 중 하나라도 기각될 확률이 커짐

=만들어진 가설들으 ㅣ개수가 늘어날수록 귀무가설 기각 확률이 증가함 

→ 여러 회귀계수 값에 대하여 독립적 t검정을 실시함


Step 4. 적합성 평가: 다중공선성,결정계수,조정결정계수 확인

 

다중공선성

→결정계수가 높아 회귀식의 설명력이 높지만, 각 독립변수의 p값이 커서 독립변수가 유의하지 않을 수 있음

:이 경우 독립변수들 간에 높은 상관관계가 있을 수 있으므로 상관분석을 이용해 확인 

→분산 팽창 요인(VIF)을 계산하여 이 값이 보통 10을 넘는 경우 다중공선성 문제가 있다고 판단

 

결정계수

 

조정결정계수

 


Step 5.잔차 분석(정규성,등분산서,독립성)

 

-정규성 검정: 정규성 검정, 정규분포를 따르지 않으면 변수 변환

→ 가장 자주 사용되는 것은 log변환

-등분산성 검정: 산점도를 확인, 등분산이 아닌 경우 변수변환 또는 가중회귀

(Weight Least Square)을 이용 

-독립성 검정: Durbin-Waston검정, 독립이 아닌 경우 1차 차분을 이용

 


Step 6.최종 회귀모형 결정

▶예측

▶추정(표본통계량을 가지고 모집단 모수 값을 추측하는 과정)등 활용

ex.주가 수익률 

-단순 수익률

-로그 수익률