개념 정리/통계(기초)

카이제곱검정

히니1008 2022. 5. 8. 16:24

독립성 검정과 동일성 검정

1.가설 설정

①독립성 검정

귀무가설(H$_0$): 두 변수는 서로 연관성이 없다(서로 독립이다.)

대립가설(H$_1$): 두 변수는 서로 연관성이 있다(서로 독립이 아니다.)

 

②동일성 검정

귀무가설(H$_0$): 각 범주 j=1,2,...,c에 대해서 P$_1j$=P$_2j$=...=P$_rj$

대립가설(H$_1$): 귀무가설은 사실이 아니다. 

 

2.기대도수 구하기

E$_ij$ =$\frac {Oi} {Oj}$ 

 

3.검정통계량 구하기

문제 예시)

 

적합성 검정

모집단의 분포에 대한 가정이 옳은지를 실제 관측된 자료를 바탕으로 검정하는 것을 적합성 검정이라고 한다. n개의 표본자료를 k개의 범주로 분류하여 각 범주에 속하는 관측도수(관찰빈도)와 귀무가설하에서 주어진 확률분포에 대해 각 범주에 속하는 기대도수(기대빈도)간에 잘 적합되는지를 검정하는 것

 

 

1. '빈도'로 수집하는 것  (변수가 1개) 

 

예시.  <평균 사용 비중이 알려진 제품 판매량의 연령별 차이 검정 사례>

⋆평균 42%가 사용하는 것으로 나타나는 연령별 차이 분석

*10~50대에서 각각 100명의 표본을 추출한 결과 사용자는 50,41,35,47,39로 나타날 경우

기대빈도E(X): 전체 42%   (모든 분포가 똑같다고 가정함)

 

①중요한 차이의 관찰과 귀무가설의 설정

 

⑴귀무가설은 집단 간 차이가 동일하다고 가정하는 것이므로 '연령별로 차이가 발생하지 않는다'로 수립

⑵판별식의 유형

판별분석은 종속변수의 범주가 몇 개인가에 따라 유형이 구분됨. 종속변수의 범주가 두개인 경우의 판별분석을 두 집단의 판별분석이라고 하고 세 개 이상인 경우 다중판별분석이라고 한다.

 

②관찰된 수치를 실제 연령별 사용자 수로, 기대치를 평균값 42로 하여 카이제곱 통계량 계산

 

③적절한 통계량의 계산 및 계산된 카이제곱 통계량과 임계치의 비교

⑴계산된 카이제곱 통계량은 3.52로 도출

⑵5개 연령의 집단이 있으므로 자유도는 4이다.

⑶집단간 차이 여부를 검정하기 위해 자유도 4일때 유의수준 5%의 우측검정 임계치는 9.49이다.

⑷계산된 카이제곱 통계량은 3.52이며 우측검정의 임계치보다 작다.

⑸유의수준 5%에서는 "연령별로 제품의 소비에 차이가 발생하지 않는다"는 귀무가설을 기각 할 수 없기 때문에 판매량에 연령별로 차이가 있다고 볼 수 없다. 

 

2.두개의 변수로 추정

ex)'가구소득'과 '냉장고 크기'의 관계가 독립적인가를 파악하고자 한다. 

 

'개념 정리 > 통계(기초)' 카테고리의 다른 글

두모집단에 대한 차이검정  (0) 2022.05.08
판별분석  (0) 2022.05.08
결정계수와 조정계수  (0) 2022.05.08
참고글  (0) 2022.05.07
F-value의 의미  (0) 2022.05.06