오답 노트

데이터마이닝 기반 빅데이터 분석 (정리중/미완)

히니1008 2022. 5. 21. 16:11

데이터 마이닝 빅데이터 분석모델

 

1.의미

1)대용량 데이터로부터 데이터 내에 존재하는 패턴,관계 혹은 규칙 등을 탐색하고 통계적인 기법들을 활용하여 모델화하며 이를 통해 데이터분석 및 나아가 유용한 정보, 지식들을 추출하는 과정

2)기존 통계적 기법에서 주로 다루던 가설 검정에 머무르는 것이 아니고 더욱 확장하여 데이터로부터 의미 있는 새로운 가설 혹은 규칙들을 찾아내는 통계기반 분석

 

◆연관규칙 추출  "장바구니 분석"이라고도 표현

◆분류

◆군집

◆예측분석

 

2.방법론

-회귀분석

-의사결정트리

-인공신경망분석

-K평균 군집분석(Clustering)

-연관성 분석,연관규칙 분석

-앙상블 분석(배깅,부스팅,랜덤 포레스트)

 

앙상블 분석

˙주어진 자료로부터 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종 예측모형을 만드는 방법

˙여러 분류기를 하나의 메타 분류기로 연결하여 개별 분류기보다 더 좋은 일반화 성능을 달성

 

[방법]

˙여러 분류 알고리즘 사용:다수결 투표(Voting)

˙하나의 분류 알고리즘 이용:배깅(Bagging),부스팅(Boosting)

 


ex)랜덤포레스트

부스팅 

배깅


[용어 정리]

1)지지도(S): 전체 거래 중에서 얼마나 발생빈도가 높은가

2)신뢰도(C): A를 구매한 사람이 B를 구매할 확률은?

3)향상도(L): 그냥 B를 구매할 때보다 A를 구매한 사람이 B를 구매할 확률이 얼마나 더 높은가?