Search

scipy.stats 모듈

↓ 아래를 참고했습니다.
해당 모듈은 확률 분포, 요약 통계, 빈도, 상관관계, 통계 검정, 커널/밀도 추정 등과 같은 방대한 클래스를 제공한다.

Probability distributions

각각의 단변량 분포에 대한 함수들은 rv_continuous subclass 에 포함된다. ( 이산형 분포에 대해서는 rv_discrete subclass 를 사용)

Hypothesis tests and related functions

통계적 가설 검정과 관련된 함수등을 제공한다.

일표본 검정 / 대응표본 검정

일표본 검정
하나의 표본이 특정 분포에서 나왔는지, 혹은 특정 값(표본 정규분포에서의 평균 0)과 차이가 없는지를 검증한다.
ttest_1samp : 한 표본의 평균에 대해 t - test 검정
shapiro : 정규성을 검증하기 위한 방법 중 하나
normaltest : 표본이 정규분포와 다른지를 검정

Association / Correlation 검정

관계가 있는지를 검증하는 통계 기법. 다변량이나 두개 이상의 샘플간의 관계를 파악할 때 사용
pearsonr : 피어슨 상관관계를 검증. testing non-correlation
spearmanr : 스피어만 상관관계를 검증. testing non-correlation
비모수적 방법
값의 순위에 대해 상관계수를 구하는 방법
ex ) 수학 과목 순위와 영어 과목 순위의 상관계수
데이터 내 편차에 민감
kendalltau : 켄달 타우 상관관계
비모수(모집단의 특정 분포를 가정하지 않음, 데이터 수가 적거나 정규성 검정에서 정규분포를 따르지 않을 때 사용)적 방법 중 하나
순위 상관계수의 한 종류
두 변수들 간의 순위를 비교해서 연관성을 계산
각 변수의 비교 대상의 상하관계가 같으면 concordant pair 라고 말한다.
샘플 수가 적거나 데이터의 동률이 많을 때 유용

Independent sample test

독립 이표본 검정. 두 가지 이상의 표본들이 독립적으로 동일한 모집단에서 나온 것인지 검정
ttest_ind : 두개의 독립 이표본 t-test 검정
mannwhitneyu : 맨 휘트니 U 검정. 두 집단 간의 차이를 분석하는데, 자료의 수치가 순위 척도이거나 표본 수가 30미만이면서 정규성을 만족하지 않을 때 사용하는 방법

분산 분석

비교하고자 하는 집단이 2개 이상일 경우에 분산분석을 이용한다.