데이터프레임으로부터 무작위(임의) 표본 추출(random sampling) 하는 방법이다.
•
데이터프레임으로부터 특정 개수의 표본을 무작위로 추출(number)
•
데이터프레임으로부터 특정 비율의 표본을 무작위로 추출(fraction)
•
데이터프레임으로부터 복원 무작위 표본 추출
•
데이터프레임으로부터 가중치를 부여하여 표본 추출(weights)
•
데이터프레임으로부터 칼럼에 대해 무작위 표본 추출 (axis=1)
•
데이터프레임으로부터 특정 칼럼에 대해 무작위 표본 추출한 결과를 numpy array로 할당하기
df.sample(n, frac, replace, weights, random_state, axis)
1.
df.sample(n, random_state=0)
전체 관측치 중에서 n개의 관측치를 무작위로 추출. random_state 는 재현 가능성을 위해 임의의값으로 설정
2.
df.sample(frac, random_state=0)
전체 관측치 중에서 특정 비율만큼의 관측치를 무작위로 추출. (frac 값은 0 ~1 사이)
3.
df.sample(n, replace=True, random_state=0)
복원 추출. 기본값은 replace=False 로 비복원추출이다.
4.
df.sample(n, weights = ‘칼럼 이름’)
특정 칼럼값이 클수록 뽑힐 확률이 더 크도록 추출하는 방법.
5.
df.sample(n, random_state=0, axis=1)
행이 아닌, 칼럼에 대해서 무작위로 추출. 행은 전체 반환.
6.
df[’특정 칼럼’].sample(n, random_state=0)
특정 칼럼(시리즈)에 대해 무작위 추출 , 결과는 시리즈