인덱스 활용
1.
set_index()
데이터프레임의 특정 열을 행 인덱스로 설정
→ df.set_index([’열 이름’] 또는 ‘열 이름’, inplace=False)
2.
reindex() : 행 인덱스 재지정
행 인덱스를 완전히 새로운 배열로 재지정
→ df.reindex(새로운 인덱스 배열, fill_value = ?)
행 인덱스에 데이터가 존재하지 않는다면 NaN 이 채워진다.
3.
reset_index() : 행 인덱스 정수형 위치 인덱스로 초기화. 기존 행 인덱스는 열로 이동.
→ df.reset_index()
4.
sort_index() : 행 인덱스를 기준으로 데이터프레임 정렬.
→ df.sort_index(ascending=False,inplace=False)
5.
sort_values() : 특정 열의 데이터프레임을 기준으로 데이터프레임 정렬.
→ df.sort_values(by = ‘열 이름’, ascending=False,inplace=True)
시리즈와 시리즈 연산
기준은 인덱스다. 같은 인덱스의 원소끼리 계산한다.
따라서 어느 한쪽에만 인덱스가 존재한다든지 짝을 지을 수 있는 동일한 인덱스가 없는 경우, 정상적으로 연산을 처리하지 못한다. 따라서 해당 값들은 NaN처리가 된다.
•
연산 메소드
◦
add() : 두 시리즈를 더해준다. fill_value 옵션을 설정해서 NaN값을 채워넣을 수 있다.
→ sr1.add(sr2, fill_value=0)
◦
sub() : 두 시리즈를 빼준다.
→ sr1.sub(sr2, fill_value=0)
◦
mul() : 두 시리즈를 곱해준다.
→ sr1.mul(sr2, fill_value=0)
◦
div() : 두 시리즈를 나눠준다.
→ sr1.div(sr2, fill_value=0)
데이터프레임과 데이터프레임 연산
데이터프레임은 행과 열이 동일한 값끼리 연산한다. 마찬가지로 한쪽에 원소가 존재하지 않거나 NaN값이면 결과도 NaN 이다.