데이터 분석가에게 도움되는 자료들
데이터 분석가가 갖춰야 할 역랑
•
데이터에 대한 이해
데이터베이스에서 자신이 원하는 데이터를 추출할 수 있어야 합니다. 데이터는 점점 복잡하고 방대해지기 때문에 원하는 데이터 자체에 대한 이해가 필요합니다.
RDBMS(relational database management system)에서 사용하는 SQL에 대한 이해가 필요하고 Mongo DB와 같은 No SQL을 사용하는 데이터베이스를 위한 JSON에 대한 지식도 필요합니다.
•
분석 툴에 대한 이해
분석 Tool에서 사용하는 언어나 함수 및 라이브러리를 잘 익혀 데이터를 가공할 줄 알아야 합니다. 데이터 분석 도구는 다양합니다. 예를 들면 MS Excel, Python(Pandas), R, SAS, SPSS, 래피드 마이너, Anaconda, Tensorflow, Tableau, Qlik 등 여러 가지 도구가 있습니다. 가장 자주 사용되는 툴은 아래와 같습니다.
◦
오픈소스 : R, Python, Anaconda
◦
유료 : SAS, SPSS
•
통계 및 분석 방법에 대한 이해
데이터 분석가가에게 필요한 능력중에서 통계능력이 있는데 이 능력이 필요한 이유는 데이터와 도표를 뽑아냈는데 이것을 어떻게 결과를 도출해야할지 모릅니다. 이때 필요한게 통계 기법입니다. 대표적인 통계 기법은 아래와 같습니다.
1.
집단 간 비교 검증
•
교차분석 : 범주형 자료의 두 개 이상 변수들 사이의 “관련성”을 알아보기 위함
•
차이검증(T-test) : 두 집단간의 차이가 유의한가를 검증하기 위해 사용. “유의하다” 라는 의미는 확률적으로 단순한 우연이라고 생각되지 않을 정도로 의미가 있다는 뜻.
•
변량 분석, 분산 분석(Anova) : 통계학에서 두 개 이상 다수의 집단을 비교하고자 할 때 집단 내의 분산, 총평균과 각 집단의 평균 차이에 의해 생긴 집단 간 분산의 비교를 통해 만들어진 F분포를 이용하여 가설검정을 하는 방법
2.
변수 간 관련성 검증
•
상관 분석 : 두 변수간에 어떤 선형적 또는 비선형적 관계를 갖고 있는지 분석
•
회귀 분석 : 인과관계, 독립변수가 종속변수에 영향을 미치는 정도를 분석
중요한 비즈니스 커뮤니케이션 역량
데이터 분석가는 언어 역량 외에도 커뮤니케이션 역량이 필요하다. 잦은 협업 때문이다.
•
문제 정의 능력
무엇을 해결하고자 하는지 명확하게 알지 못하면 문제를 해결할 수 없습니다. 따라서 데이터를 분석하기 전에 원하는 목적과 비즈니스 임팩트가 무엇인지를 구체적으로 정의하는 것이 중요합니다.
•
결과 전달 능력
이해관계자가 잘 이해할 수 있는 방식으로 결과를 전달해야합니다. 예를 들면 데이터 시각화 할대는 다양한 도표들이 있는데 여기서도 적절한 것을 골라야 하고 또한 여러 가지 통계 기술을 통해 설명해야 합니다.