📌

Base

참고 서적 - 그로스 해킹

1) 실험 설계

참고 서적 - 그로스 해킹

그로스 해킹 - YES24

그로스 해킹에 대한 실용적인 지침서!성장하는 서비스를 만들기 위해서는 필요한 데이터를 정의하고, 수집하고, 분석 환경을 구축하고, 실험하고, 서비스에 반영하는 일련의 과정이 잘 갖춰져야 합니다. 또한 성장을 위한 효율적인 조직 구조와 문화를 만들어야 합니다. ...

https://www.yes24.com/Product/Goods/96576416

그로스 해킹의 ‘성장 실험 : A/B test를 정리했습니다.

1) 실험 설계

1-1. 가설 설정

가설은 독립 변수와 종속 변수가 무엇인지 정의하고, 종속 변수의 목표 수준을 정하는 형태로 이뤄진다. 

ex)

︎ ‘서비스 소개를 텍스트로 보여주는 화면보다 이미지로 보여주는 화면에서의 가입 전환율이 높을 것이다.’

︎ ‘서비스 소개를 텍스트로 보여주는 화면보다 이미지로 보여주는 화면에서의 가입 전환율이 10% 더 높을 것이다.’

위에서처럼 구체적인 목표 수치를 정하는 것도 좋다고 한다

1-2. 실험 집단/통제 집단

가장 중요한 점은 통제 변수 관리와 엄격한 기준에 따른 샘플링이다. 

1-3. 독립 변수

독립 변수의 구체적인 수준을 어떻게 정의할 것인지 결정하는 과정이 중요. 

︎ 일반적으로는 2개 내외의 수준으로 진행

1-4. 종속 변수

종속 변수의 현재 수준을 측정하고, 실험을 통해 정확하게 어느 정도의 변화를 원하는지 정의해야 한다.

1-5. 통제 변수

독립 변수를 제외하고 종속 변수에 영향을 미칠 수 있는 ‘제 3의 변수’ 다. 
실험 설계에 경험이 없으면, 이 통제 변수를 정의하고, 관리하는 데 가장 큰 어려움을 겪고, 

실험 성패가 통제 변수를 잘 관리하느냐에 달린 경우가 많다. 

1-6. 샘플 크기

A. 실험 집단과 통제 집단 샘플링

랜덤 샘플링에 대해서

통제 변수가 관리되지 않은 상태에서 랜덤 샘플링을 하는 것은 무의미하다

ex) 회원 번호를 단순히 홀/짝 으로 나누기, 가입 시간을 홀/짝으로 나누기 등은 통제 변수인 가입 경로 를 고려하지 않았다.

올바른 예시

ex ) 여행 상품 추천 알고리즘 2개 중 어떤 것이 더 효과적인지 검증하고자 한다. → 고객 대상을 동일하게 만들어주기 위한 통제 변수에는 어떤 것이 있을까?

여행의 목적

출장

휴가

….

여행지

국가와 지역을 동일하게

B. 샘플 크기 설정하기

샘플 크기 계산기가 존재하는데, 온라인상에서 쉽게 볼 수 있다.

계산에 고려되는 변수들은 아래와 같다.

•

검정력

•

유의수준

•

검증하고자 하는 가설

2) 실험 설계 시 유의사항

순차 테스트는 A/B test 가 아니다. 

︎ 어쩔 수 없이 해야된다면 샘플링 과정에서의 놓친 통제 변수가 없는지 꼼꼼하게 검증하고, A-B-A 처럼 시차를 두고 다시 재차 테스트 해볼 수도 있다.

3) 실험 결과를 분석하는 방법

통계적으로는 p - value를 보는 것이 일반적이다.

하지만, 실무적인 유의성은 이와 함께 비용, 가치를 추가적으로 고려해야 한다.

p - value 올바르게 해석하기

틀린 예시

‘95 % 의 신뢰수준에서 A 조건의 (성과지표) 가 B 조건의 (성과지표) 보다 유의미하게 높다’ ≠

A 조건의 (성과지표)가 B 조건의 (성과지표)보다 높을 확률이 95% 다.

⭕️ 올바른 예시 ⭕️

‘A 조건과 B 조건 상의 성과 지표에 차이가 없다’ 라고 95% 의 확률로 가정했을 때, p - value 를 계산했는데 95% 신뢰 구간 밖의 수치가 나왔다면, 5% 라는 아주 작은 극단적인 수치값이 나온 것이므로 ‘A 조건과 B 조건 상의 결과에는 차이가 있다’ 라고 해석하면 쉽다.

p - value 값이 매우 극단적으로 작게 나올수록, 귀무가설을 반박할 수 있는 강한 검증이 되는 것!

종속변수에 따른 통계 검정 사용하기

•

범주형(클릭 여부, 가입 여부 등)

︎ 카이제곱, 로지스틱 회귀

Chi-Squared Test

Visual, interactive, 2x2 chi-squared test for comparing the success rates of two groups.

https://www.evanmiller.org/ab-testing/chi-squared.html

•

이산형(클릭 횟수, 결제 금액 등)

︎ T , 분산분석

Two-Sample T-Test

Visual, interactive two-sample t-test for comparing the means of two groups of data.

https://www.evanmiller.org/ab-testing/t-test.html

테스트 비용과 효과 크기

표본 크기를 너무 크게 설정하면 안된다

︎ 표본 크기가 커지면 자연스럽게 p -value 값은 낮아지는 특성이 있다. 결과가 왜곡될 수 있다.

p - value 가 유의미하더라도, 수치 차이가 미미하면 의미 없을 수 있다

︎ 이는, 비즈니스 상황을 고려해서 의미가 있을 수도, 없을 수도 있다.

비용, 가치(효과가 미치는 크기 또는 영향력)를 잘 판단해서 진행하든, 롤백하든 한다.

Case.

•

통제 조건 → 구매 전환율 3%

•

실험 조건 → 구매 전환율 3.5%

•

p < 0.01 

→ 전환율은 0.5% 상승, 통계적으로도 유의미한 수치가 나왔다.

이때, 내릴 수 있는 의사결정 Flow

[ 가정 1 ]

•

해당 서비스의 DAU(월활성유저수) 는 1,000명

•

ARPPU(결제 유저당 평균 매출) 는 10,000원

[ 실험 조건을 적용했을 때 ]

→ 매출 : 1000 * 0.005 * 10,000 = 일 50,000원의 추가 매출 발생

[가정 2]

•

해당 서비스의 DAU(월활성유저수) 는 1,000,000명

•

ARPPU(결제 유저당 평균 매출) 는 10,000원

[ 실험 조건을 적용했을 때 ]

→ 매출 : 1,000,000 * 0.005 * 10,000 = 일 5,000만원의 추가 매출 발생

A/B test 는 어제 최적이었지만, 오늘은 그 결과가 유효하지 않을 수 있다. → 지속적인 모니터링의 중요성️

또한, 전역적인 최적화가 아니라, 국지적인 최적화 방법이라는 것을 명심하자!