A/B Testing, 실험으로 사용자 편의 잡기

실험 결과로 서비스 개선하는 방법

[월드투데이 김새민 기자] 인터넷 세상에 사는 우리들은 우리도 모른 채 실험 대상이 되기도 한다. 구글, 넷플릭스, 에어비앤비와 같은 IT 기반 기업들은 사용자들을 대상으로 A/B Testing을 진행하는 것으로 알려져 있다.

A/B Testing이란?

A/B Testing은 기존 서비스와 새로운 서비스를 통계적 방법으로 비교하여 새로운 서비스의 효과를 알아보는 방법론이다. 집단 간 대조 실험으로 사용자를 비교군과 대조군으로 나누어 비교군에는 기존의 서비스를 대조군에는 새로운 서비스를 제시한다.

사용자의 반응으로 서비스의 효과를 측정하여, 새롭게 바뀌는 UI나 새롭게 만든 알고리즘이 기존 서비스보다 효과적인지 증명할 수 있다.

새로운 서비스가 효과적이지 않다면 다른 관점으로의 개선방식을 모색하는 인사이트를 얻기도 한다.

왜 실험이 필요할까?

기업은 사용자가 꾸준하게, 더 많이 서비스를 이용하길 바란다. 따라서 사용자 편의를 염두에 두고 서비스를 개선하려 노력한다. 그런데 새롭게 구상한 서비스가 기존의 서비스보다 좋을지는 알 수 없다. 새로운 서비스가 정말로 효과적인지 검증하는 것이 안전하다.

실험 결과에 따라 기존 사항을 새롭게 개편하는 아이디어에 가미된 인사이트를 비즈니스에 활용할 수 있게 된다.

[사진 = 아마존이 A/B Testing 결과 상품 상세 설명을 추가함, goodUI 홈페이지]

아마존은 A/B Testing 결과를 바탕으로 상품의 상세 설명을 표기했다. 해당 상품은 하드디스크 드라이브로 개선된 상품 페이지에는 상품 견적이 추가되었다.

여기서 '상품 상세 설명'이 구매를 높이는 데 효과적이라는 걸 유추할 수 있다. 이 인사이트를 다른 상품에도 적용하면 된다. '노트북 파우치'라고 한다면 파우치에 들어갈 수 있는 노트북 사이즈를 제시하는 것이다. 이처럼 A/B Testing 결과를 이용해 별도의 실험 없이도 다른 카테고리의 상품마저 개선할 수 있다.

A/B Testing 단계

1. 가설 설정

2. 메트릭 설정

3. 실험 설계

4. 결과도출

1. 가설설정

가설설정 단계에서는 개선하고 싶은 사항을 찾고, 개선 사항을 어떻게 반영할 것인지 구체화해야 한다. 가설은 참ㆍ거짓을 판별할 수 있도록 명제로 표현한다.

탭 메뉴를 개선하고 싶다면, 가설에는 탭 메뉴를 어떻게 개선하는 것이 기존보다 더 나은 사용자 참여를 유도할 것인지를 반영한다.

여기서는 탭 메뉴에 글자와 아이콘이 함께 있는 것이 더 직관적일 것이라는 가설을 떠올려 볼 수 있다. 아이콘이 포함되었을 때의 효과를 확인하고 싶다면, 가설을 다음과 같이 세울 수 있다.

탭 메뉴에 아이콘이 포함되면 아이콘이 없을 때보다

사용자가 더 많이 클릭할 것이다.

[사진 = 실제 구글 탭메뉴 아이콘 여부 A/B Testing, goodUI 홈페이지]

2. 메트릭 설정

가설로 증명하고자 하는 것은 대개 '사용자의 참여가 늘었다'는 것과 같이 단순 현상이다. 이 현상을 어떻게 수치화할 것인지가 관건이다.

통계적으로 검증하기 위해서 '참여'의 수치를 파악할 수 있는 지표가 중요하다. 위의 가설에서는 '참여'를 '클릭수'라는 수치로 설정했다.

그 밖에도 클릭 여부, 가입 여부, 결제금액 등이 지표가 될 수 있다.

3. 실험 설계

실험환경은 비교할 서비스를 제외하고는 동일해야 한다. 따라서 변화를 준 사항 이외에 다른 외부 작용이 있어서는 안 된다.

먼저 실험을 진행할 군집을 설정할 때도 여러 방법이 있다.

사용자 분산 방식은 A 서비스와 B 서비스 제공 그룹을 고정하는 것이다. 어떤 사용자에게는 A만, 어떤 사용자에게는 B만 제공하는 방식이다. UI를 테스트할 때 사용하기 좋다. 다만 heavy user의 영향에 취약하다.

노출 분산 방식은 사용자에게 페이지를 로딩할 때마다 A와 B 중 한 서비스를 제공하는 방식이다. A와 B의 확률은 임의로 설정한다. 어느 정도의 비율( 예 : A는 60%, B는 40%)로 노출할 것인지도 고려 사항이다. 특정 UI가 페이지 로딩마다 바뀌는 것은 사용자에게 혼란을 야기하므로 알고리즘을 테스트할 때 주로 쓰는 방법이다.

시간 분산 방식은 시간에 따라 A와 B의 노출 시간대를 나누는 방식이다. 시간대는 초에서 분 등으로 세밀하게 나눈다. 예를 들어 홀수 분에 접속하면 A를, 짝수 분에 접속하면 B를 노출한다. 사용자 분산 방식을 이용하기 어려울 때 이용한다.

사용자 그룹을 나누는 방식이 여럿인 까닭은 비교군과 대조군을 나누는 것에 외부 요인을 줄이고자 사용자를 랜덤하게 배정하기 위해서이다. 실험 상황에 맞추어 적합한 방식을 택해 군집을 통제하는 것이다.

4. 결과 도출

실험을 설계했으면 충분한 기간을 두고 실험을 진행한다. 그 동안 설정해 둔 메트릭을 수집해 실험이 끝난 후 해당 수치를 활용해 통계 방법으로 검정한다.

종속변수가 범주형이면 로지스틱 회귀와 카이제곱 검정을, 이산형이면 T 검증과 분산분석 방식을 이용해 효과가 유의미한지 판단한다.

통계에서는 A의 클릭률이 B의 클릭률보다 높다고 말하지 않는다. 'A와 B의 클릭률에는 차이가 없다'고 가정하고, 이 가설에 대해 차이가 없는 값이 관찰될 확률을 T 통계량ㆍF 통계량 등으로 관찰한다. 차이가 없는 값이 관찰될 확률이 5% 미만이면 통계적으로 유의미하다, 즉 차이가 있다고 결론 내린다.

통계 검정은 AB Testing Tool에서 자체적으로 제공하기도 한다. 기업 자체적으로 툴을 보유하고 있는 곳도 있다.

상단영역

본문영역