A/B Testing, 반드시 챙겨야 할 유의사항

철저한 설계로 실험 가치 높이기

[월드투데이 김새민 기자] A/B Testing은 이론만 들으면 굉장히 간단해 보인다. 쉽게 떠올릴 수 있는 생각은 다음과 같다.

빨간 휴지, 파란 휴지 중에 뭐가 더 인기가 많을까? 그거 아니야?'

그렇지만 A/B Testing은 그렇게 호락호락한 상대가 아니다. 짚고 넘어가야 할 사항이 있다.

유의사항

정말로 '그것' 때문일까?

A/B Testing 통계검정만으로 가치 있는 결과라고 쉽게 결론 내릴 수 있는 것이 아니다. 정말로 UI의 변화가 사용자 행동 변화를 유발했는지 알 수 없다.

넷플릭스 기술 블로그에서 A/B Testing을 설명하며 가상으로 진행한 실험이 있다.

[사진 = 넷플릭스에서 설명한 A/B testing 예시, netflix tech blog]

넷플릭스에서 썸네일 사진을 거꾸로 바꾸었다. 썸네일 사진이 거꾸로 되어있을 때 사용자의 흥미가 유발되어 클릭수가 증가할까?

결과가 그렇다고 하더라도 썸네일 변화가 원인이 되어 클릭수가 높아졌는지는 확신할 수 없다. 넷플릭스 기술 블로그 측에서는 실험 설계 시 외부 요인에 대해 지적한다.

해당 실험을 진행한 동시간에 기존 인기 콘텐츠의 새로운 시즌이 나왔을 수 있다. 사람들이 콘텐츠의 썸네일에 영향을 받아 클릭한 것인지, 인기있는 콘텐츠가 새로 나와서 클릭했는지는 알 수 없다.

여러 외부 요인으로 인해 썸네일이 변경되어 클릭수가 증가했다고 단정 짓기는 어렵다. 해당 기간 내에 신규 회원 이벤트를 진행해서 전체 회원 수가 늘었을 수도 있다.

A/B Tesiting의 가설을 검정하는 수치 지표인 메트릭을 설정할 때는 해당 지표가 가설을 증명하기에 적절한 수치인지 고민해야 한다. 전체 사용자 변화에 따른 영향을 줄이기 위해 클릭 횟수를 집계하는 방식이 아니라 클릭률로 메트릭을 설정하는 것이 대안이 될 수 있다.

◆ 군집 랜덤 샘플링

페이스북 광고와 인스타 광고에 서로 다른 그래픽을 적용했다. 페이스북 광고를 클릭한 사람들이 더 많았다고 하자. 여기서 페이스북 광고의 '그래픽'이 광고에 더 효과적이라고 말할 수 있을까? 우리는 '페이스북'에도 주목해야 한다. 페이스북 사용자가 인스타 사용자보다 해당 서비스에 더 관심을 많이 두는 군집일 가능성을 무시할 수 없다.

◆ 실험 기간

실험을 얼마 동안 진행할 것인가도 중요하다. 실험을 장기간으로 진행하는 것도 효율적이지 않고, 단기간 내에 결론을 내려 빠르게 개선사항을 배포하는 것이 이상적이다.

그렇지만 짧은 시간 내에는 데이터를 충분히 확보하기 어렵다. 특정 기간에 특별한 외부 이슈가 영향을 끼칠 수 있기 때문이다. 적정한 실험 기간 역시 여러 테스트를 거치며 조정해야 하는 부분이다.

실험 동안 보는 손해도 문제다. 크리스마스용으로 UI를 바꾸고 싶었다. 그렇다면 그 실험을 언제 할 것인가? 크리스마스에? 크리스마스용 UI를 이용하지 못한 비교군은 어떻게 되는 것일까?

◆ 무가설

A/B Testing을 왜 하는 것인지와 연결되는 사항이다. 가설 없이 진행한 A/B Testing은 쓸모없다. A/B Testing은 단순 한번의 실험으로 끝나서는 안 된다. 더 나은 의사결정을 돕는 인사이트 도출이 목적이어야 한다.

넷플릭스, 아마존, 에어비앤비와 같은 기업들도 모든 실험이 성공하는 것은 아니다.

쿠팡에서는 A/B Testing의 약점을 보완하고자 A/B Testing뿐 아니라 쿠팡 체험단에 서비스를 제공하는 사용성 연구도 참고하는 것으로 알려져 있다.

A/B Testing은 이론만 보면 새로운 서비스의 효과를 증명할 수 있는 쉬운 방법 같아 보여도, 그 안에는 실험으로서 통제해야 하고 고려해야 할 세세한 사항이 많다. 계속해서 질문하고 철저히 연구해야 한다.

그러나 까다로운 실험에서 도출된 인사이트는 그만큼 효율적인 의사결정에 도움을 준다. 오늘도 사용자에게 더 나은 서비스를 제공하고자 실험은 실시되고 있다.

상단영역

본문영역