본 내용은 [A/B테스트, 론 코하비 저] 교재를 활용하여 작성되었습니다.
https://product.kyobobook.co.kr/detail/S000060625360
A/B 테스트 | 론 코하비 - 교보문고
A/B 테스트 | 신뢰도 높은 실험을 설계하는 가이드를 제공한다. 특히 각각 과정이 더욱 정확하게 측정가능한 온라인을 대상으로 한다. 구글, 링크드인과 마이크로소프트의 빅테크 기업에서 전 세
product.kyobobook.co.kr
본문
23장. 장기 실험효과 측정 (P. 327 ~ 339)
1. 개요
측정하려는 효과가 누적되는데 수개월 또는 수년이 걸리는 장기적 효과가 있을 수 있다. 이는 제품과 서비스가 민첩한 방식으로 빠르고 반복적으로 개발되는 온라인 세상에서 이러한 효과는 측정하기 어렵다. 이는 활발히 연구되고 있는 영역이며, 이런 문제 본질을 따라가기 위해서는 주요 난점과 현재 방법론을 이해하는 것이 유용하다.
2. 장기적 효과란 무엇인가?
장기적 효과에 대해 알아보기 전, 단기 효과에 대해서도 살펴볼 필요가 있다. 해당 교재에서 대부분 시나리오는 1~2주 정도 동안 실험을 진행하는 것을 권장하고, 이러한 짧은 기간에 측정된 실험 효과를 단기 효과라고 한다. 대부분의 실험에서 이 단기 효과는 안정적이므로, 단기효과를 이해하는 것만으로도 충분할 수 있다. 하지만 단기 수익은 증가하지만, 장기 수익이 감소하는 경우도 있을 수 있는 등 일부 다른점도 존재한다.
장기 효과는 이론적으로는 몇 년 후에도 지속될 수 있는 실험의 점근적 효과로 정의된다. 실제로 장기효과는 3개월 이상으로 간주하거나 노출횟수를 기준으로 하는 것이 일반적이다. 해당 논의 과정에서는 뉴스 헤드라인과 같이 수명이 수 시간인 것들 역시 제외한다. 만약 이러한 주제의 짧은 수명의 수명의 변화에 대해서 실험을 진행하는 특별한 경우가 아니라면, 일반적으로 새 실험을 테스트하고자 할 때, 장기적으로 어떤 성과를 가져올지에 대해 알고 싶을 것이다.
OEC를 결정하는데 있어 한가지 핵심 과제는, 그것이 단기적으로 측정될 수 있어야 하지만 장기적인 목표에 인과적으로 영향을 미칠 것으로 예상되는 것이어야 한다는 점이다. 장기 효과의 측정은, 장기 목표에 영향을 미치는 단기 지표를 개선하고, 고안하기 위한 통찰을 제공할 수 있다.
3. 실험 효과가 단기와 장기간에 다를 수 있는 이유
1) 사용자 학습 효과
사용자가 변화를 학습하고 이에 적응하면 행동이 바뀐다. 예를 들어, 작동정지는 좋지 않은 경험이지만, 한 번 발생한다고 사용자가 떠나지는 않는다. 하지만, 자주 발생한다면 사용자가 떠날 수 있다. 행동 변화는 사용자가 기능을 발견할 수 있는지 여부에 따라 영향을 받지만, 만일 그들이 유용성을 발견하면 많이 참여하게 된다.
또한, 사용자는 새로운 기능에 적응하는데 시간을 필요로 할 수 있는데, 이는 이전 기능에 익숙해져 있거나, 처음 도입될 때 새로운 변경 사항을 더 많이 탐색하기 때문이다. 이러한 경우에는 사용자가 최종적인 균형점에 도달하기 때문에 장기 효과와 단기 효과가 다를 수 있다.
2) 네트워크 효과
사용자가 페이스북 메신저와 같은 SNS에서 라이브 비디오 기능을 사용하는 친구를 보면 그들도 사용할 가능성이 높다. 어떤 기능이 네트워크를 통해 전파될 때 그 효과가 완전히 나타나는데 시간은 걸릴 수 있지만, 사용자 행동은 네트워크의 사람들에 의해 결국은 영향을 받는 경향이 있다.
제한된 자원은 장기적인 영향을 측정할 때 추가적인 문제를 발생시킨다. 예를 들어 에어비엔비와 같은 양면시장의 새로운 기능은 임대 주택 수요를 유도하는데 매우 효과적일 수 있지만, 공급이 이 수요를 따라잡는데까지는 더 오래 걸릴 수 있다. 그 결과, 공급 부족 문제로 인해 늘어난 수요가 수익에 실제로 영향을 미칠 때 까지는 시간이 걸릴 수 있다.
위 시장 뿐만 아니라 채용 시장, 광고시장, 추천 시스템, 인적 네트워크와 같은 경우에도 이러한 장기적인 경향이 다르게 나타날 수 있다.
3) 지연된 경험 및 측정
사용자가 전체적인 실험 효과를 경험할 때 까지 시간차가 있을 수 있다. 예로, 에어비엔비와 같은 회사의 경우, 온라인 경험과 사용자가 물리적으로 목적지에 도착하는 것 사이에는 몇 개월의 간격이 있을 수 있다. 사용자 유지와 같은 지표는 사용자 일정 지연으로 인해 영향을 받을 수 있다.
또 다른 예는 연간 계약이다. 가입한 사용자는 연도가 끝날 시점에 결정을 해야하고, 해당 연도의 누적 경험이 갱신 여부를 결정한다.
4) 생태계 변화
생태계의 많은 것들은 시간이 지남에 따라 변하고, 다음과 같이 사용자가 변수에 반응하는 방식에 따라 영향을 미칠 수 있다.
- 다른 새로운 기능의 출시
- 계절성 : 크리스마스 기프트 카드는 해당 시즌이 아니면 효과를 보기 어렵다.
- 경쟁 환경 : 경쟁업체에서 동일한 기능을 출시하면, 해당 기능의 가치가 하락한다.
- 정부 정책: 유럽연합의 경우 사용자가 온라인 데이터를 통제하는 방법과, 온라인 광고 타겟팅에 사용할 수 있는 데이터를 어떤것으로 할지를 변경한다.
- 컨셉 드리프트 : 업데이트 되지 않은 데이터에 의해 훈련된 머신러닝 모델의 성능은 시간의 흐름에 따라 저하될 수 있다.
- 오래된 소프트웨어 : 기능 출시 이후 유지관리되지 않는 소프트웨어는 성능이 저하될 수 있다.
4. 장기 효과를 측정하는 이유는 무엇인가?
1) 기여도 분석
강력한 데이터 기반 문화를 가진 회사는 실험 결과를 사용해 팀 목표와 성과를 추적하고, 실험 결과를 장기 재무 예측에 통합할 수 있다. 이러한 시나리오에서는 실험의 장기적 영향에 대한 적절한 측정 및 기여도 분석이 필요하다.
2) 조직적인 학습
단기와 장기의 차이점은 무엇인가?, 차이가 크면 원인은 무엇인가? 초두 효과가 강한 경우 이는 최적이 아닌 사용자 경험을 나타낼 수 있다. 예를 들어, 사용자가 좋아하는 새로운 기능을 발경하는데 너무 오래 걸리는 경우, 제품 교육을 사용해서 신속하게 활용하도록 할 수 있다. 반면, 많은 사용자가 새로운 기능에 매력을 느끼지만 단지 한 번만 사용한다면 품질이 낮거나 클릭을 위한 미끼일 수 있다. 차이점에 대해 학습하는 것은 후속 반복 작업을 개선하는데 통찰을 줄 수 있다.
3) 일반화
대부분의 경우 일부 실험에 대한 장기적인 영향을 통해 다른 실험의 결과를 추정할 수 있다. 유사한 변경이 장기적으로 얼마나 많은 영향을 미치는가? 특정 제품 영역에 대한 일반 원칙들을 도출할 수 있는가? 와 같은 점이다. 만약 우리가 장기적인 효과를 일반화하거나 예측할 수 있다면 의사결정 과정에서 이러한 일반화를 고려할 수 있다. 특히, 시간이 지남에 따라 반복 가능성이 없는 큰 충격으로부터 장기적인 영향을 분리할 수 있다.
5. 장기 실험
장기 효과를 측정하는 가장 간단하고, 널리 사용되는 접근법은 실험을 장기간 실행하는 것이다. 실험 시작과 종료에 실험 효과를 측정할 수 있다. 이 분석 접근법은 전체 실험 기간동안 평균 효과를 측정하는 일반적인 실험 분석과 다르다. 여기서는 원인 찾기와 기관의 학습이라는 목표를 중심으로 장기 효과 측정과 관련된 몇 가지 주제를 다룬다.
1) 기여도 분석에 대해
장기 실험의 마지막 주 측정값은 다음과 같은 이유로 진정한 장기 실험 효과를 나타내지 않을 수 있다.
- 실험 효과 희석
- 실험이 오래 진행될수록 사용자는 실험 기간 동안 여러 기기를 사용할 가능성이 높아짐.
- 사용자가 실험군과 대조군을 모두 경험할 가능성이 높아짐.
- 네트워크 효과의 증대로 인해, 더욱 광범위한 전달로 큰 유출이 발생할 가능성 존재
2) 생존 편향
실험을 시작할 때, 모든 사용자가 실험이 끝날 때까지 살아남는 것은 아니다. 실험군과 대조군 사이의 생존율이 다른 경우, 생존 편향의 영향을 받을 수 있다. 실험군이 쿠키 이탈을 유발하는 버그 또는 부작용을 들여오는 경우에도 유사한 편향이 존재할 수 있다.
3) 다른 새로운 기능과 상호작용
장기 실험이 실행되는 동안, 다른 많은 기능이 출시될 수 있으며, 테스트 중인 특정 기능과 상호작용할 수 있다. 이러한 새로운 기능은 시간이 지남에 따라 실험의 성과를 떨어뜨릴 수 있다.
4) 시간 외삽 효과 측정
단기효과와 장기효과의 차이를 실험군 자체에 의한 의미 있는 차이로 해석하기 위해서는 더 많은 실험과 연구가 필요하다. 귀속 문제 외에도, 계절성과 같은 외부적 요인이 작용할 수 있기 때문이다. 일반적으로 두 기간 사이에 기본 모집단, 또는 외부 환경이 변화하면, 더 이상 단기, 장기 실험 결과를 직접 비교할 수 없다.
물론, 기여도 분석, 시간 외삽 효과 측정과 관련된 문제 때문에 특정 장기 실험의 결과를 보다 확장 가능한 원리와 기술로 일반화하기는 어렵다. 또한, 장기 결과가 안정화되었는지 확인하는 방법과 실험을 중지해야 하는 시기에 대한 문제도 있다.
6. 장기 실험의 대체 방법
장기 실험 측정을 개선하기 위해 다양한 방법이 제안되었다. 아래 방법은 이러한 장기 실험의 대체 방법의 대안이 될 수 있지만, 모든 시나리오의 한계를 완전히 해결하지는 못한다. 이러한 제한 사항이 적용되는지 항상 평가하고, 만약 적용된다면 결과 또는 결과 해석에 어떠한 영향을 미치는지 평가할 필요가 있다.
방법1. 코호트 분석
실험을 시작하기 전, 안정적인 사용자 집단(코호트)을 구성하고, 해당 코호트에 대한 단기 및 장기효과만 분석할 수 있다. 이를 적용하기 위한 한 가지 방법은 로그인한 사용자 id와 같은 안정적인 식별장치에 기반한 코호트를 이용하는 것이다. 이 방법은 코호트를 안정적인 방식으로 추적하고, 측정할 수 있는 경우 희석 및 생존 편향을 해결하는데 효과적일 수 있다. 이에 대한 두 가지 고려사항이 있다.
- 효과적 측면에서 코호트가 얼마나 안정적인지 평가해야 한다.
- 코호트가 전체 모집단을 대표하지 않는 경우, 분석 결과가 전체 모집단으로 일반화 되지 않을 수 있으므로, 외적 타당성 문제가 있을 수 있다. 그러므로 전체 모집단을 대표할 수 있도록 표본을 선정해야 한다.
방법2. 사후 분석
이 방법에서는 실험을 한동안 실행한 후 실행을 중지하고, T및 T+1시간 동안 실험군 사용자와 대조군 사용자 간의 차이를 측정하는 방법이다.
사용자 경험 문제로 인해 새로운 실험을 축소할 수 없는 경우에도 모든 사용자들에 대해 실험을 진행할 수 있다. 이 방법의 핵심은 측정 기간 동안 실험군, 대조군의 사용자가 모두 정확히 동일한 기능에 노출되었냐는 것이다. 그러나 그룹 간의 차이가 발생할 수 밖에 없는데, 첫 번째 경우는 실험군이 대조군이 노출되지 않은 기능 세트에 노출되는 경우이고, 두 번째 경우는 실험군이 대조군보다 더 오랜 시간 동안 기능에 노출된 경우이다.
Hohnhold et al는 사후 기간 동안 측정된 효과를 학습 효과라고 부른다. 학습된 효과에는 두 가지 유형이 있다.
1) 사용자 학습 효과
사용자는 시간이 지남에 따라 변화를 학습하고 적응한다.
2) 시스템 학습 효과
시스템은 실험기간 중의 정보를 기억할 수 있다. 예를 들어, 실험이 더 많은 사용자가 자신의 프로필을 업데이트하도록 유도할 수 있으며, 이 업데이트된 정보는 실험이 종료된 후에도 시스템에 남아 있다.
충분한 실험이 가능하다면, 이 방법은 학습된 효과를 시스템 파라미터 기반으로 추정한 다음 새로운 단기 실험으로부터 장기효과를 추정할 수 있다. 이 추정은 실험군 및 대조군 사용자가 똑같은 기능 세트에 노출되는 a/a사후 기간과 같이, 시스템 학습 효과가 없을 때 합리적이다. 이 시스템 학습 효과가 있는 경우의 예로는, 장기적인 개인화, 옵트아웃, 구독취소, 광고 노출 횟수 초과 등과 같은 영구적인 사용자 상태 변경이 포함될 수 있다.
즉 이 접근법은 시간이 지남에 따라 변경되는 외부 요인과 새로 출시된 다른 기능과의 잠재적 상호작용과 같은 영향을 격리하는데 효과적이다.
방법3. 시간차 변수 적용
장기 측정을 수행하기 위해서는 충분히 기다려야 한다. 그렇다면 이 충분히 라는 정도는 어느 정도일까? 소박한 방법은 실험 효과의 추세선을 관찰하고, 이것이 안정화될 때까지 충분한 시간이 경과했다고 판단하는 것이다. 다만 이는 실험 효과가 시간이 지남에 따라 안정되는 경우가 거의 없기에, 좋은 방법은 아니다. 또한, 시간 경과에 따른 변동성은 큰 이벤트 또는 요일에 따른 변동성으로 인해 장기 추세를 압도하는 경향이 있다.
측정 시간을 정하기 위해 동일한 실험군에 대해 시차를 둔 두 가지 버전의 실험을 수행할 수 있다. 한 버전은 시간 t=0에서부터 시작하고, 다른 한 버전은 시간 t=1에서부터 시작한다. 주어진 시간의 t>1에 실험의 두 버전 간의 차이를 측정할 수 있다. 시간 t에서 t0 및 t1은 사용자가 실험에 노출되는 기간의 차이만 제외하면 a/a테스트이다. 이 둘의 차이가 유의한지 2표본 t검정을 실시할 수 있으며, 그 차이가 작으면 두 실험이 수렴했다고 결론내릴 수 있다. 실질적으로는 중요한 델타를 정하고, 이러한 두 비교가 감지할 수 있는 충분한 통계적 검정력을 가지고 있는지 확인하는 것이 중요하다. 이 시점에서 장기 효과를 측정하기 위해 시간 t이후 사후 분석을 적용할 수 있다. 두 실험 평균의 차이를 테스트하는 동안, 1종 오류율이 5%이상 높아지더라도, 2종 오류율을 20%보다 낮게 통제하는 것이 더 중요하다.
방법4. 보류와 역실험
모든 사용자에게 실험을 시작해야 하는 시간적 압박이 있는 경우 장기 실험이 불가할 수 있다. 이에 대한 대안은 홀드 아웃을 수행하는 것이다. 이는 90%사용자에 대해 실험을 실시한 후, 몇 주 동안 사용자의 10%를 대조군으로 유지하는 것이다. 홀드 아웃 실험은 장기 실험의 전형적인 형태이다.
역실험이라는 또 다른 방법도 있다. 역실험에서는 사용자의 100%로 실험군을 런칭한 몇 주 후 10%의 사용자를 대조군으로 다시 변경한다. 이 접근법의 장점은 모든 사람이 한동안 실험 효과를 받았다는 것이다. 이 방법은 네트워크 효과가 중요하거나, 시장에서 공급이 제한되는 경우에 네트워크 혹은 시장이 새로운 균형에 도달할 수 있는 시간을 준다. 다만, 실험군에서 눈에 띄는 변화가 관찰되는 중에 사용자를 다시 대조군으로 변경한다면 혼란스럽다고 느낄 수 있다는 단점이 있다.
끝.
-------------
확인문제
1. 다음 중 옳지 않은 설명을 모두 고르시오.
1) 사용자가 이전 기능에 익숙해져 있을 경우 장기 및 단기 실험을 진행하고자 할 때, 그 효과는 다를 수 있다.
2) 카카오택시는 택시 호출 탑승 서비스를 제공하고 있다. 이에 대한 실험을 측정할 경우, 장기적인 실험 효과를 측정하는데 유용하다.
3) 초두 효과가 강할 경우 최적의 사용자 경험을 나타낼 수 있다.
4) 일반화를 고려하게 된다면 시간이 지남에 따라 반복 가능성이 없는 큰 충격으로부터 장기적인 영향을 분리할 수 있게 된다.
5) 사용자가 실험군과 대조군을 모두 경험할 가능성이 높아진다면 생존 편향의 원칙에 의해 장기 실험의 효과가 나타나지 않을 수 있다.
정답 : 2,3,5 <<< 드래그하면 보입니다.
2. 맞는 설명이면 o, 틀린 설명이면 x로 모두 답하세요.
- 코호트 분석은 장기 실험 대체 방법 중 하나로, 실험을 시작하기 전 안정적인 사용자 집단을 구성하고 해당 집단에 대한 단기 및 장기효과를 분석하는 것이다.
( o / x )
- 사용자의 100%로 실험군을 런칭한 몇 주 후 10%의 사용자를 대조군으로 다시 변경하는 장기 실험의 대체 방법은 홀드 아웃이다.
(o / x)
정답 : o, x <<< 드래그하면 보입니다.
'AB TEST' 카테고리의 다른 글
[A/B테스트] 16장. 실험 분석 확장 (0) | 2023.08.28 |
---|---|
[A/B테스트] 15장. 실험 노출 증가시키기 (0) | 2023.08.24 |
[A/B 테스트] 13장. 계측 (0) | 2023.08.22 |
[A/B 테스트] 12장. 클라이언트 측 실험 (0) | 2023.08.22 |
댓글