[A/B테스트] 15장. 실험 노출 증가시키기

AB TEST

[A/B테스트] 15장. 실험 노출 증가시키기

Delants 2023. 8. 24. 14:22

본 내용은 [A/B테스트, 론 코하비 저] 교재를 활용하여 작성되었습니다.

https://product.kyobobook.co.kr/detail/S000060625360

A/B 테스트 | 론 코하비 - 교보문고

A/B 테스트 | 신뢰도 높은 실험을 설계하는 가이드를 제공한다. 특히 각각 과정이 더욱 정확하게 측정가능한 온라인을 대상으로 한다. 구글, 링크드인과 마이크로소프트의 빅테크 기업에서 전 세

product.kyobobook.co.kr

본문

15장. 실험 노출 증가시키기: 속도, 품질 및 위험의 트레이드오프 (P. 243 ~ 250)

1. 개요

실험은 제품 혁신의 가속화를 위해 보편적으로 쓰이고 있으나, 그 방법에 따라 혁신의 속도가 제한될 수 있다. 새로운 기능 출시와 관련해서 불확실한 위험을 통제하기 위해서는 실험에서 새로운 변수들에 대한 트래픽을 점차 증가시키는 램핑과정을 거치는 것을 권장한다. 원칙을 세워 작업을 수행하지 않으면 프로세스는 비효율 및 위험을 유발하게 된다. 램핑 과정에서는 속도, 품질, 위험이라는 세 가지의 주요 고려 사항의 균형을 효과적으로 유지해야 한다.

2. 램핑(실험 대상의 확대)

일반적으로 실험은 새로운 기능 출시와 관련된 불확실한 위험을 통제하기 위해 램핑 프로세스를 거친다. 램핑 과정을 거치지 않았을 경우 일어날 수 있는 부정적인 사례는 공개 첫 날에 사이트가 멈추어 버린 Healthcare.gov의 사례를 들 수 있을 것이다.

램핑 과정의 양을 어떻게 결정할 것인지도 중요한 문제이다. 램핑 과정이 너무 느리면 시간과 자원이 낭비되며, 너무 빠르면 사용자에게 피해를 입히고 최적이 아닌 결정을 내릴 위험이 있다. 그렇기에 램핑 방법에 대한 원칙과 프로세스를 자동화하고 원칙을 대규모로 시행하기 위한 도구가 필요하다.

주로 램프업 과정에 중점을 둔다. 램프다운 과정은 일반적으로 나쁜 변수가 있을 때 사용되며, 사용자 효과를 제한하기 위해 빠르게 0으로 종료한다. 대기업의 경우에는 자체 클라이언트측 업데이트를 통제하므로 일부 실험과 램핑 노출에서 사실상 제외된다.

램프 업이란, 제조업에서 쓰이는 용어로는 장비 설치 이후 대량 양산에 들어가기까지 생산 능력의 증가를 의미하지만, 실험에서의 램프 업은 실험대상을 확대하는 것으로 해석할 수 있다. 반대의 램프 다운이란, 실험대상을 축소하는 것으로 원래 1만명을 대상으로 예정되어 있는 실험을 8천명 수준으로 인원을 줄이는 것이 그 예시이다.

3. SQR램핑 프레임워크

램프 과정에서 어떻게 위험을 통제하고, 의사 결정 품질을 향상시키는 과정을 빠르게 반복할 수 있을까? 이를 해결하기 위해 먼저 온라인 종합 대조 실험을 실행하는 이유를 다시 나열해본다면 다음과 같다.

- 출시된 경우의 변수 적용의 효과 및 ROI(Return-On-Investment, 투자수익률)를 측정한다.

- 실험중에 사용자 및 비즈니스에 대한 피해와 비용을 최소화해 위험을 줄인다.

- 사용자의 반응에 대해 학습하고 잠재적 오류를 식별한 후 향후 계획에 반영한다.

오직 측정만을 위한 대조 실험을 할 경우, 최대 검정력 램프로 실험을 실행할 수 있다. 최대 검정력 램프란, 실험군을 100%로 증가시키는 것으로 가정하고, 실험군에 50%의 트래픽을 할당해서 가장 높은 통계적 민감도를 얻는 것을 의미한다. 이를 통해 가장 빠르고 정확한 측정이 가능하다. 문제 발생을 위한 우려가 있을 경우를 대비, 효과를 억제하면서 잠재적인 위험을 완화하기 위해 적은 노출로 시작하는 것이 일반적이다. 또한 운영상 새로운 서비스의 트래픽을 감당하기 위해 최대검정력 램프(mpr)와 100% 사이의 중간 램핑 단계가 필요할 수 있기 때문에 이를 잘 고려해서 트래픽 비율 실험을 진행해야 한다.

또 다른 예는 학습이다. 학습의 경우에는 장기 홀드아웃 램핑을 진행한다. 이의 목표는 최대 검정력 램프를 진행하는 동안 측정된 영향이 장기적으로 지속가능한지 여부를 수집하는 것이다.

4. 4단계의 램핑 단계

4단계의 램핑 단계는, 속도, 품질, 위험 균형을 맞추기 위한 원리와 방법을 설명한다. 목적을 단일 실험군을 100%로 램핑하는 것으로 하고, 최대 검정력 램프는 50%의 실험군 노출을 가진다고 가정한다. 이 때, SQR프레임워크는 각각 개별목적을 가진 4단계로 나눈다.

단계별로 요약해보자면 다음과 같다.

1단계 - 위험 완화를 위한 단계. 속도와 위험의 트레이드오프에 중점을 둠.

2단계 - 정확한 측정을 위한 단계. 속도와 품질의 트레이드오프에 중점을 둠.

3단계 - 추가 운영상의 문제를 다룸. 최대 검정력 램프 이후 진행하며 선택사항임.

4단계 - 장기 홀드 아웃. 장기적인 영향을 다루며 선택사항임.

램핑 1단계. MPR(최대 검정력 램프) 이전 단계

위험이 작은지를 알아내어 빠르게 MPR로 확장하고자 하는 단계이다. 이 과정에서는 다음과 같은 방법을 사용할 수 있다.

1. 동질적인 실험 집단을 작성하고 위험을 줄이기 위해 실험을 보다 확대된 실험 집단에 서서히 적용해 나간다.

- 첫 번째 테스트 모집단은 유의미한 데이터를 위한 트래픽이 충분하지 않으므로 대체로 정성적 피드백을 얻게 된다.

- 두 번째 테스트 모집단은 정량적 측정을 할 수 있지만, 통계적 유의성이 낮으므로 여전히 통제되지 않는다.

- 초기 테스트 모집단에서는 많은 버그가 있으며, 사용자가 내부자일 가능성이 높기에, 편향이 발생할 수 있다.

※ 일반적으로 사용되는 테스트 모집단은 다음과 같다.

a. 새로운 기능을 구현하는 팀과 같은 화이트리스트로 등록된 개인.

b. 회사 직원

c. 더 빨리 새로운 기능을 경험해보고자 하는 베타 사용자 혹은 내부자.

d. 식별하기 어려운 상호작용을 발견할 수 있도록 특정 데이터 센터에 의한 테스트

2. 원하는 할당량에 도달할 때까지 트래픽을 자동으로 조절한다.

- 원하는 할당량은 테스트 모집단이거나 미리 설정된 트래픽 할당 백분율일 수 있다.

- 원하는 할당량이 적은 비율인 경우 해당 할당량에 도달할 때까지 추가시간을 가지는 것은 실험을 과하게 지연시키지 않으면서도 악성 버그의 영향을 제한할 수 있다.

3. 주요 가드레일 지표에 대한 실시간 측정

- 실험의 위험 정도를 빨리 파악할수록 더 빨리 다음 램핑단계의 진입을 결정할 수 있다.

램핑 2단계. MPR(최대 검정력 램프) 단계

MPR은 실험의 영향을 측정하기 위한 램핑 단계이다. 이 램핑 단계는 시간에 따른 영향을 파악할 수 있을 정도로 충분히 길어야 한다. 만일, 하루 동안만 실험이 진행된다면 결과가 편향되어 나타날 가능성이 크다. 또한, 주중 방문 사용자와 주말 방문 사용자의 특성이 다를 수도 있다.

일반적으로 실험 시간이 길수록 분산이 작아지지만, 차이가 나는 정도는 더 오래 기다릴수록 감소한다. 보통 변수 적용으로 인한 신기 효과*, 초두효과**가 없다면 일주일 정도의 시간이 적당하다고 한다.

* 새로운 것을 처음 접했을 때만 관심을 끌고, 익숙해진 뒤라면 관심을 끌지 못하는 효과

** 처음 봤을 때 느끼는 감정의 영향으로 그 사람, 현상, 사물에 대해 형성되는 고정관념

램핑 3단계. MPR(최대 검정력 램프) 이후 단계

MPR단계가 진행되면서, 최종 사용자의 영향에 대한 운영 상의 영향이 없어야 한다. 있더라도 초기 단계에 해결되는 것이 가장 좋다. 늘어나는 인프라에 대한 트래픽을 감당할 수 있을지 우려하는 경우 100%에 도달하기 전에 추가적인 램프 단계가 필요한 경우가 있다. 이러한 램핑 단계는 하루 안에 끝나야 하며, 트래픽이 가장 많이 발생하는 시간대를 모니터링해야 한다.

램핑 4단계. 장기 홀드아웃 또는 반복 단계

특정 사용자가 오랫동안 변수에 노출되지 않는 장기 홀드아웃은 램핑의 기본 단계로 설정하지 않아야 한다. 고객이 동등한 비용을 지불했지만 우수한 경험을 지연시킨다면 이는 비윤리적일 수 있으므로 실제로 유용할 수 있는 경우에만 장기 홀드아웃을 결정해야 한다.

장기 홀드아웃이 유용한 3가지

1. 장기 실험 효과가 단기 효과와 다를 수 있을 경우.

- 실험에 신기효과, 초두효과가 있다.

- 주요 지표에 대한 단기적 효과가 세다.

- 단기적 효과는 미미하나, 시간이 경과함에 따라 효과가 나타날 것으로 예상된다.

2. 재방문과 같은 목표를 볼 경우.

3. 더 오래 기다림으로써 분산 감소의 이점이 있는 경우.

만일 예상하지 못한 실험 결과를 얻었을 경우에는 다시 실험해 보는 것이 좋은 방법이다. 결과가 동일하게 유지된다면 결과는 신뢰할 수 있을 것이다. 반복은 간단하면서도 효과적인 오류 제거 방법이다. 하지만, 실험 반복이 계속될 경우 최종 결과는 과대평가될 수 있음에 유의한다. (= 과대적합문제, 다른 실험에 일반화하기 어렵다.) 다만, 해당 실험에 한해서는 다중 테스트 문제를 줄이고 편향 없는 추정치를 제공할 수 있으므로 상황에 맞게끔 반복을 수행한다.

최종 램핑단계 이후

램핑단계가 100%로 진행된 후에는 실험의 구현 세부사항에 따라 정리가 필요할 수 있다. 그 예로 사용하지 않는 코드 정리, 파라미터 시스템 상에서 새로운 파라미터 값을 기본값으로 사용하는 것 등이 있다. 이러한 프로세스는 개발 프로세스에서 간과될 수 있지만, 실전 프로덕션 시스템을 정상적으로 유지하는 데 의의를 둔다. 만일 사용하지 않는 코드가 정리되지 않은 상태로 남아있고, 해당 코드가 실행된다면 시스템 작동이 불능되는 등 문제가 야기될 수 있다.

끝.

퀴즈

1. 다음 설명 중 옳은 것만을 모두 고르시오.

1) 램핑 과정이 빠를수록 더욱 효과적인 실험 통제를 할 수 있다.

2) 학습의 경우 최대 검정력 램프로 진행한다면 실험의 의사결정 품질을 향상시킬 수 있을 것이다.

3) MPR이전 단계에서는 테스트 모집단을 확보하고, 일정 수준의 할당량에 도달할 때 까지 트래픽을 조정하고 측정한다.

4) 장기 홀드아웃 반복단계에서는, 특정 사용자가 오랫동안 변수에 노출되지 않는 경우도 모두 포함하여 램핑의 기본 단계로 설정하여야 한다.

5) 4단계의 램핑 단계는 속도, 품질, 위험, 균형을 맞추기 위한 원리와 방법을 설명한다.

정답 (드래그하면 보입니다.)

3,5

<풀이, 드래그하면 보입니다.>

1- 램핑과정이 너무 느려도 좋지 않고, 너무 빨라도 좋지 않다. 적절한 수준의 램핑의 조절을 통해 최적의 의사결정을 실행할 필요가 있다.

2- 학습의 경우, 장기홀드아웃램프로 진행한다면 의사결정 품질을 향상할 수 있다. 최대검정력 램프는 측정만을 위한 대조 실험 방법의 경우 사용되는 기법이다.

4- 특정 사용자가 노출되지 않는 경우는 제외한 것을 장기 홀드아웃 기본 램프에 포함시켜야 한다.