作者:刘剑阁(刘剑阁),数据分析师
实验设计AB测试实验一般有两个目的:
我们一般熟悉上述第一个目的。出于第二个目的,数据分析师和经理量化收入和计算投资回报率通常非常重要。
为一般的ABTest实验,本质上是将平台流量平均分成几组,每组添加不同的策略,然后根据这些组的用户数据指标,如核心指标如保留率、人均观看时长、基本互动率等。,最佳组最终被选中上线
实验的基本步骤一般如下:
流分布实验设计有两个目标:
希望尽快得到实验结论,
希望尽快做出决策,利益最大化,对用户体验影响最小
。因此,经常需要权衡流量分布。一般来说,有以下几种情况:
不影响用户体验:用户界面实验、文案实验等。一般来说,流量实验可以均匀分布,实验结论
的不确定性强的实验可以快速得到:如果产品的新功能上线,一般需要小流量实验来最小化用户体验的影响,在允许的时间内可以得到
的最大预期收益的实验:如操作活动等。为了尽可能使效果最大化,通常需要大流量实验,并留出一小部分对照组来评估ROI
。根据实验的预期结果、大市场中的用户数量和实验所需的最小流量,可以使用网站计算所需的样本量:
以第二天的保留率为例,当前大市场第二天的保留率为80%。预计实验可提高0.2磅(此处的保留率可转换为点击率、渗透率等)。只要它是比例值。如果估计不正确,为了保证实验能得到结果,这里可以低估也不能高估,即0.2pp是预期要改进的最小值)。网站计算出最小样本量为63W如果我们预期要改进的指标是人均持续时间、人均VV等。,它可能更复杂,我们需要用T检验进行反算。所需样本量:
实验效果让我们以一个稍微复杂一点的操作活动实验为例。活动包括方案1和方案2。同时,为了量化投资回报率,对照组没有任何操作活动。
需要回答几个问题
方案1或方案2,哪个更好?
哪个投资回报率更高?
从长远来看哪个更好?
个不同的组之间有什么区别吗?
问题1,方案1还是方案2,哪个更好?
仍然使用假设检验。保留率、渗透率等漏斗指标采用卡方检验:
。人均平均长度等平均指标采用t检验:
通过上述假设检验。如果结论是可信的,我们可以得到计划1和计划2哪个指标更好(有显著差异)。不相信的结论是,虽然计划1和计划2的指标可能略有不同,但这可能是由于数据的正常波动
问题2,哪个投资回报率更高?
通常有活动,而没有活动,各种指标如保留期和平均持续时间都很重要。我们不再重复上述假设检验过程。
对于投资回报率计算,每个实验组件都可以根据成本直接计算。就收入而言,应该与对照组进行比较。假设总日活动天数(即DAU日总和)作为收入指标,有必要假设没有开展经营活动,DAU可由控制组计算。也就是说,
实验组假设无活动天数=对照组活动天数*(实验组流量/对照组流量)
实验组收入=实验组活动天数-实验组假设无活动天数
,因此可以量化每个方案的投资回报率
问题3,从长远来看,哪个更好?
这里应该考虑新颖性效果的问题。一般来说,在实验的早期阶段,用户可能会因为新奇而产生良好的效果。因此,在进行评价时,有必要在进行评价之前观察指标的稳定状态。例如,有时会出现
。就在发布之前,实验组的效果更好,但是在结束时间之后,用户的新奇感已经过去,而实验组的效果可能更差。因此,从长远利益的角度来看,我们应该选择对照组。欺骗我们的是实验组的新奇效果。在实验分析过程中,应去掉新奇效果部分。稳定后,第四个问题
需要评估。不同用户组之间有什么区别吗?
在许多情况下,实验组对新用户更好,而对照组对老用户更好。年轻实验组和中年对照组效果更好。作为一名数据分析师,
在分析实验结果时也应该注意用户群体的差异。在
实验实验结束时,要求
实验反馈实验结论,包括直接效应(渗透、保留、平均持续时间等。),ROI
充分利用实验数据,进一步探索和分析不同用户群体和不同场景之间的差异,提出探索性分析
,进一步对发现的现象提出假设。进一步的实验表明,
,一个更高层次的实验
,可能有几十个实验同时进行长期业务。它不仅比较每个小迭代的差异,还比较特殊项目对大市场的贡献以及整个部门对大市场的贡献。因此,有必要应用实验的分层管理模型。
与每个产品细节迭代的结果相比
与每个项目在一个阶段中的贡献相比
与整个项目在一个阶段中的贡献相比
通过多个活动的交集量化的实验设计作为数据分析师,多团队合作经常会遇到多个业务的交集问题。以我最近主要负责的春节活动为例,老板会问:
春节活动——DAU红星包子活动贡献了多少?春节活动——DAU的家庭剪辑活动贡献了多少?
春节贡献了多少DAU?
更严格一点。我们用AB实验来计算,最后我们可能会发现一个问题:春节活动的每个子活动的贡献之和不等于春节活动的贡献。为什么?
有时,活动a和活动b具有相互放大的功能,此时将是1+1 > 2
有时,活动a和活动b本质上是在做同样的事情,此时将是1+1 <在2
的这个时候,当我们精确地量化春节活动的贡献时,我们需要一个[贯穿的控制组]所有的活动,这在AB实验系统中通常被称为渗透层。
(描述:在实验中,每层的流量是正交的。简单理解:例如,层A的划分使用用户标识的倒数第二位,层B的划分使用用户标识的倒数第二位。在随机用户标识的情况下,倒数第二位和倒数第二位是不相关的,也称为相互独立的。我们称它们为正交的当然,AB测试实验系统的真实分流逻辑使用复杂的散列函数和正交表来确保正交性。)
这样分层后,我们可以用下面的方式量化贡献:
计算春节活动的总贡献:实验填充层-填充层填充组VS渗透层-渗透层填充组
计算活动A的贡献:在活动A实验层,实验组VS控制组
计算活动B的贡献:在活动B实验层,而实验组VS控制组
业务迭代,如何与其自身进行比较事实上,渗透层的设计不仅可以应用于多个活动场景,有些场景,我们的业务需要与我们自己的去年或上个季度进行比较,同时,业务在很多方面都在不断地使用AB Test迭代类似于上述分层设计,这在推荐系统中更常见。在某些产品或系统中,渗透层不能完全没有策略,那么去年或上个季度采用的策略代表基准值。为了量化新周期的增量贡献
,我们可以量化每个小迭代
对整个系统的贡献:在实验层的实验组与对照组的
周期中,系统的所有迭代与前一周期的比较:实验填充层与渗透层1(或渗透层2)
,同时,我们可以量化去年策略的自然增长或下降。为了衡量旧系统是否具有长期适用性(作为系统设计者,应鼓励设计具有长期适应性的系统):渗透层1(上一季度的策略)VS渗透层2(去年的策略)
更复杂的实验设计我以我目前负责的业务显微视觉任务福利中心的实验设计为例,给出一个更复杂的实验系统设计的例子。上述两个目的是综合在一起的:
量化每个实验迭代给系统带来的增量贡献量化每种类型的迭代(如用户界面迭代和策略迭代),增量贡献量化系统在一个阶段量化任务福利中心在前一个周期(季度和年度)作为一个整体的整体投资回报率(本质上,它是给用户一些激励,促进用户活动和获得更多的商业利益)。因此,与推荐系统不同,有必要有一个没有任务福利中心的控制组,并且用户量化投资回报率)