测试产品假设已成为任何业务的重要组成部分,大多数先进的公司通过 A/B 测试评估变更的影响。根据科学获得的真实数据进行产品更改,可以让更快地成长。我们主要为用户生产产品,而不是为我们自己生产,并且希望在决策过程中尽量减少主观评价。
在本文中,我们将尝试了解为什么无法从 AB 测试中始终获得结果的原因,通过结果,我们不仅意味着关键指标的增长,还意味着获得知识。
我们主要想涵盖在 AB 测试的设计阶段出现的问题,但我们也会看看 AB 测试评估的问题。
假设中没有假设
假设是需要证明的陈述,而假设是根据支持它的许多观察结果陈述的,因此被认为是合理的。然后,假设要么被证明,要么变成事实,要么被推翻。
因此,测试应基于引导得出假设的研究。如果测试看起来像“让我们切换这些屏幕”或“让我们尝试不同的颜色/字体”,不应该期待积极的结果,如果没有数据,这只是一个猜测过程,统计数据对不利。“更多的测试=更多的错误” 如果在做决定时以 95% 的统计显着性为指导,那么在十次测试中做出错误决定的几率大约是 40%。
太明显了做测试
有一个相反的例子 - 如果假设得到多项经验经验的支持,那么在 AB 测试上浪费时间是不值得的,例如,应用程序中的快速加载比缓慢加载要好。
但是,当然,它需要良好的专家评估。
试图影响依赖指标
.也许这是经典情况之一:产品没有像在线商店那样清晰的漏斗,并且正试图找到与主要业务指标相关的指标。例如,对于社交应用,主要指标是留存率,但由于它是一个滞后指标(尤其是 30 天以上),必须寻找一个能够尽快预测留存率的指标,然后将其考虑为 AB 的增长测试。
根据我们的经验,这是一种低效率的方法,如果想影响留存率等指标,请在评估测试时依赖它。
指标太多
或者多重比较。与许多 AB 测试一样,很多并不意味着更好。如果查看大量指标,同时使用统计数据做出决策,则出错概率显着增加,例如,如果确定在没有错误的情况下发现错误的可能性为5%,那么当考虑十个不同的指标时,第一种错误的可能性已经增长到 40%。
统计意义不等于实际意义
这一点永远值得牢记;在"统计显着性"一词中,"显着性"一词并未定义其重要性。影响的大小是衡量研究实际相关性的一个指标,那些具有统计意义的结果可能会产生微弱的影响。
并且如果在指标之间有一个百分比的几分之一的统计显着差异;那么需要自己确定,对于业务和产品,这种变化有多少适合,以及是否值得为了这些价值而增加产品的复杂性。