到目前为止,产品或营销中的任何人都知道A / B测试是什么。我们不知道的是或至少不承认,这是太多的A / B测试不会产生任何东西。
他们经常测量毫无意义的变体,产生不确定的结果,没有任何东西来自它们。当然,一些A / B测试产生真实,有意义,可操作的结果。那些听到的那些。我们都看过这篇文章。公司X公司会随着这个简单的技巧提高了38%的转化。地狱,我写了一些。
但是那些成功的故事隐藏着测试和实验的灰色底层。
Appsumo透露,8个测试中只有1个产生结果。Kaiser Fung估计,80%至90%的A / B测试他正在运行统计上微不足道的结果。
然而,许多新的测试人员走进A / B测试,思考它会快速且易于获得结果。经过少数简单的测试后,他们认为他们会找到这个按钮的正确颜色或向该主题行的右侧调整,然后转化为POOF,增加38%,如魔法。
然后他们开始在他们的应用程序或网站上运行测试,并且现实突然设置。测试不确定。它们产生“统计上微不足道”的结果,对产品或用户没有有价值的见解。发生了什么?哪里是38%的凹凸,随后拍了拍?
不要沮丧。如果您将运行A / B测试,您将有一些未能产生有意义的结果的测试,您可以从中学习。但是,如果您运行良好的测试,您将有更少的故障和更成功。通过跑步思考A / B测试,您将获得更大的统计上显着的结果和实际学习,以改善您的产品。
8 A / B测试中的七个是不确定的,我们不会谈论它们。
想象一下,你正在折腾两个硬币,每次20次。投掷了头部12次的土地。和硬币b在九次头上落在头上。你不会急于宣布你发现了一个硬币,在头上的着陆时成功33%,对吗?从你对硬币的理解,你知道差异只是偶然的。它没有统计学意义。
现在,如果你扔了另一个180次的硬币,并且落在头上120次落在120次上,硬币落在头上90次,显然发生了重要的事情。但是,再次,我们知道这不是会发生什么。在200次掷200℃后,每个人都落在头上有多少次,但这将是机会。任何区别只是噪音。
这似乎是一个愚蠢的实验。当然,两个硬币不会明显表现得显着不同。但是,老实说,这恰恰是为什么这么多A / B测试产生不确定的结果。我们浪费时间测试变体,没有任何真正的有意义的差异,并且不出所料,我们最终通过一堆具有统计上微不足道的结果的测试。
如果有人应该责备,那就是愚蠢的按钮榜样的错
按钮颜色实验是“你好,世界!” A / B测试。这是一个简单的例子,可以解释概念。因此,无故障,任何时候都是第一次解释A / B测试,某人使用按钮颜色示例,其中页面的一个变体具有绿色购买按钮,一个有一个红色按钮。您运行测试,并查看哪个颜色按钮具有更高的转换速率。
事实是,一些公司已经进行了按钮实验,实际接受了有意义的结果来改善其产品。如果您希望您的用户与某事物互动,则仍然存在突出的价值。也就是说,由于大多数人已经过实验发现了发现,而按钮颜色是描述A / B测试的绝佳方法,它很少有意义地改善产品的方法。
我大约两个月前跑了自己的毫无意义的测试
MixPanel很少向我们的主列表发出电子邮件。我们通常只会通过向已订阅我们博客订阅的用户的新文章。但是自大派遣以来已经有了一段时间,所以我们可以通过电子邮件发送最新的电子邮件,并告诉系列的大量用户。它似乎是运行真正快速A / B测试的绝佳机会。
电子邮件有一个“为什么1500万用户对此移动琐事应用程序不足以不足以”的主题行。但我听说,使用公司名称开始电子邮件可以提高开放率,所以我用主题线制作了一个变体,“MixPanel - 为什么1500万用户对此移动琐事应用程序不够好。”容易,对吗?如果它表现得更好,我们可以将我们学到的使用,以我们的名义增加每个主题,增加我们所有电子邮件的开放利率,并希望增加结果。
电子邮件出现在成千上万的用户中,分为两个版本。然后我不耐烦地等待我的成功来进来。
当结果进来时,它们在统计学上不太重要。没有“MixPanel”的主题线具有22.75%的开放速率。“MixPanel”的主题有22.73%的开放率。差异为0.02%。
数以万计的电子邮件稍后发送,我的测试差异为20,打开。对于所有意图和目的,我正在翻转硬币。
即使具有如此大的样本大小,我的测试中也没有足够的对比,以产生显着的结果。我没有学到任何东西,除了更认真地考试。
那么我可以做些什么来获得更重要的结果?
好吧,首先,我本可以完全测试一个完全不同的主题线 - 就像少的闪烁但更多的语义文章标题“为什么Quizup将历史上最快的游戏变为社交平台。”对比将产生统计上显着的结果的可能性更大。
但即便如此,除了一个比其他人做得更好的事实,我将学到什么?我会从中取出哪些行动?也许如果我测试了几次,我可以达到众所周度的读者才能达到闪烁闪烁的主题线或语义。
我的测试是毫无意义的,因为它没有很好地构造,它不是一个更大的策略的一部分,提出了关于读者至关重要的内容的肉体问题。这很简单,但它没有去任何地方。A / B测试永远不会像看起来那么容易。如果您想要结果,它需要工作。要么在思考和战略性地测试许多少数事情,都希望找到一系列小的改进,如不同的图片,略有不同的设计,以及打电话中的文本的变化。这是A / B测试人员的一个阵营,“优化了成功的方式”测试人员。其他阵营包括那些开发产品的特征的人,并且测试众所周知的不同体验,例如重新加工用户的过程。
您可以使用A / B检测找到宝贵的课程并改善您的产品,但需要一些艰苦的工作
我不是唯一一个仔细考虑这个。最近,我与jobr的Cofounder的Cofounder谈过,关于一些不那么无意义的A / B测试公司进行了改善用户收购。
“我们想改善我们的船上流动,以便在应用程序中获取更多用户并刷新”Hari,告诉我。
Jobr是一个应用程序,允许求职者通过策划的工作机会刷新,挑剔风格。
“我们在我们的漏斗中确定了两个关键步骤,并为每个实验构建了足够宽的变体列表,以确保适当的覆盖范围。在通过每个变体发送足够的流量后,我们能够将优化的流量纳入225%的优化流程并提高转化。“
Jobr基本上重建了它的船上过程,通过数据删除了上一个进程的数据来了解。
COZI的A / B测试更多地“优化了您的成功之路”营地。在去年夏天的办公时间谈话,Cozi产品老板Tara Pugh回顾了公司自己从用户拆除了摩擦的过程。
在假设后测试假设后,塔拉和Cozi的团队能够将学习的比例纳入流动。有些是小美学调整,如切换到更轻的背景。其他更改更大的更改,要求用户执行较少的步骤并从过程中删除摩擦 - 类似的预制表单和消除复选框。
没有单一的变化导致转换的主要增加。但结合了,改善将注册完成率提高到55%至76%。
运行产生有意义结果的测试
这些实验能够逃避A / B检测的常见失败并不是随机的,以提供有意义的结果。构建实验以测试产品的有意义方面,对用户如何表现的强烈影响的方面。而且,当然,实验已经运行足够的时间来产生统计上显着的结果。
所以,如果你厌倦了废话结果,你想在转换中生产38%的升力,以便在后面拍拍,然后投入工作。花时间构建有意义的A / B测试,您将获得有意义的结果。
Justin Megahan是MixPanel的内容营销经理。