橙色云资讯 - 工业互联网行业信息门户

Netflix是如何做决策的？（五）：树立对决策的信心

神译局 2021-12-11

2411 字丨阅读本文需 6 分钟

编者按：决策是行动的指南。不管是个人还是企业，每天都要面临着无数的决策。决策的好坏会对结果产生巨大影响，如何做好决策是每个人都要上的一门必修课。在Netflix这里，他们采用了一种以实验为导向的决策流程，先小范围地对不同方案进行测试，根据对比效果调整，从而摸索出普遍适用的决策。他们为此还在官方技术博客推出了关于Netflix如何用A/N测试做出决策的系列文章。本文来自编译，是系列文章的第五篇。后续文章还将介绍实验在 Netflix 中的作用、Netflix对基础设施的投资是如何为实验提供支撑和扩展的，以及 Netflix内部实验文化的重要性。

图片来源：Adobe

Netflix 是如何做决策的？（一）：介绍

Netflix是如何做决策的？（二）：什么是 A/B 测试？

Netflix是如何做决策的？（三）：误报与统计显著性

Netflix是如何做决策的？（四）：漏报与功效

在第 3 部分（误报与统计显著性）与第 4 部分（漏报与功效）里，我们讨论了支撑 A/B 测试的核心统计概念：误报、统计显著性与 p 值，以及漏报和功效。在本文中，我们将讨论困难的部分：在复杂的业务环境下，怎么运用测试结果来支撑决策？

关于 A/B 测试，我们需要面对一个令人不快的现实，那就是任何测试结果都未必潜在真相的反映。就像我们在之前的文章里面讨论的那样，好的做法包括先要设置并理解误报率，然后再设计出好的实验，从而有可能检测出合理且有意义的真实影响。这些统计学上的概念可以帮助减少并理解错误率，并在面对不确定性的时候做出正确决定。但特定实验的结果是误报还是漏报我们仍无法知道。

图 1：心存怀疑虽是一种不愉快的体验，但至少不像深信不疑那般荒唐——伏尔泰。

在用 A/B 测试来改进 Netflix 会员的体验时，我们发现有一点至关重要，那就是不要只关注数字（包括 p 值在内），还要用有力和合理的判断来解释结果，二者结合来确定是否存在令人信服的证据，能够说明新体验对于会员来说是好的。这些考虑因素跟美国统计协会在 2016 年的时候发表的关于统计显著性与 P 值的声明一致，以下三条直接引用（粗体）对我们的实验很有帮助。

“合适的推理需要完整的报告与透明。” 就像我们在第 3 篇（误报与统计显著性）所说那样：，按照惯例，我们的实验将误报率设为 5%。在实践上，如果我们进行 20 次实验（比如评估 20 种颜色的果冻豆是不是都跟粉刺有关）的话，预计至少会得到一个显著结果——即便事实上每个实验的零假设均为真，并没有产生实际效果。这就是多重比较问题了，有很多方法可以控制整体的误报率，但我们不会在这里介绍。不过，最重要的是不仅要报告和跟踪产生了显著结果的测试结果，还要报告和跟踪那些没有产生显著结果的测试结果。

图 2：关于误报，你需要了解的一切都在这儿了。

“ p 值或统计显著性并不能衡量效果的大小或结果的重要性。” 在第 4 篇（漏报与功效）中，我们讨论了实验设计阶段做好设计的重要性，这样才能让A/B 测试有很高概率能检测出合理的、有意义的指标变化。在解释结果的时候也要有相关考虑。即便结果具有统计显著性（p 值 < 0.05），估计的指标变动也可能很小，以至于对 Netflix 会员的体验无关紧要，我们最好把精力放在其他领域的创新上。或者，扩展新功能的成本相对于收益而言也许过高，反不如不推出这项功能，而是把资金投资到改善其他领域的产品体验上，从而更好地为会员服务。

“科学结论与商业或政策决策不应该光看 p 值是不是超过特定阈值。” 本文的其余部分将深入介绍我们的决策实践，重点会介绍我们是怎么通过 A/B 测试全面评估证据的。

在为了支撑决策而评估证据时，有一种比较实用方法，那就是想象自己是新产品体验的辩护律师，为它收集理由：看有没有有足够的证据得出结论说，除了那 5% 的合理怀疑之外，新产品体验产生了对会员有益的真正效果。为了帮助大号这桩案子，在解释测试结果时我们会向自己提出这样一些的问题：

在实践上，每个人都有不同的框架，可以用来解释测试结果，做出决定。除了数据之外，每个人都会基于之前做过的类似的A/B测试，把自己的先验信息带进来，以及他们对决策的潜在收益和后果的评估所制定的损失或效用函数带来进。使用决策理论（包括贝叶斯决策理论），有多种方法可以将这些人类这些评估风险和收益的判断形式化。这些方法涉及到对做出正确或错误决策的效用做出正式评估（比方说，测算推出未能改善会员体验的代码变更的代价）。如果在实验结束时，我们还可以估算出每个处理组犯每一种类型错误的概率的话，就可以做出让会员的预期效用最大化的决策。

决策理论是吧统计结果与决策结合起来，所以是基于 p 值的决策方法的一个很吸引人的替代方法。不过，由于特定效用函数的细微差别，决策理论方法可能难以广泛应用到实验当中。虽然不完美，但我们在本系列文章所介绍的频率论假设检验方法（重点是 p 值与统计显著性），却是一个广泛易用的框架，可以用来解释测试结果。

解释 A/B 测试结果还有一个挑战，那就是对多个指标（主要决策指标和次要指标）的变动做出合理解释。关键挑战之一是指标本身往往不是独立的（也就是指标通常可能会朝同一方向或相反方向变动）。统计推理和决策理论一些更先进的概念也适用这里，而Netflix也在致力于研究给这个多维度指标的解释问题带来更多的定量方法。我们的做法是用贝叶斯推理把有关历史指标变动的分析信息纳入到分析里面，敬请关注！

最后，值得注意的是，不同类型的实验在决策过程中都要不同程度地引入人工判断。比方说，Netflix 采用了一种 A/B 测试形式来确保将新版软件安全地部署到生产环境。在面向所有会员发布新版本之前，我们会先做一个一个小型的 A/B 测试，让部分会员接收旧版代码，部分会员接收新版，确保错误或意外后果不会降低会员体验或基础设施的性能。对于这个用例而言，我们的目标是自动化整个部署过程，并运用遗憾最小化以及基于测试的决策等框架。通过自动部署新版，或者标记降低的指标给开发者，从而节省了开发人员的时间。

本文描述了如何为产品创新寻找支撑理由的办法，那就是仔细分析实验数据，同时也指出了不同类型的测试需要引入不同级别的人工输入到决策过程之中。

在不确定的情况下做出决策（包括根据 A/B 测试的结果采取行动）是很困难的，而且我们在本系列文章里面所描述的工具很难得到正确应用。但是这些工具（包括 p 值）已经受住了时间的考验，就像美国统计协会主席在 2021 年关于统计显著性与可重复性的工作组声明中所强调的那样：“p 值与显著性检验的运用，若是得到正确应用和解释的话，是不应该放弃的重要工具。. . . [它们] 增加了从数据得出结论的严谨性。”

公开分享关键产品的测试结果，并对此进行辩论，这种概念在 Netflix 的实验文化里面已经根深蒂固，我们会在本系列文章的最后一篇中加以讨论。不过在下一篇文章中，我们将讨论 Netflix 不同的实验领域，以及聚焦实验的不同角色。

译者：boxi。

免责声明：凡注明来源本网的所有作品，均为本网合法拥有版权或有权使用的作品，欢迎转载，注明出处本网。非本网作品均来自其他媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容，请依照下方联系方式进行沟通，我们将第一时间进行处理。

0赞好资讯，需要你的鼓励

来自：神译局

0 0

参与评论

登录后参与讨论 0/1000

下一篇 Netflix裁掉北美约150名员工，或将进军直播领域

“Q1财报显示奈飞损失了20万的订阅用户，为...

2022-05-19

Netflix是如何做决策的？（五）：树立对决策的信心

参与评论

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

Netflix是如何做决策的？（五）：树立对决策的信心

参与评论

为你推荐

对话清华大学张亚勤：AI发展应遵循3R法则

因涉嫌违反营销政策，谷歌撤下多个手机跟踪App广告

最前线丨微软小冰发布社交APP"小冰岛”：不是元宇宙，是虚拟版微信

2021年度科技大事件回顾（下）| OFweek维科号精选文章

如何将你的照片存储1000年？哈佛大学最新研究：用这个

36氪独家 | 「自然机器人Naturobot」获两轮共500万美元融资，前阿里云RPA负责人再创业

36氪首发 ｜ AMOLED驱动芯片供应商昇显微完成亿元A轮融资，元禾璞华和中芯聚源领投

5G通话占道4G，你的5G套餐性价比真的高吗？

解密vivo发展之路：从颜值至上到内外兼修

英特尔锐炫会动谁的蛋糕？

最前线丨壁仞科技首款通用GPU流片，采用台积电7nm制程

一文读懂扎克伯格公司更名演讲：五到十年内让元宇宙成主流

微软携手联想，未来将在3大领域更深入合作

如何在Azure DevOps中构建CI/CD管道

苹果暗示Apple Music将登陆PS5，索尼主机又变强了

另类元宇宙：虚拟与现实不是融为一体，而是分道扬镳（上）

一周热点，带你速览科技资讯 | OFweek维科号精选文章

投影仪成为“肥宅”必需品！我国投影仪相关企业达1.2万家，深圳最多

iphone 13降价，苹果在下一盘怎么样的大棋

爆文激励计划8月期榜单 | OFweek维科号榜单

戴上这副手套，我们就能「摸到」元宇宙

安卓机内卷出了挖孔、水滴和真全面屏，iPhone为什么还要保留刘海屏？

Facebook 大宕机：远程工作的一曲悲歌

回望地球：平民宇航员的太空旅行

数字技术如何影响传媒业？这些变化和机遇了解一下

面对退款，知乎们为何只愿退“币”不想退钱？

Magic3撞上iPhone13

物联集成平台 —— 可视化企业的开源物联网平台

36氪首发 ｜ 「景吾智能」完成近亿元A轮融资，开拓酒店清洁机器人市场

3D视觉技术应用广泛，谁能遥遥领先？

相关推荐

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

36氪首发｜ AMOLED驱动芯片供应商昇显微完成亿元A轮融资，元禾璞华和中芯聚源领投

36氪首发｜「景吾智能」完成近亿元A轮融资，开拓酒店清洁机器人市场