揭秘谷歌审核内幕:上万人手动建立标准,机器学习系统评负责估数十亿网页

36氪的朋友们 2021-09-26

机器学习谷歌https

2067 字丨阅读本文需 4 分钟

即便是在谷歌这样的公司,也有不尽人意的工作需要完成,比如内容审核方面。互联网先驱、谷歌副总裁兼首席互联网布道者文特·瑟夫(Vint Cerf)坦率地给出了解释,阐述谷歌的系统为何不能总是区分出好坏信息。

2020年6月,英国议会发表了一份政策报告,其中提出了许多建议,旨在帮助政府打击由互联网技术驱动的“虚假信息大流行”趋势。该报告得出的结论相当有力:“像Facebook和谷歌这样的平台试图隐藏在‘黑匣子’算法后面,这些算法选择向用户显示什么内容。他们的立场是,他们的决定不对在线活动可能造成的伤害负责。这是大错特错的!”

在准备这份报告时,英国议会从多位关键人物那里收集了证据,其中就包括瑟夫。他被问到:“你能不能提供些证据,证明你们所宣传的高质量信息更有可能是真的?”

瑟夫耐人寻味的回答给谷歌紧闭的密室带来了一丝缝隙。他说:“万维网上的信息量非常大,有数十亿网页。我们没有能力手动评估所有这些内容,但我们有大约10000人的团队负责评估网站。在搜索领域,我们有长达168页的文档,讲述了如何确定某个网站的质量。当有了那些评估者评估过的网页样本,我们就可以利用他们做过的工作以及他们评估的网页,帮助构建机器学习神经网络以反映出他们对网页的评价质量。这些网页成为机器学习系统的训练集。然后,机器学习系统被应用于我们在万维网上索引的所有网页。应用到实践中后,我们就会利用这些信息和其他指标对网络搜索结果进行排序。”

瑟夫最后概括称:“这是个可分为两步走的过程:首先通过手动过程来建立标准和高质量的训练集,然后构建机器学习系统以扩大到我们能够索引的万维网规模。”谷歌在提升新闻质量方面的许多博客帖子和官方声明都会回到这个由10000名人工内容审核人员组成的团队,因此,更深入地挖掘瑟夫在这里的陈述,有助于更好地理解这些人到底在做什么,以及他们的工作是如何影响算法的。幸运的是,从2019年11月开始,就有调查提供了谷歌内容审核员工作的内幕信息。

虽然谷歌员工的薪酬十分丰厚,但这10000内容审核人员都是在家工作的合同工,每小时收入约为13.50美元。一位审核员透露,他们被要求签署保密协议,与谷歌的任何人都没有任何直接联系,也从未被告知他的工作将有什么用处。这位员工还说,他“得到了数百个真实的搜索结果,并被告知要根据他的判断,根据质量、声誉和有用性等因素对它们进行评级”。

这些内容审核人员的主要任务似乎是对单个网站进行评级,以及评估谷歌返回的各种搜索排名。这些任务严格按照提供给这些人的168页文档指导进行。有时,员工还会通过他们的合同雇佣机构收到谷歌的通知,告诉他们某些搜索的“正确”结果。例如,搜索短语“自杀的最佳方式”一度出现了操作手册,合同工收到了一张纸条,上面写着,所有与自杀相关的搜索都应该将“国家预防自杀生命热线”作为首要结果显示。

这个了解内容审核人员工作的窗口虽然简短,但有助于我们解锁瑟夫的证词。谷歌员工(想必是高层)会就搜索算法在各种主题和各种情况下应该如何执行做出影响深远的决定。但他们并没有试图在搜索算法的计算机代码中直接实现这些决定,而是将这些决定编码在发送给审核人员的说明手册中。

然后,审核人员根据这本手册对网站和搜索排名进行手动评分,但即使有了这支10000人的审核大军,也有太多的网站和搜索无法手工完成。因此,正如瑟夫解释的那样,这些手动评估为监督学习算法提供了训练数据,这些算法的工作本质上是推断这些评估,这样希望所有的搜索,而不仅仅是那些已经手动评估的搜索,都能按照谷歌领导层的意图运行。

虽然谷歌已经公开宣布了对谷歌搜索算法某些值得注意的更新,但谷歌实际上非常频繁地调整其算法。事实上,上述调查还发现,2018年谷歌修改算法超过3200次。而且其算法调整的数量始终在迅速增加:2017年大约有2400次,2010年只有500次左右。

谷歌已经开发了一个广泛的流程来批准所有这些算法调整,其中包括让审核人员试验和报告对搜索排名的影响。这让谷歌在向庞大的用户群发布调整之前,对这些调整在实践中将如何发挥作用有了提前预期。例如,如果某些调整旨在降低虚假新闻网站的排名,审核人员可以查看他们尝试的搜索是否真的发生了这种情况。

在回答了本文最初的问题后,瑟夫还被问及另一个重要且相当尖锐的问题:“你们的算法接受了不准确的信息,而且这些信息直接进入了你们搜索结果的顶部,并得到了你的语音助手的响应。这是灾难性的,像那样的事情可能会引发骚乱。显然,你所做的99%都不太可能导致这种后果,但你们的算法对这类错误的敏感度有多高?”

再一次,瑟夫的坦率回答相当耐人寻味。他说,神经网络是“脆弱的”,这意味着有时输入的微小变化可能会导致令人惊讶的糟糕输出。

瑟夫称:“你对此的反应是:怎么会这样?答案是,这些系统不能像我们人类一样识别事物,我们能从图像中看出抽象的东西。我们认识到猫有小三角形的耳朵、皮毛和尾巴,我们非常确定消防车没有。但是,机器学习系统中的机械识别系统并不像我们的大脑那样工作。我们知道它们可能是脆弱的,你刚才举了个非常好的例子来说明这种脆性。我们正在努力消除这些问题或确定它们可能发生的地方,但这仍然是个重要的研究领域。至于我们是否意识到其敏感性和潜在的故障模式?是的,我们知道。我们知道如何防止所有这些故障模式吗?不,还不能。”

简而言之,我们相信谷歌的算法能为社会提供所有问题的答案,尽管它们有时会煽动仇恨和传播虚假新闻,而我们并不完全知道如何阻止它们这样做。 

本文来自“腾讯科技”,审校:金鹿,36氪经授权发布。

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:36氪的朋友们
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...