橙色云资讯 - 工业互联网行业信息门户

揭秘谷歌审核内幕：上万人手动建立标准，机器学习系统评负责估数十亿网页

36氪的朋友们 2021-09-26

2067 字丨阅读本文需 4 分钟

即便是在谷歌这样的公司，也有不尽人意的工作需要完成，比如内容审核方面。互联网先驱、谷歌副总裁兼首席互联网布道者文特·瑟夫(Vint Cerf)坦率地给出了解释，阐述谷歌的系统为何不能总是区分出好坏信息。

2020年6月，英国议会发表了一份政策报告，其中提出了许多建议，旨在帮助政府打击由互联网技术驱动的“虚假信息大流行”趋势。该报告得出的结论相当有力：“像Facebook和谷歌这样的平台试图隐藏在‘黑匣子’算法后面，这些算法选择向用户显示什么内容。他们的立场是，他们的决定不对在线活动可能造成的伤害负责。这是大错特错的！”

在准备这份报告时，英国议会从多位关键人物那里收集了证据，其中就包括瑟夫。他被问到：“你能不能提供些证据，证明你们所宣传的高质量信息更有可能是真的？”

瑟夫耐人寻味的回答给谷歌紧闭的密室带来了一丝缝隙。他说：“万维网上的信息量非常大，有数十亿网页。我们没有能力手动评估所有这些内容，但我们有大约10000人的团队负责评估网站。在搜索领域，我们有长达168页的文档，讲述了如何确定某个网站的质量。当有了那些评估者评估过的网页样本，我们就可以利用他们做过的工作以及他们评估的网页，帮助构建机器学习神经网络以反映出他们对网页的评价质量。这些网页成为机器学习系统的训练集。然后，机器学习系统被应用于我们在万维网上索引的所有网页。应用到实践中后，我们就会利用这些信息和其他指标对网络搜索结果进行排序。”

瑟夫最后概括称：“这是个可分为两步走的过程：首先通过手动过程来建立标准和高质量的训练集，然后构建机器学习系统以扩大到我们能够索引的万维网规模。”谷歌在提升新闻质量方面的许多博客帖子和官方声明都会回到这个由10000名人工内容审核人员组成的团队，因此，更深入地挖掘瑟夫在这里的陈述，有助于更好地理解这些人到底在做什么，以及他们的工作是如何影响算法的。幸运的是，从2019年11月开始，就有调查提供了谷歌内容审核员工作的内幕信息。

虽然谷歌员工的薪酬十分丰厚，但这10000内容审核人员都是在家工作的合同工，每小时收入约为13.50美元。一位审核员透露，他们被要求签署保密协议，与谷歌的任何人都没有任何直接联系，也从未被告知他的工作将有什么用处。这位员工还说，他“得到了数百个真实的搜索结果，并被告知要根据他的判断，根据质量、声誉和有用性等因素对它们进行评级”。

这些内容审核人员的主要任务似乎是对单个网站进行评级，以及评估谷歌返回的各种搜索排名。这些任务严格按照提供给这些人的168页文档指导进行。有时，员工还会通过他们的合同雇佣机构收到谷歌的通知，告诉他们某些搜索的“正确”结果。例如，搜索短语“自杀的最佳方式”一度出现了操作手册，合同工收到了一张纸条，上面写着，所有与自杀相关的搜索都应该将“国家预防自杀生命热线”作为首要结果显示。

这个了解内容审核人员工作的窗口虽然简短，但有助于我们解锁瑟夫的证词。谷歌员工（想必是高层）会就搜索算法在各种主题和各种情况下应该如何执行做出影响深远的决定。但他们并没有试图在搜索算法的计算机代码中直接实现这些决定，而是将这些决定编码在发送给审核人员的说明手册中。

然后，审核人员根据这本手册对网站和搜索排名进行手动评分，但即使有了这支10000人的审核大军，也有太多的网站和搜索无法手工完成。因此，正如瑟夫解释的那样，这些手动评估为监督学习算法提供了训练数据，这些算法的工作本质上是推断这些评估，这样希望所有的搜索，而不仅仅是那些已经手动评估的搜索，都能按照谷歌领导层的意图运行。

虽然谷歌已经公开宣布了对谷歌搜索算法某些值得注意的更新，但谷歌实际上非常频繁地调整其算法。事实上，上述调查还发现，2018年谷歌修改算法超过3200次。而且其算法调整的数量始终在迅速增加：2017年大约有2400次，2010年只有500次左右。

谷歌已经开发了一个广泛的流程来批准所有这些算法调整，其中包括让审核人员试验和报告对搜索排名的影响。这让谷歌在向庞大的用户群发布调整之前，对这些调整在实践中将如何发挥作用有了提前预期。例如，如果某些调整旨在降低虚假新闻网站的排名，审核人员可以查看他们尝试的搜索是否真的发生了这种情况。

在回答了本文最初的问题后，瑟夫还被问及另一个重要且相当尖锐的问题：“你们的算法接受了不准确的信息，而且这些信息直接进入了你们搜索结果的顶部，并得到了你的语音助手的响应。这是灾难性的，像那样的事情可能会引发骚乱。显然，你所做的99%都不太可能导致这种后果，但你们的算法对这类错误的敏感度有多高？”

再一次，瑟夫的坦率回答相当耐人寻味。他说，神经网络是“脆弱的”，这意味着有时输入的微小变化可能会导致令人惊讶的糟糕输出。

瑟夫称：“你对此的反应是：怎么会这样？答案是，这些系统不能像我们人类一样识别事物，我们能从图像中看出抽象的东西。我们认识到猫有小三角形的耳朵、皮毛和尾巴，我们非常确定消防车没有。但是，机器学习系统中的机械识别系统并不像我们的大脑那样工作。我们知道它们可能是脆弱的，你刚才举了个非常好的例子来说明这种脆性。我们正在努力消除这些问题或确定它们可能发生的地方，但这仍然是个重要的研究领域。至于我们是否意识到其敏感性和潜在的故障模式？是的，我们知道。我们知道如何防止所有这些故障模式吗？不，还不能。”

简而言之，我们相信谷歌的算法能为社会提供所有问题的答案，尽管它们有时会煽动仇恨和传播虚假新闻，而我们并不完全知道如何阻止它们这样做。

本文来自“腾讯科技”，审校：金鹿，36氪经授权发布。

免责声明：凡注明来源本网的所有作品，均为本网合法拥有版权或有权使用的作品，欢迎转载，注明出处本网。非本网作品均来自其他媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容，请依照下方联系方式进行沟通，我们将第一时间进行处理。

0赞好资讯，需要你的鼓励

来自：36氪的朋友们

0 0

参与评论

登录后参与讨论 0/1000

下一篇学习图像的算术运算

介绍还记得你在小学时学习如何加减数字吗?现...

2022-05-06

揭秘谷歌审核内幕：上万人手动建立标准，机器学习系统评负责估数十亿网页

参与评论

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

揭秘谷歌审核内幕：上万人手动建立标准，机器学习系统评负责估数十亿网页

参与评论

为你推荐

亚马逊、微软、苹果、谷歌：一文读懂科技巨头的2022医疗图谱（二）

对话清华大学张亚勤：AI发展应遵循3R法则

因涉嫌违反营销政策，谷歌撤下多个手机跟踪App广告

最前线丨微软小冰发布社交APP"小冰岛”：不是元宇宙，是虚拟版微信

印度本地品牌Jio正在崛起，正与三星谷歌合力冲击中国手机厂商

2021年度科技大事件回顾（下）| OFweek维科号精选文章

如何将你的照片存储1000年？哈佛大学最新研究：用这个

C++版OpenCV里的机器学习

HPC、AI与云计算：当智能时代三叉戟在亚马逊云科技完美融合

从Facebook收购WhatsApp看谷歌收购特斯拉

36氪独家 | 「自然机器人Naturobot」获两轮共500万美元融资，前阿里云RPA负责人再创业

谷歌3D智能手机将进入国际空间站 充当机器人大脑及眼睛

不满欧盟51亿美元罚款，谷歌控诉：你们无视苹果垄断行为

36氪首发 ｜ AMOLED驱动芯片供应商昇显微完成亿元A轮融资，元禾璞华和中芯聚源领投

5G通话占道4G，你的5G套餐性价比真的高吗？

解密vivo发展之路：从颜值至上到内外兼修

英特尔锐炫会动谁的蛋糕？

最前线丨壁仞科技首款通用GPU流片，采用台积电7nm制程

微软携手联想，未来将在3大领域更深入合作

一文读懂扎克伯格公司更名演讲：五到十年内让元宇宙成主流

如何在Azure DevOps中构建CI/CD管道

苹果暗示Apple Music将登陆PS5，索尼主机又变强了

亚马逊云计算AWS与自动驾驶

自华为脱离后，曝荣耀仍未获得谷歌 Android 授权：将下调销量预期

视觉 Transformer 研究的关键问题: 现状及展望

京东回应显卡售后传闻；IBM发布第一个2纳米芯片；苹果以工程师数量评估收购对象 | EA周报

另类元宇宙：虚拟与现实不是融为一体，而是分道扬镳（上）

一周热点，带你速览科技资讯 | OFweek维科号精选文章

爆文激励计划8月期榜单 | OFweek维科号榜单

投影仪成为“肥宅”必需品！我国投影仪相关企业达1.2万家，深圳最多

相关推荐

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

谷歌3D智能手机将进入国际空间站充当机器人大脑及眼睛

36氪首发｜ AMOLED驱动芯片供应商昇显微完成亿元A轮融资，元禾璞华和中芯聚源领投