新闻机器人的溯源、现状与前景

网易新闻学院 2016-08-16

机器人文本分析数据新闻

5400 字丨阅读本文需 11 分钟

  21世纪新兴媒体的蓬勃发展使人类传播史进入了以个人化为核心、以移动互联网为平台、依赖于高科技的“第四纪”。基于“互联”的Web1.0时代逐步演变为基于“社交”的Web2.0时代,并且正在向基于“人工智能”的Web3.0时代迈进。

  新闻是人工智能技术在新闻业得以的产物,主要指机器利用计算机程序对相应的数据信息进行抓取,自动生成新闻文本,目前已在欧美主流媒体的财经、体育、天气类新闻报道中得到运用。本文通过对新闻机器人的溯源和现状进行梳理分析,并对其发展趋势和前景进行预测。在物联网逐渐取代互联网的大数据浪潮中,新闻机器人将逐渐从欧美国家推广到发展中国家,从而带动新闻业的职能分工和生产流程——乃至新闻的本体和属性——的全方位变革。

 

  “计算机辅助新闻”(CAJ)是新闻机器人的前身,最早的应用案例可以追溯到1967年美国底特律市骚乱事件的新闻报道中。时任底特律自由新闻社记者的菲利普·梅耶 (Philip Meyer)使用大型计算机分析得出“在校大学生和高中辍学者参与骚乱的比例一样高”的结论。1973年,已经成为北卡大学教授的梅耶在其名著《精确新闻学》中预测,数据分析将成为新闻语料系统的重要组成部分。此书多次再版,在最新版中,他断言“新一代记者应当成为数据处理专家”。

  20世纪80年代,随着计算机技术的广泛运用,数据处理成为新闻生产中的重要环节。学界对于“计算机辅助新闻”与“数据新闻”之间的关系争论不休。有人认为,两者仅是名称不同,内涵完全一致。另一些人则认为,数据新闻是对计算机辅助新闻的创新、发展与延伸。在实际操作中,这两个概念都是指记者依靠数据处理系统对卷帙浩繁的公文和档案进行分析与归纳,从中找到可以使用的新闻线索。在新闻写作的过程中,人为主体,计算机为次要的辅助工具。

  21世纪初,人类进入了大数据时代,各类文档资源、软件、版权的空前开放让数据的获取更加简便、快捷、高效。“计算机辅助新闻”进一步演化为“数据驱动新闻”(data-driven journalism 或DDJ),并进一步细分为“算法新闻”、“自动化新闻”和“新闻机器人”。作为DDJ的主要品类之一,“新闻机器人”是指利用特定的语言程序,对所搜集的数据进行模式化的加工,将目标数据文本“嵌入”已有的模板,进而生成一套精密完整的计算机程序,用于新闻报道的“文本再生产”。

  2006年初,商业数据供应商汤普森公司(Thomson Corporation)开始使用计算机程序对相关财经数据进行加工处理,并整合成完整的新闻报道文本,用以取代传统财经新闻记者所从事的事实类报道工作。汤普森的新闻机器人尝试可谓毁誉参半。一些业内人士对“新闻机器人”的效率表达惊讶和赞叹,另一部分人则声称,“新闻机器人”只能陈述新闻事实,而无法对新闻数据后隐藏的细微差异做出合理、深入的分析。2009年,美国西北大学智能信息实验室研发并推出了一款名为“统计猴”(Stats Monkey)的软件。该软件能对棒球比赛中选手、比赛得分和获胜率等数据进行抓取和筛选,并在12秒内自动生成一篇完整的报道。2010年初,“统计猴”被运用于财经报道中,该项目的两位研发人员“下海”成立了“叙事科学”(Narrative Science)公司。

  新闻机器人真正引起人们的关注,始自“地震机器人”(Quakebot)在2014年3月发表在《洛杉矶时报》上的报道。“地震机器人”是该报记者肯·史文克(Ken Schwencke)所编写的一套程序,能够将美国地震局测量到的数据直接转化、编写成短消息。在不到五分钟的时间里,新闻机器人所写的报道就经过人工校对,上传到了《洛杉矶时报》的网站。

  当前,欧美三家企业主导了整个新闻机器人行业,分别是总部位于美国伊利诺伊州的“叙事科学”公司, 总部位于美国北卡罗来纳州的“自动化洞察力”(Automated Insights)公司和总部分别位于美国德克萨斯州、纽约州和法国巴黎的“伊索”(Yseop)公司。他们一方面开发出各具特色的软件产品,供不同类型的新闻媒体机构使用,另一方面,通过与传统媒体机构的合作深度参与新闻产品的开发。

  “叙事科学”公司先后推出了多款软件产品,以满足不同受众群体的需求。其中,初始版本“鹅毛笔”(Quill)的自动叙述生成系统可抓取原始数据,分析这些数据的意义,生成易于理解的信息内容,然后运用自然语言来生成描述性或者叙述性的文本。它的升级版“鹅毛笔参与”(Quill Engage)是一款谷歌分析软件,能够简单通俗地表达新闻业的关键指标和业绩表现——例如,新闻内容的关注度、网站访问量和用户细分信息,等等,还可进行历史数据分析,预测行业的走向和趋势。2016年初,该公司与视觉化软件供应商(Qlik)合作,推出了“鹅毛笔”系列的第三代产品——能将数据可视化产品转换为自然语言的软件(Quill for Qlik)。

  除了开发软件,“叙述科学”公司还与传统媒体机构展开合作,例如,他们与《福布斯》杂志合作,在其财经类新闻写作中大量使用该公司开发的软件产品,并整合了一个专门由该软件程序生成的新闻页面,制作和发布事实类财经新闻。

  “自动化洞察力”公司则推出了自动新闻生成平台(Wordsmith),让各家新闻机构能够设计出符合自身定位、体现其特色的机器写作文本。例如,2014年4月,该公司推出了一款软件产品(Wordsmith for Marketing),将市场营销类机构的分析性数据转换成类似于人工处理过的报道,供各大媒体的财经版面或栏目使用。

  在媒体合作方面,2014年,该公司与美联社达成合作协议,直接参与“企业季度营收”类新闻的写作。美联社称,双方合作后此类新闻的创作数量增长了近15倍,并进一步提出该技术“能让新闻记者专心于深度挖掘,而不是枯燥的数据分析。”除了写作外,他们还启用“编辑机器人”来审查由软件自动生成新闻报道。由此,美联社成为第一家全面引入新闻机器人的传媒机构。

  与前两家公司相比,“伊索”作为一家横跨欧美大陆的跨国公司,其软件产品的核心竞争力在于多种语言的“自助服务”。一方面,该公司声称能将逻辑分析能力运用于数据中,并能以每秒3000页的速度将其转化成书面形式的短讯、新闻信(newsletter)等。在新闻写作的过程中,其软件产品还能够透过数据解释隐含的写作动机和语境。另一方面,该公司提供包括英语、西班牙语、法语和德语在内的多语言自动新闻生成服务。2016年3月,该公司推出了新一代产品“智识”(Savvy),能将图表数据转换成多种语言表达的文字版本。

  新闻机器人的现状新闻机器人与大数据时代数据挖掘的兴起密不可分,经由计算机自动生成的新闻主要集中在高数据密度、高信息透明度、低语境的财经、体育、民意调查和天气等新闻报道中。美联社所使用的Wordsmith平台用户操作简单易行。任何个人或者机构用户都能注册成为该平台的用户。使用者将备有各项信息的数据表格(通常是CSV文件)上传至Wordsmith的云端,就可以开始人机互动式“半自动”的新闻写作的体验。首先将已有的电子数据表格、文件模板粘贴到Wordsmith的操作平台。然后从已经上传电子数据表格中选取数据,将已选数据插入相应的模板。随后系统会自动生成目标新闻文本。最后通过程序语言设计、同义词设定等,可以对文章进行修改,实现文本用词的多样化和复杂化。

  经过近年来的广泛应用,学界和业界对新闻机器人所具备的优势达成了以下一些共识:

  首先,新闻机器人最大的特点是精准而高产,这显然是得益于软件的不断改进,从而形成了一套精准完整的个性化定制服务,甚至可以精确到微观的个体读者,而这一点是普通新闻记者无法做到的。例如,《纽约时报》客户端今年5月推出的一个新闻专题“全美最宜居和最不宜居的城镇”,由新闻机器人为用户“量身定制”。不同地区的用户不再像以往那样看到的是同一个文本,他们接收到的是根据其IP地址和搜索偏好推送的相关城镇的信息。美国圣路易斯大学传播学副教授麦特·卡尔森(Matt Carlson)精辟地指出:“随着相对重要的新闻事件逐渐转移到个性化私人账户的推送,新闻的定义将被改变,新闻将从集体性叙事变成个性化资讯”。目前最为乐观的估计是,在20年的时间内,新闻机器人将能够胜任任何行业和领域的新闻写作要求。

  其次,新闻机器人能够在一定程度上提升报道的真实性、客观性和中立性。新闻客观性一直是饱受争议的话题。部分学者甚至主张,因为人类无法避免错误和偏见,新闻的客观性是几乎不可实现的目标。 英国萨塞克斯(Sussex)大学新闻学教授艾弗·盖伯(Ivor Gaber) 指出, “客观性本身就是一个没有意义的概念,因为所有的记者都会最终屈服于权威,以便得到认可,记者同样也是人,大多数人会随大流,选择牺牲其新闻报道的客观性。”显然,新闻机器人能最大限度地避免人为因素的干扰,保持对新闻真实性的严苛追求,“因为机器人是机器,而不是人”。在运用机器人进行新闻写作的一段时间后,业界对新闻机器人的精确性和客观性给予了正面的反馈。“自动化洞察力”和“叙述科学”公司的跟踪研究表明,相比于人类而言,新闻机器人的错误率和误差率更低。从2014年10月开始,美联社放弃了原有的“基于算法自动生成的新闻需经人工审查”的制度要求,新闻机器人的文本能够直接上线发布。

  再次,新闻机器人生成文本的质量和可读性通过了权威的验证。2015年10月,美国宾州州立大学传播学院的学者安德鲁·冈比诺(Andrew Gambino)对435人进行了阅读测试。该研究使用了三篇机器人自动生成的新闻作品,分别属于为政治类、财经类和公共健康类。测试结果发现超过半数的受试者认为,三篇文章均为人工写作。随后的研究调查显示,受试者对新闻机器人缺乏信任。进一步的调查显示,受访者更偏爱机器人进行财经新闻写作,对机器人自动生成的政治类新闻保持中立,而对于公共健康类新闻,受访者则更偏爱人工新闻写作。受试者对新闻机器人的信任度同时也受到其所属新闻机构的口碑影响。受试者倾向于给来自主流新闻媒体的机器人更高的评分。因此,媒体自身的品牌和公信力也会对机器人新闻作品的接受度产生影响。

  最后,新闻机器人的采用大大简化了生产流程,解放了新闻从业者的劳动生产力。传统新闻生产的“采、写、编、排”等环节被整合成为“信息抓取”和“文本生成”这两个环节,使新闻媒体的劳动生产率得以大幅提升。以财经新闻为例,在公司的财报发布季,记者们往往应接不暇,要花大量时间和精力阅读和整理这些报表和数据,撰写相关报道。由于时间紧迫和媒体机构之间的竞争压力,经常为了抢新闻而发生错报、漏报等“事故”。引入新闻机器人后,大大提升了报道的准确性,并且把记者们从这些事务性的常规报道中解脱出来,从而能够有更多的时间和精力撰写深度报道和评论。

  

  即便有着惊人的产出量和高度的准确性,新闻机器人仍然是计算机算法的一种应用延伸,其所存在的局限性也是显而易见的。例如,新闻机器人不能主动发掘新闻线索,无法完全代替记者的主观能动性。

  具体来说,其不足和局限主要表现在以下几个方面:

  首先是报道主题的局限性。由于新闻机器人是计算机算法逻辑的一种外化与衍生,且以精确的数据挖掘和既定的写作模板作为其高产量的技术支撑。因此,在当前的新闻生产实践中,新闻机器人主要报道的主题限于财经、体育等少数几个领域内,还未全面进入深度调查报道、解释性新闻等“硬核”领域。此外,这类新闻在内容上主要突出其事实性(what),而缺乏新闻深度的分析和探索(why & how),在形式上则有高度模式化、同质化的倾向。新闻机器人在抓取信息数据和生成新闻文本的过程中,能够提供海量信息,却无法直接生成更有深度的解释性新闻或评论。

  其次,新闻机器人的广泛运用,会对个人隐私和数据安全带来威胁。在大数据和物联网时代,万事万物都能够被“数据化”,并通过海量云端程序进行数据化联络与沟通。新闻机器人作为一套精心设计的电脑程序软件,在数据抓取过程中,存在着侵犯隐私,滥用数据的隐患。如何有效的界定个人隐私与可使用新闻数据的边界,将成为媒介伦理学需要深入探讨的一个问题。目前,各国网络监管部门尚未对新闻机器人的数据抓取进行有效的规范,存在法律法规层面的“盲区”。因此,在新闻机器人得以广泛使用和推广的大势所趋之下,应该尽快出台或完善相应的法律法规。

  再次,新闻机器人的广泛运用将加剧全球新闻传播的“失衡螺旋”。当前全球新闻传播领域,美英等少数西方国家垄断信息和舆论的格局还未得到根本改变。如前所述,新闻机器人的核心技术仍由少数西方媒体和企业掌握手中。绝大多数发展中国家还不具备在这个领域内的自主研发能力,再加上他们在虚拟空间的“网络主权”和在云空间的“数据主权”未能得到有效的保护,因此,新闻机器人在世界范围内的广泛应用非但不能消弭全球新闻传播领域内“双头”(美英)垄断、西强东弱的不平等状况,反而会加剧发展中国家对发达国家在数据抓取、新闻生产、信息流动和议题设置上的“被迫依赖”,从而陷入“强者更强、弱者更弱”的失衡螺旋。

  “叙事科学”公司曾经在2012年进行了大胆的预测,15年之内将有近90%的新闻由计算机算法来书写,而未来5-10年内将会有新闻机器人撰写的报道赢得“普利策新闻奖”。

  从新闻机器人报道的体量上看,他们的预言正逐渐变为现实。在2013年,单单是“自动洞察力”公司一家就生产了三亿篇新闻文本,这个数字在2014年突破了10亿。该公司声称能够每秒撰写2000篇新闻。 仅就内容数量而言,新闻机器人的产出量已经超过了世界上其他各类媒体平台的总和。

  从长远来看,新闻机器人的发展趋势表现在以下几个方面:

  2015年瑞士达沃斯经济论坛上,谷歌公司前首席执行官艾瑞克·施密特(Eric Schmidt)做出了大胆的预言:“互联网即将消失,一个高度个性化、互动化的有趣世界——物联网即将诞生”。可以预见在不久的将来,新闻机器人将通过持续不断的获取物联网当中的各项数据,进行更加广泛和深入的数据挖掘与提炼,在新闻报道的广度和深度方面将有明显的提高。换言之,新闻机器人由目前的“写作机器人”发展出“编辑机器人”和“评论机器人”等新的品类并非痴人说梦,集写作、编辑、分析(评论)“三体合一”的真正意义上的新闻机器人终将成为新闻业的中坚力量。

  随着新闻生产的分工将日趋细化和明确,在未来的新闻实务中,新闻机器人将充分其在数据挖掘和分析上的作用,而记者可以专注于调查性新闻、解释性新闻等高品质新闻的生产。有鉴于此,新闻记者的入职门槛也将水涨船高。除了具备传统的人文修养和在文字表达、视觉呈现上的功底,对记者在软件开发、数理逻辑分析等技术素养方面的要求也将相应地提高。

 发展中国家将日益重视新闻机器人的产业升级,并出台相应的政策、加大投入,推动相关技术的自主研发。随着全球政治经济格局的重组和调整,中国、俄罗斯等新兴国家有能力、也有实力参与这场新闻业的“创新大赛”,打破美英等国在这项技术上的垄断地位。另一方面,从全球传播的角度来看,新闻机器人的技术革新与网络空间的全球治理紧密相连。如何保护各国的“网络主权”和“数据主权”,为新闻机器人制定一套体现各方利益和诉求的专业伦理规范,亦将成为重构全球新闻传播新秩序的前沿课题之一。

  作者:史安斌 (清华大学新闻与传播学院副院长,教育部青年长江学者特聘教授)、龙亦凡(清华大学新闻与传播学院硕士研究生)

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:网易新闻学院
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...