深度 | 微软人工智能首席科学家邓力:深度强化学习如何助力聊天机器人

1971 字丨阅读本文需 4 分钟

  在今年 3 月份,微软 CEO Satya Nadella 讲到了更普遍的使用人类语言与计算机设备进行交互的产业趋势,他称之为「对话即平台」趋势。

  他也宣布了数个 bot 计划,其中包括微软的 bot 框架。在 4 月份,Facebook 发布了其带有 bot 的 Messenger 平台。然后,在 5 月份,谷歌宣布要尝试开发人工智能驱动的 bot,称之为 Google Assistant。从此之后,人们就普遍认为 bot 将成为从根本上改变计算体验方式的新型用户界面(UI)。

  

  App 平台多年之前由苹果公司为智能手机发明,然后谷歌推出了 Google Play Store。App 平台基于一个统一的资源模型(这个模型需要手机有一定量的内存和处理速度,从而能够提供你所需要的一切。)但缺点是如今大批的 App 塞满了用户的手机屏幕,即使他们一直使用的 App 并不超过 20 多种。

  事实上,被人们频繁使用的智能手机 App 的数量已经降低了。总的来说,即使有数百万的 App 被编写、发放出去,但大部分一直没被使用过。这无疑是设备资源以及用户下载、安装、管理 App 时间上的极大浪费。

  网页模型在移动用户界面上的表现更差。通过移动设备使用网页服务的访问量很低。这种极低的使用率是因为很多流行的网页是为非移动的 PC 端设计并优化的,通常需要宽带接入。

  智能手机有限的带宽和计算资源是很多网页服务的主要障碍。

  此外,大部分网页都遵循以页面为中心的信息配置的传统范式,导致(非移动)浏览器暗中模仿阅读器,这对移动设备是次优的。

  结果就是:我们需要从头开始重新设计手机 UI ,以实现移动时代的全部潜力。

  

  幸运的是,在重新设计与执行中,有一个新兴范式很适合于移动手机。这一新的对话即平台范式能够让手机用户发现、访问、交互对日常生活很重要的信息与服务,从而使有用的信息和服务能够自然地融入进对话流中。

  这一对话 UI 范式将引发新型生态系统的形成,要比先前的网页和 App 生态系统有更大的规模收益。这之所以成为可能,是因为信息产业进入了一个物理世界数字化以及连接这些现实服务的新时代。这一物理的、交互的、以服务为中心的世界超出了先前静态的网页信息配置时代。

  消息(messaging)是新型的对话范式的核心,包含一连串的短文本、音频、消息。

  由于其兼具异步与实时两种性质,消息成为了一个加速器,驱动着数字对话的成长。用户不再需要花费进行交互预安排的时间成本,仍保留有近乎实时对话的能力。

  

  在对话交互中,比以对话为中心的移动 UI 范式更重要的是各种类型的智能服务。我们有像 Siri、Google Now、Cortana 和 Alexa 这样的智能个人助手。我们也有可以由自动对话接口获取的个体 bot。

  新兴的对话范式最终模式:用户不再需要下载 App 了,人工智能 bot 会利用语音和自然语言处理能力监控并响应消息 UI,自动将必要的服务资源(很可能储存在云端)提供给用户。

  由于最近机器学习和人工智能技术的巨大进步,实现人工智能 bot 成为了可能。这些进步使我们能将越来越多的我们所关心的东西自动化。过去几年深度学习的发展,特别是过去一年半发展起来的深度强化学习(Deep reinforcement learning,RL),高效利用了不断增长的数据和计算资源,促进了我们为世界环境、为任何与我们生活相关的领域构建计算模型的能力。

  在机器学习中,RL 有独特的特征。你需要用户的反馈,同时也需要奖励用户。就像一盘你暂时不知道奖品是什么的国际象棋比赛。你知道与人工智能的交互会产生任务完成的结果。比如你的目标是预定一个航班,但是 bot 只会说对于完成目标有帮助的事情,即使用户可能不明白 bot 正努力追求最终目标和奖励。

  机器学习和人工智能技术的进步使得自动语音和自然语言理解触手可及,最终能让我们解决对话理解和许多领域的对话问题。基于深度强化学习的人工智能 bot 会理解所有领域的语义,还能够扩展到现在还无法涉足的领域。

  人工智能 bot 会采用迭代和反馈回路来自我发展,并趋于完美。内置在人工智能 bot 的强化学习组件中的环境模式能够自动地且精致地检测、获取、创造并积累新知识,让我们能开发越来越多的智能服务并积累更多经验,特别是像预定、付款等行为导向型服务。

  

  大体来说,有三种类型的人工智能 bot 。第一种类型是搜寻信息的 bot,其目标是明确的。第二种类型是要完成某种任务,其中也可能需要搜寻信息,但在短时间内其目标可能是不明确的。你可能问院的开放时间。这不是说你的目标只局限在答案上,而是说获得答案是你达到最终目标(看电影)的一个步骤。对于第一种类型,奖赏是明确定义的;而对于第二种类型,奖赏也是相当明确的(或者将会是这样)。

  当使用强大的深度强化学习技术进行构建时,以上这两种 bots都有自己的、定义相当直接的奖赏函数(这是强化学习的关键组件)---或者搜寻信息,或者试图完成特定任务 (比如预定机票和酒店)。

  第三种类型的人工智能 bot 需要的指导最多,它们是社交 bot ,有时也被叫做聊天 bot 或闲聊 bot 。这种 bot 的奖赏函数(用于深度强化学习算法)——先简单称之为「情感智能」——不可能被轻而易举地量化。举个例子,你可能向聊天 bot 寻求建议,或者问一些含糊的问题,比如今天做什么, 或者在同 bot 讨论买人寿保险之前先聊聊天。

  处理聊天 bot 十分复杂的奖赏函数需要扩大能力,为了给这种能力提供数学基础,研究界和从业者需要深入调查。这里的目标是将普遍使用的强化学习算法(例如用于 AlphaGo 中的关键学习方法)扩展成更好的算法,这种算法能利用信息理论上的和内在激励的奖赏。

  在转向其他试图完成任务型的 bot 对话之前,这种奖励会抓取用户在与 bot 的对话中获取的情绪满足感。对于计算机科学家和电气工程师而言,这是一片十分有前景的人工智能研究领域。

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自::2016-08-04
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...