智能音箱找到“救星”,AI能拯救的可不止这些

黑科技观察家 2023-05-24
4111 字丨阅读本文需 10 分钟

近期,亚马逊宣布,计划将其智能语音助手Alexa接入其自研的大模型Alexa Teacher Model,这是继小度和天猫精灵后又一个接入大模型的语音助手。9年前,以Alexa智能语音助手衍生出来的智能音箱Echo曾创造了傲人的成绩,不仅被称为“品类开创者”,还被视作“谷歌与苹果的学习对象”。

在生成式AI火爆的当下,像亚马逊一样寻求新变量的智能硬件厂商不在少数,他们纷纷将生成式AI引入自家智能硬件中,以期提升原有智能硬件的交互体验、使产品能够在更广泛的场景下服务用户。

目前来看,调用ChatGPT服务到智能硬件产品上,可以通过REST API、SDK或者Webhooks等方式,继而实现自然语言处理(NLP)、聊天机器人(Chatbot)等功能。接入ChatGPT的智能硬件可以用于自动客服、聊天机器人、自动文本生成、自动问答等应用场景。

智能硬件的“第二春”似乎到来了,然而生成式AI如何赋能智能硬件,搭载生成式AI技术的智能硬件产品在规模量产前还面临着哪些问题,我们试图通过目前各类智能硬件玩家的最近动作来找到答案。

ChatGPT前夜,智能硬件厂商陷入困局

像VR\AR设备、可穿戴设备、智能家居产品这样的智能硬件在2022年似乎格外不好卖。

而在销售的另一头,生产智能硬件也绝非容易。2013年,作为一个即将兴起的领域,智能硬件市场等待着产业链成熟,也等着一个真正的爆品出现。

2014年,亚马逊推出基于Alexa的智能音箱Echo,智能硬件市场也经历了一场创投热潮。彼时,智能硬件产品开始在市场上涌现,但是多数智能硬件仅仅是实现App的控制,并没有找到用户的痛点,没有办法让用户能够真正形成使用意愿,一些用户出于新鲜感购买智能硬件产品,但是产品用户粘性很弱。

据腾讯科技不完全统计显示,截止2015年,完成A轮融资的智能硬件公司接近300家,而完成B轮仅有20家,90%的初创公司都在“战场”上死去。而在2016年,更是有3000多家智能硬件企业注销关停。2017年,坚果智能影院董事长胡震宇曾说:“98%做智能硬件的都死了,我是那2%的幸存者”。

惨淡的市场、失意离开的玩家、不够智能的产品构成了“ChatGPT前夜”智能硬件领域的概貌。厂商们期盼着新技术的出现”拯救”陷入困局的智能硬件。

智能硬件与大模型加速融合

今年,随着国内外AIGC研发的持续井喷,理论走向应用是必然,如何快速实现商业化落地已然成为一门新课题。彼时,移动终端与AIGC的融合正在加速进行,“竞争红海”初显。

相较于在软件应用领域的互相角逐,智能硬件与大模型相互结合也存在无限可能。这个共识,在许多互联网公司的产品表现中皆可窥得一二。可以预见的是,未来AIGC硬件的应用场景也将更为垂直化、更为个性化。

从国外来看,本周OpenAI宣布在美国推出聊天机器人ChatGPT的iPhone应用,并承诺未来也将为安卓手机提供相同的服务。国内方面,除了天猫精灵智能眼镜选择“嵌入”大模型外,百度近期也发布了集成AI大模型能力的小度青禾学习手机,科大讯飞亦将星火大模型融合进了讯飞智能办公本。

不管此时国内外各方的进展如何,唯一能确定的,智能硬件必将是下一个风口。

如果非要找出都搭载大模型的智能硬件和软件应用两者之间的区别,那个答案更可能会落脚到个性化上。相比以广义理论框架搭建、公用数据训练出的通用大模型,经微调后加入人格化标签、融入更加细分领域的数据的个性化大模型更显有趣,也更符合新趋势的走向。

然而前有被竞相追捧的元宇宙风口,后有个性化大模型结合智能终端的现实方向,这些在高热风口都被寄予众望,而事实好像恰恰相反。

不管是元宇宙,还是大模型,消费场景的建立和使用,更多取决于用户的“无感”体验,即要求更多具有沉浸感的交互能够在无意识的情况下自然下发生。“沉浸感”已经不是最高要求,虚拟现实体验的前提是虚拟环境,直白点说,就是游戏、VR、AR等使用场景,完全区别于现实的场景。

而在大模型需求的多模态交互语境下,虚拟环境不是必须的,那么这份“沉浸感”能否转化为“无感”呢?若真要以“无感”作为智能硬件的一项标杆,那起码现阶段的任一落地产品都无法达到。

目前,人们对于全能助手的共识更多偏向于“管家”这一刻板印象,往小了说,“管家”也就意味着随叫随到甚至随身派遣。相较于文字输入的冗杂性,语音输入的出现似乎标志着“声音+AI+随身”成为可能。除此以外,一个可以帮我们解决生活、工作、学习方方面面、大大小小难事的助手,为了规避一些尴尬和不便,“私密”也应该被拔高一个层级。

不做“智能手机附庸”

生成式AI或拓展可穿戴设备应用场景

与VR/AR设备相比,智能手表、智能手环等可穿戴设备在不断迭代中以“运动”和“健康监测”可为用户提供了购买理由。但这依旧没有阻挡住可穿戴设备的市场颓势。市场研究机构Canalys发布的报告显示,2022年全球智能可穿戴设备出货量下滑5%,只计算四季度的话,出货量更是低至5000万件,同比大跌18%。

其中很大一部分原因是,智能手表等并非想象之中如此“智能”,它必须通过连接智能手机才能够实现功能的推展,处于“手表+手机”的尴尬处境,智能手表在很大程度上还是智能手机的附庸。

在逃离做“智能手机附庸”这件事情上,苹果前高管伊姆兰·乔杜里(Imran Chaudhri)为其他可穿戴设备制造商开了一个好头。近期,他开办的AI初创企业Humane推出了一款AI可穿戴设备,无需与智能手机相连,就可实现无屏幕接打电话、自动生成会议摘要,还能充当智能健康助手。

伊姆兰·乔杜里曾任苹果人机交互界面团队的设计总监。他对生产一款面向消费者的智能可穿戴产品有着极高的热情。

今年年初,这款AI可穿戴设备的背后的专利——“可穿戴设备和云计算平台与激光投影系统”被媒体扒出。仔细分析专利图纸,或许可以帮助我们想象未来智能硬件产品的形态与功能。

如此之长的专利名称泄露出了这款设备的关键器件。除AI外,它还配备了3D深度传感器、Goolge lens、激光投影系统等。从工作流程来看,首先,3D深度传感器识别用户手势指令,接下来它会将捕捉的多媒体数据上传至云端。这时AI便会分析上下文,并将多媒体数据转化为图像、视频、音频等格式,最后,激光投影系统会把图像、视频等投射在物体表面。

或许这么说来有些抽象,伊姆兰·乔杜里的现场演示或许可以帮助我们更好地理解这一流程。现场中,由于该设备较小,他将设备夹在夹克口袋上,然后对设备发出了“翻译”的手势指令,接着他说了一段话,3D深度传感器将捕捉的音频数据传到云端,AI通过分析然后生成了他所说的这段话的法语版。不仅如此,他还用这个3D深度传感器扫描了巧克力棒的信息,AI随后为伊姆兰·乔杜里提出了健康建议。最让人惊喜的操作是,伊姆兰·乔杜里还将原本应该在屏幕上的内容投射到手里,然后在无屏幕的情况下,与妻子打了一通电话。

Goolge lens的功能没有在演示中呈现,但专利图纸中却为我们勾画了一个场景:用户在修理汽车引擎的时候,Goole lens会将汽车引擎转化成一个虚拟模型,然后再对虚拟模型中的各元件进行识别,之后各元件功能信息以及修理步骤会通过过激光投影系统投射在汽车引擎表面,指导用户如何修理。如此看来,这些功能如果可以落地,将会使可穿戴设备逃离“智能手机附庸”的命运,同时还将会极大地拓展可穿戴设备的应用场景。

AI机器人焕发新生机

在2022年这个人工智能逐渐成熟的时间段,机器人学研究和相关产业也开始焕发新的生机。

人工智能,尤其是其中的深度学习技术,对很多人来说已经不是什么新鲜事:手机里的人脸支付、自拍里的滤镜、网络广告的推荐系统都依赖深度学习,即从数据中学习模式,甚至生成数据。从人工智能科学家的研究视角来看,如今已经有了摄像头作为“眼睛”,语音处理技术作为“嘴巴”,那么下一步很自然地就是如何把智能的“手”和“脚”装上去。对于机器人学的研究者来说,如何给那些已经能完成跑跳控制的电子机械装置装上“大脑”,也成为最近的工作热点。

因此,人工智能和机器人的融合成为必然的趋势:人工智能机器人不仅可以像传统机器人一样完成指定的动作,同时结合了感知和环境中的变化,通过模型进行泛化,从而达到通用目的。这样的“强强联合”,孕育着最富有未来感的想象空间:机器人在非结构化的空间—人类真实生活的空间,可以只依赖传感器信息,完成一系列复杂的任务。例如你能想象在过春节的时候,一桌子年夜饭全是由一个机器人为你制作的吗?

当然,现在的人工智能机器人离我们想象中的那些有着相当智慧水平的硅基生物仍然有不小的距离。纵使如此,人类对更智能、更强大的机器人的追求从来没有停下来。2019年,“灵巧机器人”(Robot Dexterity)入选《麻省理工科技评论》“全球十大突破性技术”,相关论文中提及当年轰动一时的机器人研究——“机器人灵巧手Dactyl”项目。OpenAI公司的研究员们利用深度强化学习,让机器手在大量随机化的模拟器仿真数据中自主学习拧魔方的策略,并将该策略应用在真实的机械灵巧手上。该项目之所以影响力大,一是因为“强化学习”让机器人在没有明确人类指令的情况下学会了如何完成任务,这是更高级智能的一个指标;二是因为实现了从仿真环境到真实机器手的迁移,让我们看到了从完善仿真、改善算法,到现实部署这样一个清晰可行的路径。

无独有偶,来自苏黎世联邦理工学院和英特尔公司的机器人专家们,以类似的方式,让机械狗通过深度强化学习在仿真环境里进行了大量的训练。训练所获取的策略,最终用在了ANYmal机械狗上,从而使机械狗可以在多样、复杂,甚至从未遇到过的地面上行走。而此前,这一问题往往需要机器人科学家和工程师们针对不同地形进行大量人工的优化和整合。能够获得此次举世瞩目的结果,主要原因是在仿真环境中人工智能机器人早已见过多种多样更复杂、更崎岖的路面,所以应用到现实时便可以得心应手。

机器人与人工智能的结合,当然远远不止上述两例。为了创造出有足够智能的机器人,目前仍然存在着十足的挑战。在算法层面,以深度学习为基础的一系列技术,都需要依靠神经网络的拟合能力,而稍有神经网络经验的研究者和创造者都曾经历过神经网络的“不靠谱”:神经网络极难达到100%的精确度。在智能解锁等应用场景中,如果神经网络“犯错”,可能只是造成了用户无法解锁手机,需要多次尝试的情况,但在机器人应用中,却极有可能威胁到人们的生命财产安全。与此同时,如何让机器人应对没见过的极端个例也是非常困难的,因为如果机器人在训练数据集或模拟器里没有经历过此类场景,在真实的世界里往往就会做出错误的判断。在硬件层面,高精度、大载荷的机器人往往是昂贵的、脆弱的,如何有效降低机器人硬件成本并使其走入千家万户,也是广大机器人研究者和创业者面临的重要课题。

另外,伴随着人工智能机器人的发展,机器人伦理学也逐步进入人们的视野。早在阿西莫夫的科幻小说中就提出了“机器人三定律”:“第一,机器人不得伤害人类,或者不得置人类于危难中;第二,机器人必须服从人类命令,除非与第一定律矛盾;第三,机器人可以在不与第一、第二定律冲突的情况下维护自身存在。”我们可以感知到,人们对于机器人总是有着各种各样的担心。虽然现在离机器人的“觉醒”时刻尚远,但人们仍然应该思考许多伦理问题。例如,当机器人和人类对话时,是否会因为一些固有印象而使用错误的人称代词?大量的机器人是否会抢占一部分人类的工作岗位?每一次技术的爆发,都会伴随着相应的社会问题、伦理问题,这也是我们在技术与人类生活融合的道路上必须要思考和解决的。

我们可以获得什么样的技术?我们可以创造出怎样的机器人?拥有了这些机器人后人类的生活有怎样的变化?人类正在靠着自己的好奇心探索着未知的疆界,并一步一步地追寻着想象中的未来。

文章来源: 返朴,新立场NewPosition,智东西

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:黑科技观察家
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...