会写会画!ChatGPT新功能引发大模型新趋势:多模态

智慧脑 2023-09-26
1692 字丨阅读本文需 4 分钟

ChatGPT 又更新了:语音和图像交互即将面世。

昨晚,OpenAI 在一篇最新的博客中表示,ChatGPT 将推出新的语音和图像功能。用户不仅可以在文本框中输入提示,还可以通过语音或图像与 ChatGPT 交流。据 OpenAI 称,新功能将在未来两周内向 ChatGPT 付费用户推出,不久之后会推广到其他用户。

ChatGPT 新增语音和图像功能

据介绍,用户只需轻轻点击一个按钮,然后提出问题,便可以与 ChatGPT 进行语音交流。ChatGPT 将迅速将这些口述的问题转换成文本,并将其输入至大型语言模型中。随后,ChatGPT 会将这些答案再次转化为语音来回答问题。这一体验类似于与 Alexa 或谷歌助手对话,但 OpenAI 致力于不断改进底层技术,提高回答问题的质量。

语音转文本的任务由 OpenAI 的 Whisper 模型提供支持。同时,该公司正在引入一款全新的文本转语音模型,据称可以通过仅几秒钟的语音样本生成与人类相似的音频。用户还可以从 5 个不同的选项中选择 ChatGPT 的声音。此外,OpenAI 正在与 Spotify 合作,将播客内容翻译成其他语言,同时保留播客主持人的声音。

图片搜索功能类似于 Google Lens。用户只需拍摄感兴趣的照片,ChatGPT 就可以解读照片中的信息并提供相应的答案。此外,用户还可以利用应用内的绘图工具,以更清晰的方式表达问题,或者直接通过图片或文本提出问题。这正是 ChatGPT 独特的特性所带来的帮助,用户可以与机器人进行互动,逐步完善答案,而无需首先进行搜索并在得到错误答案后再次搜索。

图像理解得到了多模态 GPT-3.5 和 GPT-4 的支持。这些模型将其语言推理技能应用于各种图像,包括照片、屏幕截图,以及包含文本和图像的文档。

多模态大模型成兵家必争之地 算力需求显著攀升

如今,多模态功能已成为各家AI大模型的必争之地。Meta最近推出AudioCraft,通过AI生成音乐;谷歌Bard及必应机器人均已部署多模式功能;苹果也在试验AI生成语音Personal Voice。

随着AI感知、交互与生成能力快速发展,应用场景与生态也有望进一步丰富。而语音与图像数据大小显著高于文本,券商指出,多模态大模型的训练推理算力需求将大幅攀升。

例如被谷歌寄予厚望的多模态大模型Gemini,据SemiAnalysi分析师Dylan Patel和Daniel Nishball透露,其已开始在TPUv5 Pod上进行训练,算力高达~1e26 FLOPS,是训练GPT-4所需算力的5倍。

华为副董事长、轮值董事长、CFO孟晚舟日前也表示,“人工智能的发展,算力是核心驱动力。大模型需要大算力,算力大小决定着AI迭代与创新的速度,也影响着经济发展的速度。算力的稀缺和昂贵,已经成为制约AI发展的核心因素。”

国信证券指出,AI三元素(大模型、算力、应用)呈螺旋式促进关系。AI三元素以“模型更新-算力芯片迭代、单位tokens成本降低-应用增加”循环往复,当三者中有一个要素喷发,就是强刺激期;三者同时没有更新,就会进入停滞期,等待下次爆发。

多模态大模型是未来发展趋势。通过将不同数据类型相互关联结合,可以大幅提高模型准确性和鲁棒性,应用场景进一步拓展。

同时,3月谷歌发布多模态具身视觉语言模型(VLM)PaLM-E,其可用于机器人领域;7月谷歌发布新一代视觉-语言-动作(VLA)模型Robotics Transformer 2(RT-2),专用于机器人领域,看好大模型赋能机器人趋势,分析师看好大模型赋能机器人。

创业机会和挑战在哪?

近日,由 GAIR 研究院、雷峰网、世界科技出版社、科特勒咨询集团联合主办的第七届 GAIR 全球人工智能与机器人大会,在新加坡乌节大酒店圆满结束。

而在会议多模态大模型与跨境电商的分论坛上,由Mamentum Works 创始人兼首席执行官李江玕主持,Meta人工智能研究专家曹晟、人工智能专家张伟、腾讯海外游戏发行算法中心主任郎君齐聚一堂,一同分享多模态大模型下的创业机会。

在圆桌论坛上,郎君表示,如果创业可能从两个方面下手,一是从现有的大公司的流程里发现大公司可能做得不够好的一些点,大公司又不太愿意投入一个很专注的团队专门干的这些事情,自己创业就把这些事做了。二是如果我们没有在大厂工作,可以观察自己的生活周边有没有一些相对好的需求,可以用技术的方式去解决,或者用商业的方式解决,或者用产品的方式解决。这几个方面,只要找到一个需求点就可以去突破。

郎君觉得在AIGC领域创业,这波还是会有很多做法。现在ChatGPT已经开放了,大家用起来也很方便,也有很多的API接入技术可以使用,创业成本门槛已经比以前低了很多。关键是要么从需求出发延伸性地做创新,要么就是从这个应用上继续加一块砖也能产生巨大商业价值。

张伟则思考了两条路,第一条路是在学术界中沿着这个方向做一些基础的研究,跟政府或者是国内的一些高校合作做一些更前端的研究,类似跟机器人的结合等。第二条路是创业,基于ChatGPT做一些应用,比如数字人,这个方向有挑战,但发展得好也是一条新的商业赛道。

曹晟直言,企业的周期越来越短,大家可以去接受这个事实,也不用去焦虑。首先有很多机会,同时也有很多竞争对手,第三有很多是可以被颠覆,第四要看你自己也可以颠覆的东西。曹晟觉得,大家只要结合这种模式,都是有机会的。

文章来源: 学术头条,科创板日报,雷峰网

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:智慧脑
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...