橙色云资讯 - 工业互联网行业信息门户

会写会画！ChatGPT新功能引发大模型新趋势：多模态

智慧脑 2023-09-26

1692 字丨阅读本文需 4 分钟

ChatGPT 又更新了：语音和图像交互即将面世。

昨晚，OpenAI 在一篇最新的博客中表示，ChatGPT 将推出新的语音和图像功能。用户不仅可以在文本框中输入提示，还可以通过语音或图像与 ChatGPT 交流。据 OpenAI 称，新功能将在未来两周内向 ChatGPT 付费用户推出，不久之后会推广到其他用户。

ChatGPT 新增语音和图像功能

据介绍，用户只需轻轻点击一个按钮，然后提出问题，便可以与 ChatGPT 进行语音交流。ChatGPT 将迅速将这些口述的问题转换成文本，并将其输入至大型语言模型中。随后，ChatGPT 会将这些答案再次转化为语音来回答问题。这一体验类似于与 Alexa 或谷歌助手对话，但 OpenAI 致力于不断改进底层技术，提高回答问题的质量。

语音转文本的任务由 OpenAI 的 Whisper 模型提供支持。同时，该公司正在引入一款全新的文本转语音模型，据称可以通过仅几秒钟的语音样本生成与人类相似的音频。用户还可以从 5 个不同的选项中选择 ChatGPT 的声音。此外，OpenAI 正在与 Spotify 合作，将播客内容翻译成其他语言，同时保留播客主持人的声音。

图片搜索功能类似于 Google Lens。用户只需拍摄感兴趣的照片，ChatGPT 就可以解读照片中的信息并提供相应的答案。此外，用户还可以利用应用内的绘图工具，以更清晰的方式表达问题，或者直接通过图片或文本提出问题。这正是 ChatGPT 独特的特性所带来的帮助，用户可以与机器人进行互动，逐步完善答案，而无需首先进行搜索并在得到错误答案后再次搜索。

图像理解得到了多模态 GPT-3.5 和 GPT-4 的支持。这些模型将其语言推理技能应用于各种图像，包括照片、屏幕截图，以及包含文本和图像的文档。

多模态大模型成兵家必争之地算力需求显著攀升

如今，多模态功能已成为各家AI大模型的必争之地。Meta最近推出AudioCraft，通过AI生成音乐；谷歌Bard及必应机器人均已部署多模式功能；苹果也在试验AI生成语音Personal Voice。

随着AI感知、交互与生成能力快速发展，应用场景与生态也有望进一步丰富。而语音与图像数据大小显著高于文本，券商指出，多模态大模型的训练推理算力需求将大幅攀升。

例如被谷歌寄予厚望的多模态大模型Gemini，据SemiAnalysi分析师Dylan Patel和Daniel Nishball透露，其已开始在TPUv5 Pod上进行训练，算力高达~1e26 FLOPS，是训练GPT-4所需算力的5倍。

华为副董事长、轮值董事长、CFO孟晚舟日前也表示，“人工智能的发展，算力是核心驱动力。大模型需要大算力，算力大小决定着AI迭代与创新的速度，也影响着经济发展的速度。算力的稀缺和昂贵，已经成为制约AI发展的核心因素。”

国信证券指出，AI三元素（大模型、算力、应用）呈螺旋式促进关系。AI三元素以“模型更新-算力芯片迭代、单位tokens成本降低-应用增加”循环往复，当三者中有一个要素喷发，就是强刺激期；三者同时没有更新，就会进入停滞期，等待下次爆发。

多模态大模型是未来发展趋势。通过将不同数据类型相互关联结合，可以大幅提高模型准确性和鲁棒性，应用场景进一步拓展。

同时，3月谷歌发布多模态具身视觉语言模型（VLM）PaLM-E，其可用于机器人领域；7月谷歌发布新一代视觉-语言-动作（VLA）模型Robotics Transformer 2（RT-2），专用于机器人领域，看好大模型赋能机器人趋势，分析师看好大模型赋能机器人。

创业机会和挑战在哪？

近日，由 GAIR 研究院、雷峰网、世界科技出版社、科特勒咨询集团联合主办的第七届 GAIR 全球人工智能与机器人大会，在新加坡乌节大酒店圆满结束。

而在会议多模态大模型与跨境电商的分论坛上，由Mamentum Works 创始人兼首席执行官李江玕主持，Meta人工智能研究专家曹晟、人工智能专家张伟、腾讯海外游戏发行算法中心主任郎君齐聚一堂，一同分享多模态大模型下的创业机会。

在圆桌论坛上，郎君表示，如果创业可能从两个方面下手，一是从现有的大公司的流程里发现大公司可能做得不够好的一些点，大公司又不太愿意投入一个很专注的团队专门干的这些事情，自己创业就把这些事做了。二是如果我们没有在大厂工作，可以观察自己的生活周边有没有一些相对好的需求，可以用技术的方式去解决，或者用商业的方式解决，或者用产品的方式解决。这几个方面，只要找到一个需求点就可以去突破。

郎君觉得在AIGC领域创业，这波还是会有很多做法。现在ChatGPT已经开放了，大家用起来也很方便，也有很多的API接入技术可以使用，创业成本门槛已经比以前低了很多。关键是要么从需求出发延伸性地做创新，要么就是从这个应用上继续加一块砖也能产生巨大商业价值。

张伟则思考了两条路，第一条路是在学术界中沿着这个方向做一些基础的研究，跟政府或者是国内的一些高校合作做一些更前端的研究，类似跟机器人的结合等。第二条路是创业，基于ChatGPT做一些应用，比如数字人，这个方向有挑战，但发展得好也是一条新的商业赛道。

曹晟直言，企业的周期越来越短，大家可以去接受这个事实，也不用去焦虑。首先有很多机会，同时也有很多竞争对手，第三有很多是可以被颠覆，第四要看你自己也可以颠覆的东西。曹晟觉得，大家只要结合这种模式，都是有机会的。

文章来源：学术头条，科创板日报，雷峰网

免责声明：凡注明来源本网的所有作品，均为本网合法拥有版权或有权使用的作品，欢迎转载，注明出处本网。非本网作品均来自其他媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容，请依照下方联系方式进行沟通，我们将第一时间进行处理。

0赞好资讯，需要你的鼓励

来自：智慧脑

0 0

参与评论

登录后参与讨论 0/1000

下一篇宜鼎国际领先推FPGA应用工业级DRAM模组

深圳2021年1月28日／美通社／－－宜鼎国...

2021-01-29

会写会画！ChatGPT新功能引发大模型新趋势：多模态

参与评论

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

会写会画！ChatGPT新功能引发大模型新趋势：多模态

参与评论

为你推荐

天玑8000加持！Redmi Note 12系列入网：首次搭载旗舰级芯片

智能网联汽车周报(6月第三周) | 《汽车软件升级通用技术要求》征求意见；中国牵头成立ISO车载激光雷达工作组

智能网联汽车周报(7月第一周) | 广州智能网联自动驾驶混行试点南沙首发；浙江德清颁发L4级自动驾驶卡车路测牌照

燧原科技完成C＋轮融资，大基金二期入股｜ 镁客网每周硬科技领域投融资汇总（8.6-8.12）

半年融资827亿，1.2万字看懂新能源汽车产业图谱

智能网联汽车周报(3月第三周) | 工信部将开展汽车软件在线升级管理试点；湖南发布智能网联汽车产业“十四五”规划

智能网联汽车周报(6月第一周) | 长安6月30日起关闭远程智能泊车等功能；首款前装量产全无人驾驶环卫车批量交付

智能网联汽车周报(1月第一周) | 首个自动驾驶公交车标准发布；京台高速部分路段为智能网联车测试道路

中国智慧城市“药方”如何化解海外城市治理症结？

智能网联汽车周报(11月第三周) | 工信部发布十四五信息通信行业发展规划，福特车路协同系统正式落地广州

AI新基建：AIoT领域群雄逐鹿，七家标杆企业各有什么过人之处？

RISC-V只适用于嵌入式芯片？以IoT为立足点，RISC-V正在“征服”整个半导体世界

下一个消费电子蓝海，VR/AR市场海外玩家走到哪一步，中国大厂布局情况又如何？

虚拟偶像、虚拟主播逐渐出现在人们的视野中，未来虚拟人行业将向何发展？

“灯塔工厂”的中国路径：智造从点到面铺开

国产屏厂TCL华星要打入苹果供应链：为iPad、MacBook出货LCD

国产CIS开始向2亿像素时代迈进，巨头垄断格局或将被打破

AI健身/3D试衣/AI烤肉……黑科技扎堆的AWE2021都有哪些硬货？

Nreal国内首发AR眼镜，消费级AR眼镜潮即将爆发，VR/AR产业链开启“卡位战”

研究人员研发仿生二合一纳米电子传感器，可同时测量细胞电气和机械反应

国家电投与阿里巴巴宣布战略合作，数字化转型这条路上，央企各显神通

新材料七国的竞争版图：热门行业分布大集锦，未来10年的市场机会或许在这

智能网联汽车周报(8月第一周) | 自然资源部开展汽车高精度地图应用试点；智能网联汽车测试示范区评估结果发布

SiC迎来“奇点时刻”，盘点近期产能、需求量、交易等行业大事件

智能网联汽车周报(1月第三周) | 北京建设2022年高级别自动驾驶示范区3.0；上海将制定智能网联汽车终端发展计划

年内 IPO 上市？哪吒汽车完成超 20 亿融资｜ 镁客网每周硬科技领域投融资汇总

下一个10年，将会发生的12个趋势

从工业机器人产业链看智能制造机会

最新总结：冬奥会的100个创业机会

后疫情时代，OTA如何回血

相关推荐

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

燧原科技完成C＋轮融资，大基金二期入股｜镁客网每周硬科技领域投融资汇总（8.6-8.12）

年内 IPO 上市？哪吒汽车完成超 20 亿融资｜镁客网每周硬科技领域投融资汇总