手机和电脑PK,谁才是AI的最佳输出“媒介”?

彩虹科技 2023-11-21
2590 字丨阅读本文需 7 分钟

AI早已有之,但无论是深蓝在国际象棋上战胜卡斯帕罗夫,还是AlphaGo在围棋上击败柯洁,都没有像ChatGPT这样引发全民热潮。

正是这一波AIGC(生成式AI),第一次让AI来到了每一个普通人的身边,真正改变了人们的日常生活、工作,而不再是一个高大上的科技概念。

如今无论是互联网厂商还是传统科技厂商,无论是手机厂商还是PC厂商,无论是芯片硬件厂商还是软件厂商,自家产品不搞点AI,都不好意思和人打招呼。

当然了,对于如今人们的生活和工作来说,最核心的设备一是智能手机,二是PC电脑,它们也都在AI的路上衔枚疾进,很多人也经常正路,PC AI和手机AI,究竟哪个才是王道?

AIGC风潮席卷手机:但在PC面前 还是个弟弟

首先公平地讲,PC AI和手机AI无所谓孰优孰劣,关键是谁更适合用在哪里。

另一方面,对于AI而言,最基础的前提一是算力是否够强大、模型和算法是否够丰富,二就是应用场景是否够广泛、灵活。

无需赘言,手机和PC相比无论CPU性能还是GPU性能,根本不在一个档次,即便加入独立的AI引擎,也是看不见尾灯的。

最新发布的高通骁龙8 Gen3已经升级为第九代AI引擎,甚至将Hexagon DSP数字信号处理器升级为专门的NPU神经网络单元,并结合整个平台不同模块的力量,AI性能比上代几乎翻番。

但即便如此,它也只能处理100亿参数的大语言模型,每秒执行Token的数量最多不过20个。

联发科天玑9300配备了第七代APU处理器,具备生成式AI引擎,但也只是实现了70亿参数大语言模型端侧落地、130亿参数大语言模型端侧运行,70亿参数的生成速度也只有每秒20 Tokens。

更关键的是,手机端硬件平台性能优先,尤其是运行大模型必须的内存容量捉襟见肘,即便是高端配置的16GB也过根本不够用。

为此,联发科不得不动用了各种优化手段,包括内存硬件压缩、LoRA融合、Fusion技能扩充等等,才勉强够用。

在PC端,16GB内存如今已经是最起码的配置,32GB都随处可见,再加上PC处理器的强大算力,这些限制根本就不是事儿。

比如Intel 13代酷睿处理器,尚没有独立的AI引擎,但凭借XPU的加速,再加上简单的低比特量化、软件优化,只需16GB内存,就可以通过BigDL-LLM框架,轻松运行160亿参数的大语言模型,还可以快速对接新兴模型,包括但不限于:LLAMA/LLAMA2、ChatGLM/ChatGLM2、MPT、Falcon、MOSS、Baichuan、QWen、Dolly、RedPajama、StarCoder、Whisper,等等。

这里说的BigDL-LLM,是专门针对Intel硬件的一个低比特量化设计开源框架,支持INT3、INT4、INT5、INT8等各种低比特数据精度,性能更好,内存占用更少。

基于这个框架,使用i9-12900K处理器,只开启4个核心来运行ChatGLM2 60亿参数模型,生成效果就相当迅速,打开全部8个P核、8个E核之后生成速度可达每秒22 Tokens,已经不弱于很多云侧计算。

换言之,无论是需要将全部算力投入AI模型的运算,还是兼顾其他任务,PC端都可以轻松完成。

可以看出,无论哪种情况,Intel PC侧都已经可以很好地完成相应的AI工作,提供令人满意的算力和效率。

当然,60亿参数对于PC处理器来说是小菜一碟,换成LLaMA2 130亿参数大语言模型、StarCoder 155亿参数代码大模型,Intel酷睿处理器也都能获得良好的运行速度。

再换成Arc锐炫显卡,速度就更快了,比如ChatGLM2模型中生成速度可以超过每秒50 Tokens。

正是得益于如此快速的大语言模型运行速度,即便是一台轻薄笔记本,也可以在日常工作中及时提供各种帮助。

比如包括但不限于:聊天助手、情感分析、中英文翻译、故事创作、生成大纲、信息提取、美食指南、旅游规划、代码生成等等。

除了基于大语言模型的工作和生活助手,AIGC最常使用的另一个场景就是Stable Diffusion文生图、文胜文,这一点如今无论手机还是PC都可以做到。

当然,还是受制于算力,最新的手机平台虽然号称可以在1秒钟之内完成Stable Diffusion文生图,但是无论生成中的迭代次数、引导系数、关键词数量,还是图片的尺寸、分辨率、质量,都不得不做出妥协,也导致图片的应用范围有限。

在PC上,无论使用CPU还是GPU,完全可以根据自己的需要,任意设定参数,花个几分钟,就能生成用于高级设计、创作的素材。

AI的较量从“芯”开始

无论是处在产业链上游的芯片供应商,还是OEM或者下游的开发者、应用及服务提供商,都在入局AI赛道。但作为AI算力的底层构建者,芯片决定了AI体验的“天花板”。

目前,高通、英特尔、AMD、苹果、英伟达、联发科都围绕AI在自家芯片上下了一番功夫。

具体到PC领域,英特尔推出了Meteor Lake处理器,首次集成NPU;高通发布的骁龙X Elite,凭借高通AI引擎的异构算力达到75TOPS;苹果最新的M3系列也配备了增强型神经网络引擎,可支持AI软件开发。

或许仅从性能角度来看,可配备显卡、加速卡的工作站、台式机更胜一筹,但是多数用户手中的笔记本,特别是轻薄本,在体验方面更有看点。

毕竟在PC端能够部署终端侧AI,而终端侧AI的优势可不仅是低时延、个性化、更安全,还包括在没有网络的环境下也能随时随地体验,更符合“贴身助理”的定位,与混合办公时代下笔记本的使用场景相辅相成。

不同于深耕PC行业许久的英特尔,以及拥有闭环生态的苹果,高通在PC市场释放AI潜力,既有优势也有挑战。

尽管是2016年才入局PC行业的“新人”,但高通在终端侧AI方面的积累相比其他厂商并不落后,甚至是处于领先。

自2017年推出高通AI引擎,高通便持续发力终端侧AI,在提升骁龙平台AI算力的同时,着力打造基于终端侧AI应用,比如手机中广泛应用的AI场景识别、AI智能助理、AI识图等功能。随着终端侧AI与生成式AI的融合,带来的体验也将有所提升。

在2023骁龙峰会期间,天极网对话高通技术公司高级副总裁兼手机、计算和XR业务总经理阿力克斯·卡图赞(Alex Katouzian)时,他提到:无论是普通消费者还是企业级用户,评价一款AI PC其中一个标准就是这款产品的AI应用如何在日常使用中发挥作用。

未来用户在进行PC购买决策时,除CPU和GPU之外,还会考虑AI的性能和应用,在这些方面高通一直处于领先位置且仍在不断进步。

在2023骁龙峰会上,高通打出的第一张王牌就是骁龙X Elite计算平台。这款全新设计的平台,首次集成高通在兼容ARM指令集的前提下完全重构的Oryon CPU,采用4nm制程工艺,拥有12个3.8GHz的高性能核心。

其单性能可以领先苹果M2 Max约14%,且功耗减少30%;对比采用x86架构的英特尔酷睿i9-13980HX性能领先约1%,功耗减少70%。

AI方面,骁龙X Elite凭借高通AI引擎提供的异构算力达到75TOPS,其中Hexagon NPU支持45TOPS算力。据高通介绍,骁龙X Elite的AI处理速度是竞品的4.5倍。

同时骁龙X Elite还具备高通传感器中枢,首次集成始终感知ISP,提升AI辅助降噪、AI助理等体验。在生成式AI方面,骁龙X Elite可支持终端侧运行130亿参数模型;运行70亿参数大预言模型每秒生成30个token。

PC厂商应该要有自己的大模型

当前时点AI PC仍处于产品早期阶段,但可预见的一个趋势是,随着终端设备AI算力的发展,复杂度较低的训练任务也将实现向终端的迁移,AI PC将成为行业的大势所趋。

原因在于,虽然AI推理对计算资源的要求较低,但在整体规模上远高于AI训练,并随应用端的规模化与日俱增,完全依赖云端资源将造成高昂的使用成本。AI大模型下游应用的规模化与商业化需要利用端侧的AI处理能力,终端设备神经网络计算总量的增加将促进硬件架构的针对性开发。

尽管当前AI PC的产品噱头大于实际用户体验,但是通过联想的终端展示,以及Intel的AI PC加速计划,和众多ISV深度绑定的合作生态,都表明终端侧的AI升级存在云端不具备的优势。

只是摆在英特尔和PC厂商甚至Wintel联盟面前的问题依旧棘手:

Arm架构下无论是高通还是英伟达,都是英特尔不可小觑的对手;微软在操作系统内置Copilot,而PC厂商也要自己的大模型,否则软件层面的价值增量就无从谈起。

到头来,最如履薄冰的还是万年组装厂,芯片和系统仍被捏在别人手里。

文章来源: 快科技,解码DECODE,天极网

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:彩虹科技
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...