橙色云资讯 - 工业互联网行业信息门户

微软又换赛道了！小语言模型更灵活、更适合个性化AI技术

科技仓 2023-12-14

2298 字丨阅读本文需 6 分钟

微软宣布推出一个 27 亿参数的语言模型 Phi-2，并声称其性能可与大 25 倍的模型相匹配或优于。“展示了出色的推理和语言理解能力，展示了参数少于 130 亿的基础语言模型中最先进的性能。”

其基准测试结果表明，只需 27 亿个参数，Phi-2 就能在各种综合基准测试中超越 Mistral 和 Llama-2 模型在 7B 和 13B 参数下的性能。与大 25 倍的 Llama-2-70B 模型相比，Phi-2 在多步推理任务（即编码和数学）上实现了更好的性能。

此外，Phi-2 的性能与最近发布的 Google Gemini Nano 2 不相上下，甚至更胜一筹。

且与经过调整的现有开源模型相比，Phi-2 响应中的 “毒性” 和偏差也要更少。

此前，谷歌发布的 Gemini 演示视频曾展示了其解决复杂物理问题，以及对学生进行纠错的能力。微软研究人员也将 Phi-2 进行了同样的测试，并表示它同样能够正确回答问题，和使用相同的提示纠错。

Phi-2 是微软 “小语言模型（SLM）” 系列中的最新版本。第一个版本是拥有 13 亿参数的 Phi-1，针对基本的 Python 编码任务进行了微调。9 月，该公司将重点扩展到常识推理和语言理解，推出了一个新的 13 亿参数模型 Phi-1.5，性能可与大 5 倍的模型相媲美。

Phi-2 的性能真能优于大它 25 倍的模型？

对于 Phi-2 的发布，微软研究院在官方公告的伊始便直言，Phi-2 的性能可与大它 25 倍的模型相匹配或优于。

这也让人有些尴尬的事，不少网友评价道，这岂不是直接把 Google 刚发的 Gemini 最小型号的版本给轻松超越了？

那具体情况到底如何？

微软通过时下一些如 Big Bench Hard (BBH)、常识推理（PIQA、WinoGrande、ARC easy 和 Challenge、SIQA）、语言理解（HellaSwag、OpenBookQA、MMLU（5-shot）、 SQuADv2、BoolQ）、数学（GSM8k）和编码（HumanEval）等基准测试，将 Phi-2 与 7B 和 13B 参数的 Mistral 和 Llama-2 进行了比较。

最终得出仅拥有 27 亿个参数的 Phi-2 ，超越了 Mistral 7B 和 Llama-2 7B 以及 13B 模型的性能。值得注意的是，与大它 25 倍的 Llama-2-70B 模型相比，Phi-2 还在多步推理任务（即编码和数学）上实现了更好的性能。

此外，如上文所提及的，微软研究人员也直接在基准测试中放上了其与Google 全新发布的 Gemini Nano 2 正面 PK 的结果，不出所料，Phi-2 尽管尺寸较小，但性能还是把 Gemini Nano 2 超了。

除了这些基准之外，研究人员似是在暗讽 Google 前几日在 Gemini 演示视频中造假一事，因为当时 Google 称其即将推出的最大、最强大的新人工智能模型 Gemini Ultra 能够解决相当复杂的物理问题，并且甚至纠正学生的错误。

事实证明，尽管 Phi-2 的大小可能只是 Gemini Ultra 的一小部分，但它也能够正确回答问题并使用相同的提示纠正学生。

大模型和小模型的区别

大语言模型和小语言模型有以下几个主要的区别：

规模和功能：大语言模型通常是指基于深度学习算法训练得到的、具有大规模参数规模的模型，能够处理自然语言理解的多种任务，如文本分类、情感分析、问答等。大语言模型具有更强的语言处理能力和更广泛的适用性，能够处理更复杂、更抽象的语言任务。而小语言模型则通常是指规模较小、参数数量较少的模型，其处理任务相对较为简单，通常用于处理一些特定的自然语言处理任务，如语法分析、词性标注等。

应用场景：大语言模型适用于处理复杂、抽象的语言任务，例如自然语言理解、文本生成、对话系统等。而小语言模型则适用于处理特定任务或资源受限的场景，例如语音识别、机器翻译等。小语言模型可以在特定的领域或场景下实现高效的处理和响应，而大语言模型则可以在更广泛的领域和场景下实现更复杂、更抽象的语言处理任务。

训练数据和计算资源：大语言模型需要大量的训练数据和计算资源，以便进行大规模的参数训练和优化。而小语言模型则可以在较少的训练数据和计算资源下进行训练和优化，以便实现更高效的处理和响应。这是因为大语言模型在预训练阶段已经学习了大量的语言知识和常识，微调阶段主要是让模型适应特定的任务或领域。

小而美

在企业市场中，数据隐私和安全性问题使得对大规模预训练语言模型存在顾虑。大规模预训练语言模型需要处理海量数据集，并可能涉及敏感信息传输与存储问题。此外，随着算力封禁政策的实施以及运行成本日益增高，企业寻求更加经济、灵活且可靠的AI解决方案变得尤为迫切。

针对这样需求背景下产生的市场空白，微软提供了Phi-2作为一种“模型即服务（MaaS）”产品选项。该服务允许企业用户根据需要访问各种开源模型资源，并将其应用于自己特定场景下。例如包括Mistral和Llama2在内的各类开源项目都可以通过该平台获取。

然而值得注意的是，尽管Phi-2被宣布为研究目标产品，并且已经引起学术界与技术社区中关于“开源”的广泛讨论；但若要复制之前Llama成功案例所带来商业效益，微软可能需要将其应用范围扩展至商业领域。

此外，在考虑商业化路径时也不可忽视潜在风险与挑战。例如，在部署过程中如何保持数据隐私与合规性、如何确保算法公正性以及防止滥用等问题都将是未来发展中必须面对并解决的重要议题。

总体而言，在AI技术快速发展且应用领域日渐广泛化今天，微软通过投资并推动小型语言模型发展所展现出来对市场洞察与技术前瞻性仍值得行业关注与借鉴。随着更多研究结果发布和实际应用案例涌现，在未来不久内我们或许可以期待看到由小而美、精准高效且安全可控的AI技术给人类社会带来新一轮变革与进步。

微软对小型语言模型SLM的投资和开发不仅是技术进步的体现，更是对未来AI应用场景理性而深远的预见。Phi2模型及其同类产品的推出，并不单纯是技术层面的突破，它们代表了对现有AI框架的一种补充和优化，强调了在特定领域内精准服务的重要性。

在商业角度来看，这一战略转变意味着微软将能够更好地满足各行各业对于个性化AI解决方案的需求。小型语言模型因其轻量级、易于部署且可高度定制化的特点，为那些资源有限但又需要快速响应市场变化和客户需求的企业提供了新机遇。同时，这也为中小企业打开了利用先进AI技术进行创新和竞争的大门。

此外，微软在隐私保护和安全性方面做出的承诺，也显示出公司对于用户信任和责任感的重视。随着社会对数据保护意识的提高和相关法规要求的加强，微软通过强化小型模型在安全性方面的表现，无疑是在为自己在竞争激烈市场中筑起一道坚实防线。

然而，尽管前景广阔，我们也必须认识到这一转变并非没有挑战。微软需要确保Phi2及其后续产品能够持续迭代升级，适应不断变化且日益复杂化的市场需求。此外，在推动小型模型商业化过程中，如何平衡利润与社会责任、如何保持开放性与专有技术之间的平衡等问题也将考验微软管理层的智慧。

展望未来，在Phi2等小型语言模型推动下，我们可以预见一个更加多元、智能且高效率的AI生态系统正在形成。

文章来源：率真饺子p5g，自由坦荡的湖泊AI，CSDN，开源中国OSC

免责声明：凡注明来源本网的所有作品，均为本网合法拥有版权或有权使用的作品，欢迎转载，注明出处本网。非本网作品均来自其他媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容，请依照下方联系方式进行沟通，我们将第一时间进行处理。

0赞好资讯，需要你的鼓励

来自：科技仓

0 0

参与评论

登录后参与讨论 0/1000

下一篇 OPPO耳机升级，全面支持安卓手机弹窗，还有个性化主题弹窗

今天上午，OPPO官方宣布OPPO耳机功能升级，...

2022-05-30

微软又换赛道了！小语言模型更灵活、更适合个性化AI技术

参与评论

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

微软又换赛道了！小语言模型更灵活、更适合个性化AI技术

参与评论

为你推荐

天玑8000加持！Redmi Note 12系列入网：首次搭载旗舰级芯片

智能网联汽车周报(6月第三周) | 《汽车软件升级通用技术要求》征求意见；中国牵头成立ISO车载激光雷达工作组

智能网联汽车周报(7月第一周) | 广州智能网联自动驾驶混行试点南沙首发；浙江德清颁发L4级自动驾驶卡车路测牌照

半年融资827亿，1.2万字看懂新能源汽车产业图谱

燧原科技完成C＋轮融资，大基金二期入股｜ 镁客网每周硬科技领域投融资汇总（8.6-8.12）

智能网联汽车周报(3月第三周) | 工信部将开展汽车软件在线升级管理试点；湖南发布智能网联汽车产业“十四五”规划

智能网联汽车周报(6月第一周) | 长安6月30日起关闭远程智能泊车等功能；首款前装量产全无人驾驶环卫车批量交付

智能网联汽车周报(1月第一周) | 首个自动驾驶公交车标准发布；京台高速部分路段为智能网联车测试道路

中国智慧城市“药方”如何化解海外城市治理症结？

智能网联汽车周报(11月第三周) | 工信部发布十四五信息通信行业发展规划，福特车路协同系统正式落地广州

AI新基建：AIoT领域群雄逐鹿，七家标杆企业各有什么过人之处？

RISC-V只适用于嵌入式芯片？以IoT为立足点，RISC-V正在“征服”整个半导体世界

下一个消费电子蓝海，VR/AR市场海外玩家走到哪一步，中国大厂布局情况又如何？

虚拟偶像、虚拟主播逐渐出现在人们的视野中，未来虚拟人行业将向何发展？

“灯塔工厂”的中国路径：智造从点到面铺开

国产CIS开始向2亿像素时代迈进，巨头垄断格局或将被打破

国产屏厂TCL华星要打入苹果供应链：为iPad、MacBook出货LCD

AI健身/3D试衣/AI烤肉……黑科技扎堆的AWE2021都有哪些硬货？

Nreal国内首发AR眼镜，消费级AR眼镜潮即将爆发，VR/AR产业链开启“卡位战”

研究人员研发仿生二合一纳米电子传感器，可同时测量细胞电气和机械反应

国家电投与阿里巴巴宣布战略合作，数字化转型这条路上，央企各显神通

新材料七国的竞争版图：热门行业分布大集锦，未来10年的市场机会或许在这

智能网联汽车周报(8月第一周) | 自然资源部开展汽车高精度地图应用试点；智能网联汽车测试示范区评估结果发布

SiC迎来“奇点时刻”，盘点近期产能、需求量、交易等行业大事件

智能网联汽车周报(1月第三周) | 北京建设2022年高级别自动驾驶示范区3.0；上海将制定智能网联汽车终端发展计划

年内 IPO 上市？哪吒汽车完成超 20 亿融资｜ 镁客网每周硬科技领域投融资汇总

下一个10年，将会发生的12个趋势

从工业机器人产业链看智能制造机会

最新总结：冬奥会的100个创业机会

后疫情时代，OTA如何回血

相关推荐

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

燧原科技完成C＋轮融资，大基金二期入股｜镁客网每周硬科技领域投融资汇总（8.6-8.12）

年内 IPO 上市？哪吒汽车完成超 20 亿融资｜镁客网每周硬科技领域投融资汇总