橙色云资讯 - 工业互联网行业信息门户

多家企业推出金融大模型，为什么大模型落地第一站是金融站？

智慧脑 2023-09-13

2745 字丨阅读本文需 7 分钟

9 月 8 日，蚂蚁集团在外滩大会上正式发布工业级金融大模型（AntFinGLM) ，同时开放了金融专属任务评测集「Fin-Eval」。

该测试集从五大维度（认知、生成、专业知识、专业逻辑、安全性）28 类金融专属任务评估了金融大模型能力，结果大幅超过当前主流通用大模型。在「研判观点提取」、「金融意图理解」、「金融事件推理」任务上，金融大模型已经达到专家平均水平。

金融大模型蓄势已发

今年5月，奇富科技率先宣布推出自研的金融行业通用大模型——奇富GPT，这在业内被称为“国内首个金融行业通用大模型”。奇富科技称，其所支持的产品级应用预计会在今年年内推出，面向金融机构开放使用。

度小满紧跟其后，推出国内垂直金融行业的开源大模型“轩辕”。据介绍，轩辕大模型是基于庞大的1760亿参数的Bloom大模型进行训练的。数据显示，在150次回答的任务中，“轩辕”大模型以63.33%的胜率脱颖而出，充分凸显了其在金融领域的显著优势。同时，在通用能力评测中，“轩辕”大模型在涉及数学计算、场景写作、逻辑推理、文本摘要等13个主要维度中，有10.2%的任务表现超越了ChatGPT3.5，61.22%的任务表现与之持平。

陆金所控股、信也科技随后也相继宣布布局和探索生成式大模型应用。其中，陆金所控股目前已推出了首个专业领域人工智能大语言模型“无师”，审批特定场景准确率达90%。

8月28日，持牌消费金融公司-马上消费也发布了全国首个零售金融大模型“天镜”。目前，基于“天镜”，马上消费形成“三纵三横”的技术战略布局。“三横”包括：通过持续学习技术、模型控制、组合式AI系统技术形成安全、合规、可信的鲁棒性决策能力，其中合规是模型最重要的底线能力。“三纵”主要指数据决策智能、多模态智能、实时人机协作。

9月8日，蚂蚁金融大模型亦揭开面纱。蚂蚁金融大模型基于蚂蚁自研基础大模型，针对金融产业深度定制，底层算力集群达到万卡规模。目前，蚂蚁金融大模型已在蚂蚁集团的财富、保险平台上全面测试。

金融大模型：屹立在万亿 Token 上的「知识力」

通用大模型缺少金融领域的专业力、知识力、语言力以及安全力，金融大模型实现落地行业是一个复杂化的系统工程，需要将「四力」形成合力。蚂蚁集团金融行业大模型负责人王晓航在发布会上讲到。

所谓知识力，主要是指金融大模型的底座能力，模型规模只有足够大（通常百亿以上），才会有「涌现」现象的出现。预训练大模型则需要海量数据。

从目前公开的数据来看，BloombergGPT 的通用数据集包含 3454 亿个 Token，金融领域数据集由彭博在过去四十年的商业经营中积累而来，共包含 3635 亿个 Token。

国内金融大模型「轩辕」（2.0）使用了自身业务中积累的金融领域的 13B（130 亿） Token。恒生电子 Light-GPT 利用了超过 4000 亿个 Token 的金融领域数据。

蚂蚁金融大模型，在万亿量级 Token 通用语料基础上，注入了千亿量级 Token 金融知识 —— 包括全网公开的金融行业语料约 5000 亿 Token 以及蚂蚁独家金融语料约 279 亿 Token，行业领先。

就国内数据市场而言，我国政府数据资源占全国数据资源比重超过 3/4，但开放规模不足美国的 10%，个人和企业可资利用的规模更是不及美国的 7%。在此背景下，具有私域属性的行业数据的重要性就更为凸显。蚂蚁有着多年保险、理财、信贷平台经验，在金融大模型布局上拥有先天优势。

「小模型时代，蚂蚁就积累了深厚的数据资产和产业 AI 的 know-how。」蚂蚁集团金融行业大模型负责人王晓航在大会上讲到，他也多次提到了蚂蚁的金融知识工程。

如果说大模型是一个参数化的知识力容器，那么，知识图谱就是另一种基于符号机制的知识力容器。对蚂蚁金融大模型来说，两种知识力形成互补，缺一不可，金融知识图谱能够指导大模型对金融行业进行正确精准的认知，提高其理解、推理决策的能力。

过去几年，蚂蚁的金融科技团队在金融知识工程上做了大量投入。例如，支小宝团队基于一些研报、新闻、大 V 资讯以及高质量权威合作数据源和数据库，通过合作的一些业务专家和策略专家，对于领域专业知识进行了提炼和萃取，形成了一个标准化基础知识层。算法工程师在此基础上做了一些领域知识的关联和整合，尝试建构金融现象之间的因果逻辑，构建形成匹配金融专业要求的知识图谱、资产图谱和事理图谱等机器可读可用的数字资产。

以支小宝（2.0）为例，背后注入了金融资讯和百科 420 万 +，金融图谱覆盖保险 3000 + 险种 / 2 万 + 常规药 / 7000 + 常见病和几十种就医方式等万级实体和 50 万 + 关系，金融行业 / 板块 / 机构 / 产品 / 管理人 / 资讯等 200 万 + 实体和 1100 万 + 关系，金融数据、公开信息和条款存储量达到亿级。

不过，高质量数据集和知识图谱还只是金融大模型的「知识力」来源，大模型的业务「能力」离不开蚂蚁「从 300 + 真实产业场景中提取了共 60 万 + 高质量指令数据」（貔貅 PIXIU 指令集为 13.6 万）。

金融大模型包括三个部分：上游是预训练语言模型；下游是针对通用任务或特定任务的微调。最后要与人类对齐，基于人类反馈进行强化学习。当我们用足够多的高质量指令集对它进行微调后，大模型才能很好地胜任金融任务，包括从未见过的任务。

当谈到与金融大模型相伴的数据安全与隐私问题时，金融大模型智能算法负责人陈鸿告诉我们，用户的隐私数据在语料当中会被全部清洗掉，避免用户个人信息或者任何能识别出可联想身份的信息进入大模型的训练环节，对大模型来讲，它里面不会压入任何用户的私人数据。

安全部分，我们也做得比较严格。他强调说，不止是训练数据从入库起的每一个环节都会做清洗和过滤，我们还做了对抗样本的技术去训练模型识别这些有害内容，有害内容拦截率现在已经到 99% 以上。

大模型如何改变金融行业

金融行业作为数字化基础较为完善的行业，可以和大模型产生怎样的化学反应？

“通用大模型无法在专业严谨的领域直接商用，特别是金融服务对错误的容忍度很低，金融大模型要确保领域知识和专业逻辑的严谨性，才能真正落地带来产业价值。”蚂蚁集团副总裁、金融大模型负责人王晓航在2023外滩大会上表示，知识力、专业力、语言力以及安全力，保障四大能力是前提条件，也是金融大模型要解的产业真命题。

王晓航判断，大模型正在为金融产业带来体验变革：更自然的交互，更丰富的供给，更有效的表达，更贴身的服务定制，更高效的服务。“金融业务链条上每一个关键职能，都值得用大模型技术重做一次。”

在海通证券金融科技创新实验室负责人蔚赵春看来，金融行业要想落地大模型，必须要满足五个条件，即合规性、安全性、可信性、严谨性和经济性。“金融行业落地大模型的思路应该从内部到外部，在各方面条件成熟的情况下再推向客户。在智能客服、智能投研等智能交互类场景，可以首先用大模型来捕捉市场上的异常信号。”

中国社科院国家金融与发展实验室副主任杨涛则指出，大模型要成为金融变革的新“能源”，需使其从“原油”升级为“石油产品”。他说，生成式AI预训练大模型的快速发展，需要高质量、大规模、多样性的数据集，其在金融业的应用更需要丰富的行业数据支撑。当前迫切需要推动数据资源、数据要素、数据资产的优化升级。

“从通用大模型到垂直大模型还有很多路要走。”复旦大学教授、上海市数据科学重点实验室主任肖仰华认为，金融领域的大模型是一种复杂严肃的应用场景，这从根本上决定了金融大模型落地的挑战。

肖仰华解释，严肃意味着准确性要求高、合规性要求高，但大模型尤其是深层次大模型，它先天会“胡说八道”，这和金融行业严肃的应用要求具有矛盾，这种矛盾如何调和还需要很多技术方法和手段。他强调，大模型结合领域需求，注入知识从而形成持续的学习能力，是大模型落地应用非常关键的问题。

文章来源：机器之心Pro，金融科技说，中国新闻网

免责声明：凡注明来源本网的所有作品，均为本网合法拥有版权或有权使用的作品，欢迎转载，注明出处本网。非本网作品均来自其他媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容，请依照下方联系方式进行沟通，我们将第一时间进行处理。

0赞好资讯，需要你的鼓励

来自：智慧脑

0 0

参与评论

登录后参与讨论 0/1000

下一篇印尼总统计划会见马斯克商讨镍供应问题

盖世汽车讯据外媒报道，5月9日，印尼投资和...

2022-05-11

多家企业推出金融大模型，为什么大模型落地第一站是金融站？

参与评论

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

多家企业推出金融大模型，为什么大模型落地第一站是金融站？

参与评论

为你推荐

天玑8000加持！Redmi Note 12系列入网：首次搭载旗舰级芯片

智能网联汽车周报(6月第三周) | 《汽车软件升级通用技术要求》征求意见；中国牵头成立ISO车载激光雷达工作组

智能网联汽车周报(7月第一周) | 广州智能网联自动驾驶混行试点南沙首发；浙江德清颁发L4级自动驾驶卡车路测牌照

半年融资827亿，1.2万字看懂新能源汽车产业图谱

燧原科技完成C＋轮融资，大基金二期入股｜ 镁客网每周硬科技领域投融资汇总（8.6-8.12）

智能网联汽车周报(3月第三周) | 工信部将开展汽车软件在线升级管理试点；湖南发布智能网联汽车产业“十四五”规划

智能网联汽车周报(6月第一周) | 长安6月30日起关闭远程智能泊车等功能；首款前装量产全无人驾驶环卫车批量交付

智能网联汽车周报(1月第一周) | 首个自动驾驶公交车标准发布；京台高速部分路段为智能网联车测试道路

中国智慧城市“药方”如何化解海外城市治理症结？

智能网联汽车周报(11月第三周) | 工信部发布十四五信息通信行业发展规划，福特车路协同系统正式落地广州

AI新基建：AIoT领域群雄逐鹿，七家标杆企业各有什么过人之处？

RISC-V只适用于嵌入式芯片？以IoT为立足点，RISC-V正在“征服”整个半导体世界

下一个消费电子蓝海，VR/AR市场海外玩家走到哪一步，中国大厂布局情况又如何？

虚拟偶像、虚拟主播逐渐出现在人们的视野中，未来虚拟人行业将向何发展？

“灯塔工厂”的中国路径：智造从点到面铺开

国产屏厂TCL华星要打入苹果供应链：为iPad、MacBook出货LCD

国产CIS开始向2亿像素时代迈进，巨头垄断格局或将被打破

AI健身/3D试衣/AI烤肉……黑科技扎堆的AWE2021都有哪些硬货？

Nreal国内首发AR眼镜，消费级AR眼镜潮即将爆发，VR/AR产业链开启“卡位战”

研究人员研发仿生二合一纳米电子传感器，可同时测量细胞电气和机械反应

国家电投与阿里巴巴宣布战略合作，数字化转型这条路上，央企各显神通

新材料七国的竞争版图：热门行业分布大集锦，未来10年的市场机会或许在这

智能网联汽车周报(8月第一周) | 自然资源部开展汽车高精度地图应用试点；智能网联汽车测试示范区评估结果发布

SiC迎来“奇点时刻”，盘点近期产能、需求量、交易等行业大事件

智能网联汽车周报(1月第三周) | 北京建设2022年高级别自动驾驶示范区3.0；上海将制定智能网联汽车终端发展计划

年内 IPO 上市？哪吒汽车完成超 20 亿融资｜ 镁客网每周硬科技领域投融资汇总

下一个10年，将会发生的12个趋势

从工业机器人产业链看智能制造机会

最新总结：冬奥会的100个创业机会

后疫情时代，OTA如何回血

相关推荐

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

燧原科技完成C＋轮融资，大基金二期入股｜镁客网每周硬科技领域投融资汇总（8.6-8.12）

年内 IPO 上市？哪吒汽车完成超 20 亿融资｜镁客网每周硬科技领域投融资汇总