橙色云资讯 - 工业互联网行业信息门户

除了算力，这一产业也是大模型的“命门”，数据运营商迎来利好

智能未来 2023-09-07

2217 字丨阅读本文需 6 分钟

当前，大模型正处在产业落地前期，高质量的数据，是大模型实现产业化的关键要素。

最近，一项来自Epoch AI Research团队的研究抛出了一个残酷的事实：模型还要继续做大，数据却不够用了。研究人员预测了2022年至2100年间可用的图像和语言数据总量，并据此估计了未来大模型训练数据集规模的增长趋势。

结果表明：高质量的语言数据存量将在2026年耗尽，低质量的语言数据和图像数据的存量将分别在2030年至2050年、2030年至2060年枯竭。

这意味着，如果数据效率没有显著提高或有新的数据源可用，那么到2040年，模型的规模增长将放缓。

高质量数据成“抢手货”

随着全球新一轮AI热潮来临，大量训练数据已成为AI算法模型发展和演进的“燃料”。

从GPT的实验发现，随着模型参数量的增加，模型性能均得到不同程度的提高。

但值得注意的是，通过来自人类反馈的强化学习（RLHF）生成的InstructGPT模型，比100倍参数规模无监督的GPT-3模型效果更好，也说明了有监督的标注数据是大模型应用成功的关键之一。

如果以上预测是正确的，那么毫无疑问数据将成为做模型继续做大的主要制约因素，AI的进展也会随着数据量的耗尽而放缓。

阿里巴巴达摩院基础视觉团队负责人赵德丽博士曾在采访中表示，数据侧的建设将会成为每一个做大模型工作的机构必须要考虑的问题，大模型有多少能力，往往取决于有什么样的数据。

据赵德丽博士介绍，与文生图大模型相比，做文生视频大模型要难得多，原因就在于视频数据的数量远比不上文本和图像，更不要谈数据的质量了。相应地，目前已有的文生视频模型的效果都不尽如人意。

结合上述研究结果，如果当下的趋势继续下去，人类现有的数据库存一定会耗尽，而且高质量的数据会更少。

正因如此，一场数据争夺战正在拉开序幕。

目前，Adobe利用其数以亿计的库存照片数据库构建了自己的人工智能工具套件，名为Firefly。自3月份发布以来，Firefly已被用于创建超过10亿张图像，而Adobe股价已因此上涨了36%。

一些初创公司也正在蜂拥至这个新领域。今年4月，专注于人工智能的数据库公司Weaviate融资5000万美元，估值达到2亿美元。仅仅一周后，其竞争对手PineCone就以7.5亿美元的估值筹集了1亿美元资金。

本月早些时候，另一家数据库初创公司Neon也获得了4600万美元的融资。

在国内，百度智能云近期也升级了大模型数据服务能力，建设了国内首个专业大模型数据标注基地。百度智能云方面表示，目前已经在全国与各地政府合作，共建了10多个数据标注基地。

显然，对数据的争夺才刚刚开始。

数据版权官司激增，AI公司忙着签授权协议

随着对数据需求的增长，获取数据缺变得越来越棘手，内容创作者现在要求对被人工智能模型吸收的材料给与补偿。在美国，已经有许多针对模型构建者发起的侵犯版权案件。包括喜剧演员莎拉·西尔弗曼(Sarah Silverman)在内的一群作家，正在起诉人工智能聊天机器人ChatGPT开发商OpenAI和Facebook母公司Meta。此外，一群艺术家也同样起诉了Stability AI和Midjourney，这两家公司致力于开发文本转图像的工具。

所有这一切导致的结果是，随着人工智能公司竞相获取数据源，出现了一连串的交易。今年7月，OpenAI与美联社签署了一项协议，以获取该机构的新闻档案。最近，该公司还扩大了与图片库提供商Shutterstock的协议，Meta也与后者达成了协议。

8月初有报道称，谷歌正在与唱片公司环球音乐(Universal Music)进行谈判，希望后者授权艺术家的声音以用于帮助开发歌曲创作人工智能工具。资产管理公司富达(Fidelity)表示，许多科技公司曾与该公司接洽，要求获取其财务数据。有传言称，人工智能实验室正在接洽英国公共广播公司（BBC），以获取其图像和电影档案。另一个受关注的目标是JSTOR，这是一个学术期刊的数字图书馆。

这些信息持有者正在利用他们更大的议价能力。论坛Reddit和备受程序员欢迎的问答网站Stack Overflow都提高了访问其数据的成本。这两个网站都特别有价值，因为用户会给喜欢的答案“点赞”，帮助模型知道哪些是最相关的内容。社交媒体网站X(前身为推特)已经采取措施，限制机器人抓取该网站信息的能力，现在任何想要访问其数据的人都要付费。X老板埃隆·马斯克(Elon Musk)正计划利用这些数据建立自己的人工智能业务。

因此，模型构建者正在努力提高他们已经拥有的数据的质量。许多人工智能实验室雇佣大量的数据注释者来执行标记图像和评级答案等任务。其中一些工作很复杂，甚至需要招聘拥有生命科学专业的硕士或博士求职者。但其中大部分工作都很普通，而且正在外包给肯尼亚等国的廉价劳动力。

人工智能公司也通过用户与他们工具的互动来收集数据。其中，许多工具都有某种形式的反馈机制，由用户指出哪些输出是有用的。Firefly的文本转图像生成器允许用户从四个选项中做出选择。谷歌的聊天机器人巴德(Bard)同样提供了三个答案。

当ChatGPT回复查询时，用户可以给它竖起大拇指点赞。这些信息可以作为输入反馈到底层模型中，形成创业公司Contextual AI联合创始人杜威·基拉(Douwe Kiela)所说的“数据飞轮”。他补充说，衡量聊天机器人回答质量的一个更强的信号是，用户是否复制文本并将其粘贴到其他地方。分析这些信息有助于谷歌迅速改进其翻译工具。

数据运营商：春天，就在前方

扼住大模型发展的除了AI芯片，就是训练大模型必不可少的数据。

我们认为，数据运营商将迎来发展的黄金期。

谷歌最近就因为非法搜集用户数据用于训练AI模型，被美国加利福尼亚州克拉克森律师事务所起诉，要求向用户赔偿数据使用费和告知数据用途。

哪里有问题，哪里就有解决方案。

这不是，海外Prolific公司就牢牢抓住了这个风口。不仅获得3200万美元融资，还赚了1亿+美元的数据提供费用；目前每小时的数据试用价格在6—8美元，未来有可能更高。

目前，Prolific已获得了3000多家知名组织，其中包括谷歌、牛津大学、斯坦福大学、伦敦国王学院和欧盟委员会等，超过2万名科研人员在其平台上获取高质量数据。也就是说，Prolific提供的这种可以用于商业化并且具有版权的数据是市场所需要的，这一点对于大模型厂商来说非常重要，能够很好避免产生数据版权的纠纷。

Prolific也表示，高质量、真实训练数据对于AI大模型来说能够减少幻觉、非法输出、增强RLHF能力。

与此同时，数据运营商也容易变现，我们认为，其在AI赛道上的商业价值才开始显现。

文章来源：科技云报道，华尔街见闻，商业观测

免责声明：凡注明来源本网的所有作品，均为本网合法拥有版权或有权使用的作品，欢迎转载，注明出处本网。非本网作品均来自其他媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容，请依照下方联系方式进行沟通，我们将第一时间进行处理。

0赞好资讯，需要你的鼓励

来自：智能未来

0 0

参与评论

登录后参与讨论 0/1000

下一篇全球开发者幸福指数报告：英国开发者年龄歧视为29岁，女程序员幸福指数略高于男性

近日，一个以开发者为中心的求职平台Honeyp...

2022-01-12

除了算力，这一产业也是大模型的“命门”，数据运营商迎来利好

参与评论

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

除了算力，这一产业也是大模型的“命门”，数据运营商迎来利好

参与评论

为你推荐

天玑8000加持！Redmi Note 12系列入网：首次搭载旗舰级芯片

智能网联汽车周报(6月第三周) | 《汽车软件升级通用技术要求》征求意见；中国牵头成立ISO车载激光雷达工作组

智能网联汽车周报(7月第一周) | 广州智能网联自动驾驶混行试点南沙首发；浙江德清颁发L4级自动驾驶卡车路测牌照

燧原科技完成C＋轮融资，大基金二期入股｜ 镁客网每周硬科技领域投融资汇总（8.6-8.12）

半年融资827亿，1.2万字看懂新能源汽车产业图谱

智能网联汽车周报(3月第三周) | 工信部将开展汽车软件在线升级管理试点；湖南发布智能网联汽车产业“十四五”规划

智能网联汽车周报(6月第一周) | 长安6月30日起关闭远程智能泊车等功能；首款前装量产全无人驾驶环卫车批量交付

智能网联汽车周报(1月第一周) | 首个自动驾驶公交车标准发布；京台高速部分路段为智能网联车测试道路

中国智慧城市“药方”如何化解海外城市治理症结？

智能网联汽车周报(11月第三周) | 工信部发布十四五信息通信行业发展规划，福特车路协同系统正式落地广州

AI新基建：AIoT领域群雄逐鹿，七家标杆企业各有什么过人之处？

RISC-V只适用于嵌入式芯片？以IoT为立足点，RISC-V正在“征服”整个半导体世界

下一个消费电子蓝海，VR/AR市场海外玩家走到哪一步，中国大厂布局情况又如何？

虚拟偶像、虚拟主播逐渐出现在人们的视野中，未来虚拟人行业将向何发展？

“灯塔工厂”的中国路径：智造从点到面铺开

国产屏厂TCL华星要打入苹果供应链：为iPad、MacBook出货LCD

国产CIS开始向2亿像素时代迈进，巨头垄断格局或将被打破

AI健身/3D试衣/AI烤肉……黑科技扎堆的AWE2021都有哪些硬货？

Nreal国内首发AR眼镜，消费级AR眼镜潮即将爆发，VR/AR产业链开启“卡位战”

研究人员研发仿生二合一纳米电子传感器，可同时测量细胞电气和机械反应

国家电投与阿里巴巴宣布战略合作，数字化转型这条路上，央企各显神通

新材料七国的竞争版图：热门行业分布大集锦，未来10年的市场机会或许在这

智能网联汽车周报(8月第一周) | 自然资源部开展汽车高精度地图应用试点；智能网联汽车测试示范区评估结果发布

SiC迎来“奇点时刻”，盘点近期产能、需求量、交易等行业大事件

智能网联汽车周报(1月第三周) | 北京建设2022年高级别自动驾驶示范区3.0；上海将制定智能网联汽车终端发展计划

年内 IPO 上市？哪吒汽车完成超 20 亿融资｜ 镁客网每周硬科技领域投融资汇总

下一个10年，将会发生的12个趋势

从工业机器人产业链看智能制造机会

最新总结：冬奥会的100个创业机会

后疫情时代，OTA如何回血

相关推荐

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

燧原科技完成C＋轮融资，大基金二期入股｜镁客网每周硬科技领域投融资汇总（8.6-8.12）

年内 IPO 上市？哪吒汽车完成超 20 亿融资｜镁客网每周硬科技领域投融资汇总