除了算力,这一产业也是大模型的“命门”,数据运营商迎来利好

智能未来 2023-09-07
2217 字丨阅读本文需 6 分钟

当前,大模型正处在产业落地前期,高质量的数据,是大模型实现产业化的关键要素。

最近,一项来自Epoch AI Research团队的研究抛出了一个残酷的事实:模型还要继续做大,数据却不够用了。研究人员预测了2022年至2100年间可用的图像和语言数据总量,并据此估计了未来大模型训练数据集规模的增长趋势。

结果表明:高质量的语言数据存量将在2026年耗尽,低质量的语言数据和图像数据的存量将分别在2030年至2050年、2030年至2060年枯竭。

这意味着,如果数据效率没有显著提高或有新的数据源可用,那么到2040年,模型的规模增长将放缓。

高质量数据成“抢手货”

随着全球新一轮AI热潮来临,大量训练数据已成为AI算法模型发展和演进的“燃料”。

从GPT的实验发现,随着模型参数量的增加,模型性能均得到不同程度的提高。

但值得注意的是,通过来自人类反馈的强化学习(RLHF)生成的InstructGPT模型,比100倍参数规模无监督的GPT-3模型效果更好,也说明了有监督的标注数据是大模型应用成功的关键之一。

如果以上预测是正确的,那么毫无疑问数据将成为做模型继续做大的主要制约因素,AI的进展也会随着数据量的耗尽而放缓。

阿里巴巴达摩院基础视觉团队负责人赵德丽博士曾在采访中表示,数据侧的建设将会成为每一个做大模型工作的机构必须要考虑的问题,大模型有多少能力,往往取决于有什么样的数据。

据赵德丽博士介绍,与文生图大模型相比,做文生视频大模型要难得多,原因就在于视频数据的数量远比不上文本和图像,更不要谈数据的质量了。相应地,目前已有的文生视频模型的效果都不尽如人意。

结合上述研究结果,如果当下的趋势继续下去,人类现有的数据库存一定会耗尽,而且高质量的数据会更少。

正因如此,一场数据争夺战正在拉开序幕。

目前,Adobe利用其数以亿计的库存照片数据库构建了自己的人工智能工具套件,名为Firefly。自3月份发布以来,Firefly已被用于创建超过10亿张图像,而Adobe股价已因此上涨了36%。

一些初创公司也正在蜂拥至这个新领域。今年4月,专注于人工智能的数据库公司Weaviate融资5000万美元,估值达到2亿美元。仅仅一周后,其竞争对手PineCone就以7.5亿美元的估值筹集了1亿美元资金。

本月早些时候,另一家数据库初创公司Neon也获得了4600万美元的融资。

在国内,百度智能云近期也升级了大模型数据服务能力,建设了国内首个专业大模型数据标注基地。百度智能云方面表示,目前已经在全国与各地政府合作,共建了10多个数据标注基地。

显然,对数据的争夺才刚刚开始。

数据版权官司激增,AI公司忙着签授权协议

随着对数据需求的增长,获取数据缺变得越来越棘手,内容创作者现在要求对被人工智能模型吸收的材料给与补偿。在美国,已经有许多针对模型构建者发起的侵犯版权案件。包括喜剧演员莎拉·西尔弗曼(Sarah Silverman)在内的一群作家,正在起诉人工智能聊天机器人ChatGPT开发商OpenAI和Facebook母公司Meta。此外,一群艺术家也同样起诉了Stability AI和Midjourney,这两家公司致力于开发文本转图像的工具。

所有这一切导致的结果是,随着人工智能公司竞相获取数据源,出现了一连串的交易。今年7月,OpenAI与美联社签署了一项协议,以获取该机构的新闻档案。最近,该公司还扩大了与图片库提供商Shutterstock的协议,Meta也与后者达成了协议。

8月初有报道称,谷歌正在与唱片公司环球音乐(Universal Music)进行谈判,希望后者授权艺术家的声音以用于帮助开发歌曲创作人工智能工具。资产管理公司富达(Fidelity)表示,许多科技公司曾与该公司接洽,要求获取其财务数据。有传言称,人工智能实验室正在接洽英国公共广播公司(BBC),以获取其图像和电影档案。另一个受关注的目标是JSTOR,这是一个学术期刊的数字图书馆。

这些信息持有者正在利用他们更大的议价能力。论坛Reddit和备受程序员欢迎的问答网站Stack Overflow都提高了访问其数据的成本。这两个网站都特别有价值,因为用户会给喜欢的答案“点赞”,帮助模型知道哪些是最相关的内容。社交媒体网站X(前身为推特)已经采取措施,限制机器人抓取该网站信息的能力,现在任何想要访问其数据的人都要付费。X老板埃隆·马斯克(Elon Musk)正计划利用这些数据建立自己的人工智能业务。

因此,模型构建者正在努力提高他们已经拥有的数据的质量。许多人工智能实验室雇佣大量的数据注释者来执行标记图像和评级答案等任务。其中一些工作很复杂,甚至需要招聘拥有生命科学专业的硕士或博士求职者。但其中大部分工作都很普通,而且正在外包给肯尼亚等国的廉价劳动力。

人工智能公司也通过用户与他们工具的互动来收集数据。其中,许多工具都有某种形式的反馈机制,由用户指出哪些输出是有用的。Firefly的文本转图像生成器允许用户从四个选项中做出选择。谷歌的聊天机器人巴德(Bard)同样提供了三个答案。

当ChatGPT回复查询时,用户可以给它竖起大拇指点赞。这些信息可以作为输入反馈到底层模型中,形成创业公司Contextual AI联合创始人杜威·基拉(Douwe Kiela)所说的“数据飞轮”。他补充说,衡量聊天机器人回答质量的一个更强的信号是,用户是否复制文本并将其粘贴到其他地方。分析这些信息有助于谷歌迅速改进其翻译工具。

数据运营商:春天,就在前方

扼住大模型发展的除了AI芯片,就是训练大模型必不可少的数据。

我们认为,数据运营商将迎来发展的黄金期。

谷歌最近就因为非法搜集用户数据用于训练AI模型,被美国加利福尼亚州克拉克森律师事务所起诉,要求向用户赔偿数据使用费和告知数据用途。

哪里有问题,哪里就有解决方案。

这不是,海外Prolific公司就牢牢抓住了这个风口。不仅获得3200万美元融资,还赚了1亿+美元的数据提供费用;目前每小时的数据试用价格在6—8美元,未来有可能更高。

目前,Prolific已获得了3000多家知名组织,其中包括谷歌、牛津大学、斯坦福大学、伦敦国王学院和欧盟委员会等,超过2万名科研人员在其平台上获取高质量数据。也就是说,Prolific提供的这种可以用于商业化并且具有版权的数据是市场所需要的,这一点对于大模型厂商来说非常重要,能够很好避免产生数据版权的纠纷。

Prolific也表示,高质量、真实训练数据对于AI大模型来说能够减少幻觉、非法输出、增强RLHF能力。

与此同时,数据运营商也容易变现,我们认为,其在AI赛道上的商业价值才开始显现。

文章来源: 科技云报道,华尔街见闻,商业观测

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:智能未来
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...