作为AI大模型的“必经之路”,向量数据库前景广阔,但落地仍有难点

老刘说科技 2023-08-04
2853 字丨阅读本文需 7 分钟

最近,又一个概念火了——向量数据库。

随着大模型带来的应用需求提升,4月以来多家海外知名向量数据库创业企业传出融资喜讯。

4月28日,向量数据库平台Pinecone宣布获得1亿美元(约7亿元)B轮融资;4月22日,向量数据库平台Weaviate宣布获得5000万美元(约3.5亿元)B轮融资;4月6日Chroma获1800万美元种子轮融资;4月19日Qdrant获750万美元种子轮融资。

国内方面,星环科技、北交所云创数据等公司的股价连续异动,其中云创数据自底部以来股价已接近翻倍。

7月4日,腾讯云正式发布向量数据库Tencent Cloud VectorDB,预计8月上线腾讯云官网。

一连串的市场动作,都展示了向量数据库的爆红。

向量数据库:行业大模型的必经之路

首先我们需要厘清,向量数据库在大模型当中扮演的角色是什么。

大模型虽然能回答一般性问题,但在垂直领域服务中,其知识深度、准确度和时效性有限。而利用向量数据库结合大模型和自有知识资产,可以构建垂直领域的AI能力。向量数据库存储和处理向量数据,提供高效的相似度搜索和检索功能。

越来越多的大模型从业者认为,所有的行业都值得被AI重新做一遍,因此,建立在不同行业的垂直大模型,成为大家的切入点。而向量数据库是行业大模型具备“行业knowhow”能力的必经之路。

这背后是,AI大模型的产生,需要经历大量反复的训练和调试,但其中进行训练的数据,并非“搬运”即可,会出现两种情况:一是图片、视频、自然语言等多模态的非结构化数据查找需求变大,非结构化数据的数据量级也远大于结构化数据;二是大模型支持的token数有限,配合RLHF拥有了“短暂记忆”,也时常会出现“一本正经的胡说八道”的情况,如果大模型可以具有“长期记忆”,应用范围会很快从通用走向垂直领域。

但在现实世界里,非结构数据反而是“主流”。根据Gartner的数据,非结构化数据占企业生成的新数据比例高达90%,并且增长速度比结构化数据快三倍。

向量数据库和传统数据库的不同点之一是,传统的数据库只能处理计算机容易了解和处理的数据、字符串等结构化数据,通过点查和范围查进行精确匹配,输出只有符合查询条件和不符合条件的答案,而向量数据库处理的是各种AI应用产生的非结构化数据,通过近似查进行模糊匹配,输出的是概率上的提供相对最符合条件的答案,而非精确的标准答案。

举例来说,传统数据库做图片检索可能是通过关键词去搜索,向量数据库是通过语义搜索图片中相同或相近的向量并呈现结果。理论是向量之间的距离越接近,就说明语意越接近,效果也有最相似。

不同点之二是,和传统数据库直接处理数据不同,向量数据库在使用过程中需要把输入实时转化为向量之后才能进行查找,也就是说在查找开始之前有一个向量搜索引擎处理的过程。具体来说,人们先通过向量搜索引擎将非结构化数据转化为特征向量,通过向量把结构化数据变得统一化。之后,再在向量数据库中进行存储、计算和建立索引。

总结而言,大规模生成式 AI 模型的崛起进一步推动了对向量数据库的需求,是因为向量数据库具备以下特点:容纳海量数据、实现准确的相似性搜索和匹配、支持多模态数据处理。

目前向量搜索引擎和向量数据库是两个产品,他们互为支撑,缺一不可。

赛道前景不明朗

不过,目前来看,这个赛道仍然充满变数。

一方面,应用广泛。即便传统数据库厂商不单独研发向量数据库,基本上也会选择主张支持原生的向量词嵌入和向量搜索引擎。对于那些缺乏向量检索功能的数据库,实现它可能也是时间早晚的问题。而对于有能力的大企业客户也完全可以基于开源引擎尝试使用,在此之前,许多互联网公司、AI大公司也早就在使用向量引擎。值得一提的是,最近这段时间就连老牌MongoDB也在其NoSQL数据库中增加向量搜索的方式进入到这股潮流。

另一方面,向量数据库依然有其落地的技术难点。例如相似性检索和计算复杂度的问题,对于Clickhouse的依赖性问题;作为一款面向AI应用的新型数据库(与现有的SQL稍做区分),它并没有替换已有的数据库,依然需要跟传统数据库搭配使用。

值得一提的是,AIGC大模型到来,实际上带来了新的场景应用点,这跟以往向量数据库厂商在探索的客户场景会有所不同。探索与创新,会显得十分重要。未来数据库能不能为上层的AI应用提供稳定、高性能的基础设施能力,才是重点考察方向。

目前业内也在寻求数据库与AIGC大模型的结合方式,例如阿里云今年最新迭代的云原生多模数据库Lindorm,也可以支持AIGC场景应用。

“能力是ready的,但没有人会非常有把握,因为现在AI的变化太快了,跟数据库的结合应该有更多的层次。”国内某数据库创业公司负责人表示,通过过去一段时间与客户的交流,现在正做的事情是将AI能力植入到其所倡导的Serverless HTAP数据库架构中。

结合墨天轮去年10月公布的全球数据库行业分析报告可以看到,其从技术维度将向量数据库产品进行了拆分:包括向量检索库、向量插件、向量字段、向量执行化引擎。这其实也在透露出一个问题:当下火的其实并不完全是向量数据库,而是在向量这一场景下的价值收益。

向量数据库500亿美元蓝海市场待引爆

海量数据爆发产生巨大数据库需求。在互联网化趋势下,数据量呈爆炸式增长,同时随着数据大集中、数据挖掘、商业智能、协同作业等大数据处理技术的日趋成熟,数据价值呈指数上升趋势。根据Stastista,2022年全球创建、使用和存储的数据量约为 97ZB,预计到2025年数据量将达到181ZB,2021-2025年全球数据量复合增长率约为23%。数据量的爆发式增长为数据存储、处理带来更为庞大的需求。

全球数据库市场规模仍处在高速成长期。根据Gartner数据,2021年全球数据库市场规模接近800亿美元(5201亿人民币),同比增长约20.3%,五年内已实现市场规模翻倍。根据前瞻产业研究院,预计到2026年,全球数据库市场规模将达到2086亿美元,2021-2026年复合增长率达到21.13%。

基本假设:1、参考 Gartner、IDC的市场规模数据,2021年全球数据库市场规模为 800亿美元;2、到2030年,全球数据库市场规模以18%的年复合增长率增长,即2030年全球数据库市场规模约为3548亿美元;3、参考NoSQL、云服务数据库的占比,同时考虑到AI的快速渗透,假设2030年,NoSQL数据库中向量数据库占比将达到50%;则预计到2030年,全球向量数据库市场规模或将达到522亿美元。

根据中国信通院数据,2021年中国数据库市场规模约为309亿元,占全球数据库800亿美元市场的比重约为5.94%;预计到2025年,中国数据库市场规模为688亿元,2020-2025年复合增长率为23.4%,占全球数据库市场的比重约为6.14%。根据IDC,2020年中国数据量规模约为7.92ZB,占全球总量的18%;预计到2025年,中国数据量规模将增至48.6ZB,占全球数据量的27.8%。中国数据量在全球的占比远超数据库市场规模占比,错配情况较为明显。

基于上述数据,东北证券做出如下假设:

1、到2030年,中国数据库市场将以20%的年复合增长率增长,对应2030年市场规模1711亿人民币,占全球数据库市场的7.4%;

2、中国向量数据库市场占全球比重的下限≈中国数据库市场占全球数据库市场的比重,即7.4%;

3、到2030年,中国数据量占全球数据量规模的比重维持在2025年水平;

4、中国向量数据库市场占全球比重的上限≈中国数据量占全球数据量的比重,即28%;

根据上述假设得出,预计到2030年,中国向量数据库市场规模或将达到39-146亿美元,对应253-949亿人民币。需要特别指出的是,相比于传统数据库,向量数据库其实不止有存储功能,也有一定的计算属性,因此其TAM是可以扩大的。

目前全球已有的向量数据库产品主要包括Pinecone、Milvus、Weaviate、Vespa等。其中,超70%的向量数据库选择了开源,超过一半的向量数据库具有云化部署的能力,大部分向量数据库产品在进行ANN相似性搜索时采用HNSW(Hierarchical Navigable Small World)算法。向量数据库公司普遍以初创型企业为主,在一级市场上普遍获得较多投资者的青睐。

文章来源: 36氪,科技云,蓝色起源Q,钛媒体APP

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:老刘说科技
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...