48271 向量数据库这杯“啤酒”与“泡沫”

国精产品一区二区三区黑人和中国,超碰在线,成年秘密免费版电视剧在线观看,午夜精品久久久久久久99老熟妇,成人做爰黄a片免费看直播室动漫

服务热线:400-858-9000 咨询/投诉热线:18658148790
国内专业的一站式创业服务平台
向量数据库这杯“啤酒”与“泡沫”
2023/07/28
和AI、大模型一样,向量数据库要品出味道,离不开时间的窖藏和酝酿。
本文来自于微信公众号“脑极体”(ID:unity007),投融界经授权发布。

就像啤酒注定要有泡沫,每一场淘金热(re)都不缺被捧(peng)上了(le)时代风口的人。

大模型(xing)这一波热潮中,向量(liang)数据库(ku)就是那个(ge)幸运(yun)儿。

一方面(mian),技术层面(mian)并没有太大(da)突破。向量数(shu)据库(ku)并不(bu)是一种特别(bie)新的(de)(de)数(shu)据库(ku)技术,在AI领域(yu)已经应用了七八年,谷歌在2015年就宣布使(shi)用RankBrain语义检(jian)索(suo)来处理搜(sou)索(suo)任务。相比N家的(de)(de)卡(ka)、液冷的(de)(de)算、全(quan)光(guang)的(de)(de)网、升级的(de)(de)存,向量数(shu)据库(ku)在技术方面(mian)并没有特别(bie)亮眼的(de)(de)突破。

而另(ling)一方面(mian),向量数(shu)据(ju)库(ku)的(de)(de)投(tou)资(zi)(zi)(zi)热潮又特别旺盛。在上(shang)半年成了(le)(le)创(chuang)业公(gong)司(si)、云计算厂商、老(lao)牌数(shu)据(ju)库(ku)公(gong)司(si),以及投(tou)资(zi)(zi)(zi)人(ren)们“群起而攻之”的(de)(de)风口,Pinecone、Chroma和Weviate等向量数(shu)据(ju)库(ku)初创(chuang)公(gong)司(si)都获(huo)得(de)了(le)(le)融(rong)资(zi)(zi)(zi),有的(de)(de)融(rong)资(zi)(zi)(zi)额高达上(shang)亿美元(yuan)。这在全球经济不明朗的(de)(de)投(tou)资(zi)(zi)(zi)形势(shi)下,还(hai)是非常亮眼的(de)(de)成绩。

不(bu)同(tong)(tong)于GPU卡那样短(duan)期内需求坚挺、供不(bu)应求,加上摩(mo)尔定(ding)律的(de)约束,即使有泡沫,也是铁做(zuo)的(de)。也不(bu)同(tong)(tong)于存(cun)算(suan)网这类“新基建”,长期投入(ru)的(de)战(zhan)略价值,得到了庙(miao)堂和(he)民(min)间(jian)的(de)一致重视。

向量数据库这杯“啤酒”与“泡沫”

向量数据库,更多是(shi)作(zuo)为一(yi)种AI基础技术和产品,开始为大众(zhong)所知晓。

仅凭(ping)这样,就(jiu)在投(tou)资市(shi)场上(shang)一飞(fei)冲天(tian),多少(shao)有点让人不安。加上(shang)最近,大训(xun)模(mo)型(xing)的热度开始降(jiang)温,ChatGPT访问量下降(jiang),更多大模(mo)型(xing)已经到地里田间矿井(jing)“干活(huo)儿”去了(le)。

不禁(jin)让人(ren)好奇,随着(zhe)大(da)模型的(de)风(feng)口下沉(chen),向量数据库(ku)的(de)投资(zi)概(gai)念还能飞多(duo)久,会不会倏忽而来,倏忽而去,留下喝(he)了“一嘴泡沫”的(de)公司和投资(zi)人(ren),在风(feng)中凌(ling)乱呢?

我们就来好好品一(yi)品,这一(yi)杯(bei)啤酒和泡(pao)沫。

技术的啤酒

训(xun)大(da)(da)模型、用大(da)(da)模型,离不开一系列AI基(ji)础设施,所以,作(zuo)为基(ji)础设施之一的(de)向量数(shu)据库(ku),确实有点东西。引入(ru)向量数(shu)据库(ku),是能喝到(dao)真(zhen)材(cai)实料(liao)的(de)“啤酒”的(de)。

这(zhei)就有必要先说(shuo)说(shuo)这(zhei)个技术本身(shen)。

数据(ju)库不用多说(shuo)(shuo),是(shi)必(bi)不可(ke)少的(de)IT基础设施(shi),用于(yu)存储和查(cha)询各(ge)种(zhong)数据(ju),可(ke)以看作是(shi)数据(ju)的(de)“硬盘”。那么,向量数据(ju)库就是(shi)更适合(he)AI体质的(de)“硬盘”,有几(ji)个特质来说(shuo)(shuo)明这一(yi)点:

1.必要性。

向(xiang)(xiang)(xiang)量数据(ju)库,顾名(ming)思义(yi)就是专门用(yong)于存(cun)储和(he)管理向(xiang)(xiang)(xiang)量数据(ju)。作(zuo)为一(yi)种(zhong)数据(ju)结(jie)构(gou),每个向(xiang)(xiang)(xiang)量都包含多个维度,每个维度代表不同(tong)的(de)(de)特(te)征(zheng)或属性(xing),比如图像(xiang)的(de)(de)颜色、文(wen)(wen)本(ben)(ben)词汇的(de)(de)出(chu)现频率等。而AI算法,要从图像(xiang)、音频和(he)文(wen)(wen)本(ben)(ben)等海量的(de)(de)非(fei)结(jie)构(gou)化数据(ju)中学习,提取(qu)出(chu)以向(xiang)(xiang)(xiang)量为表示形式(shi)的(de)(de)“特(te)征(zheng)”,以便模型能够理解和(he)处理。因此,向(xiang)(xiang)(xiang)量数据(ju)库比传(chuan)统的(de)(de)关系型数据(ju)库,更适合AI应用(yong)。

向量数据库这杯“啤酒”与“泡沫”

2.高效(xiao)率(lv)。

每(mei)个元(yuan)素(su)都有一个索引,便于访问或修改数值。基于此,向量数据库可以通过将分(fen)组和索引,快速找到与给定(ding)查询最接近的(de)嵌入,实现高(gao)效的(de)相似性(xing)搜索,同(tong)时减少存储(chu)和计算成本(ben)。

相比(bi)传统单机插件式数据(ju)库,向量数据(ju)库的检索规(gui)模(mo)可以提升十倍,支持百万(wan)级每秒查询(QPS)的峰值能(neng)力,同(tong)时延迟控制在毫秒级。

想象一下(xia),如果没有高效的搜索技术支持,一个大(da)语言模型(xing)动辄数(shu)十亿、上(shang)百亿参数(shu),只能处(chu)理有限数(shu)量的输入数(shu)据,无法(fa)搜索更(geng)大(da)的数(shu)据库,那(nei)么在AIGC、搜索、广(guang)告推荐(jian)算法(fa)等任务的性(xing)能表现就会(hui)受限。

一(yi)个公开数(shu)据(ju)是(shi),通过使用云向量(liang)数(shu)据(ju)库,QQ音乐人均(jun)听歌(ge)时(shi)长(zhang)提升3.2%;腾讯视(shi)频有(you)效(xiao)曝(pu)光人均(jun)时(shi)长(zhang)提升1.74%;QQ浏览器(qi)成本(ben)降低37.9%,这(zhei)些数(shu)据(ju)的变化(hua)就(jiu)在于检索效(xiao)率(lv)、运行稳定性、运营(ying)效(xiao)率(lv)、推荐算(suan)法(fa)等有(you)了较大的提升。

3.需求(qiu)大。

随着(zhe)产(chan)业智能化的加速,以(yi)及大(da)模型(xing)和(he)其(qi)他(ta)AI应(ying)用(yong)的爆发(fa),各(ge)行各(ge)业的AI用(yong)例(li)不断(duan)增多,由此带来了汹(xiong)涌的数据洪潮和(he)存算任务,向量数据库嵌入向量的长度不受限制,具有(you)良(liang)好的扩展性,可以(yi)根据AI用(yong)例(li)和(he)模型(xing)而变(bian)化,更好地处理大(da)规(gui)模数据集。

而且,向(xiang)量(liang)数据库可以拓展大模型的(de)时间(jian)边界(jie)和空间(jian)边界(jie),让(rang)大模型在训(xun)练完成后,也可以访问向(xiang)量(liang)数据库的(de)最(zui)新信息,了解最(zui)近(jin)发(fa)生的(de)事情。

总的(de)来说,向量数(shu)据库(ku)就是更适合AI体质的(de)数(shu)据库(ku),在AI任务上效果(guo)拔群,在机器学习领域(yu)中(zhong)日益流行。

那么问题来了(le),一些在AI领域积淀已久的(de)科技(ji)大厂(chang),如谷歌、微(wei)软(ruan)、Mate以及BAT等大厂(chang),都(dou)有向量数据(ju)库的(de)技(ji)术积累,也都(dou)可(ke)以向外输出(chu)相关能力和(he)产(chan)品。此外,一些基(ji)于(yu)开源技(ji)术的(de)数据(ju)库创业公(gong)司(si),如Pinecone、Weaviate、Odrant、Chroma近年(nian)来打开了(le)市场(chang)知名度。

可以说(shuo),市场(chang)上并不缺(que)乏向(xiang)量数据库(ku)的产品和解决(jue)方案。那(nei)么(me)2023年(nian),这杯(bei)技(ji)术(shu)啤酒,是(shi)怎么(me)咕(gu)嘟(du)咕(gu)嘟(du)冒(mao)出(chu)泡沫的呢?

向量数据库这杯“啤酒”与“泡沫”

浪潮之巅(dian)的泡(pao)沫(mo)

向(xiang)量数据库的(de)市场现状,说是“从0到1”,并不为过。

首先,大众市场的认知度才刚刚打(da)开。

此前,向(xiang)量(liang)数(shu)据库更多是AI企业在(zai)使用(yong),今年才(cai)开始为大众所熟知,这离不开一(yi)些AI相关企业的推波助澜。今年3月(yue)的NVIDIAGTC大会(hui)上,黄仁勋首次提及向(xiang)量(liang)数(shu)据库,强调向(xiang)量(liang)数(shu)据库对(dui)大语言模型(xing)的重要性。

不是所(suo)有企业都有能力自建大模(mo)型所(suo)需要的(de)基础设施(shi),通过MaaS(模(mo)型即服务(wu))业务(wu)来训练应用大模(mo)型是更灵活的(de)选择,这就要求云厂商提供全栈基础设施(shi)。

百(bai)度、京东、腾讯(xun)、华为(wei)等,都在(zai)自家的大模(mo)(mo)(mo)型完整基(ji)础(chu)设施中,提到了向(xiang)量数据库。目前,云厂商的MaaS业(ye)务才刚(gang)刚(gang)开始(shi)走(zou)向(xiang)市场,大模(mo)(mo)(mo)型的产业(ye)落地(di)不是一蹴而(er)就的,向(xiang)量数据库的接受度和规模(mo)(mo)(mo)究竟(jing)有多大,还(hai)是个未知数。

第二,向量数据库的技(ji)术,还没经历“卷(juan)生卷(juan)死”的迭代。

Pinecone是闭源的领跑者,其他竞争(zheng)者要(yao)(yao)么(me)是开(kai)源的,比如(ru)Weviate,要(yao)(yao)么(me)是巨头,包括头部(bu)云厂商和甲(jia)骨(gu)文(wen)、IBM等老牌数据(ju)库(ku)厂商,开(kai)始构建AI数据(ju)库(ku)的产品和解(jie)决方案。

大(da)厂扎堆竞技(ji),这意味着,如果(guo)技(ji)术(shu)没有大(da)的(de)突破,就(jiu)会(hui)陷入(ru)(ru)高(gao)密度的(de)同质化竞争,从(cong)蓝海快速进入(ru)(ru)红海。而如果(guo)技(ji)术(shu)有颠(dian)覆式变革,很(hen)多技(ji)术(shu)壁垒不(bu)高(gao)、客户认知不(bu)强的(de)新入(ru)(ru)局(ju)创业者,很(hen)难跟开源生态或技(ji)术(shu)巨(ju)头PK,容易(yi)被大(da)浪(lang)淘沙(sha)。

最后,向量数据库的(de)成本,还(hai)没有(you)降到“可(ke)规(gui)模复制”的(de)程度。

无(wu)论是自建向(xiang)量(liang)(liang)数据(ju)库,还(hai)是通过MaaS服务(wu)接入,都还(hai)达不(bu)到(dao)“付费(fei)可(ke)用(yong)”的(de)程(cheng)度。一般来说,企业需要(yao)先(xian)将非结构(gou)化的(de)私密数据(ju)进行向(xiang)量(liang)(liang)化,产生一个向(xiang)量(liang)(liang)的(de)矩阵,再存储到(dao)向(xiang)量(liang)(liang)数据(ju)库里,来供大模(mo)型学习和(he)检(jian)索。这个过程(cheng)涉(she)及到(dao)大量(liang)(liang)的(de)工(gong)程(cheng)化,会耗费(fei)企业许多开(kai)发人员(yuan)、时(shi)间(jian)成本。

这就需要云厂(chang)商(shang)或数(shu)据库厂(chang)商(shang),提(ti)供(gong)全链路的(de)工(gong)具(ju),来(lai)帮助(zhu)企业(ye)完成(cheng)整个(ge)数(shu)据向量化、大模型接入的(de)工(gong)作(zuo),以及减少后(hou)续运(yun)维的(de)难度。比如Pinecone就凭(ping)借良好的(de)开箱即用的(de)产(chan)品体验(yan),获得了非常(chang)大的(de)增长,B轮估值(zhi)达到7.5亿美元。

谷歌(ge)云、腾讯(xun)云、京东云等也都基于(yu)内部应用的多年积(ji)累,推出(chu)了一(yi)系列面向外(wai)部的工具、框(kuang)架和应用。但只是迈出(chu)了从无到有(you)的第(di)一(yi)步,真正(zheng)成熟(shu)还需要让各家“卷起来”。

可以看到,现(xian)在这个(ge)阶段,热捧向量数(shu)据(ju)库,确实(shi)有(you)AIGC、大模型、云(yun)服务(wu)等多方面的现(xian)实(shi)需求,但(dan)从“概念普及”到“真正可用”之间,还有(you)不短的距离。这之间的地带,就(jiu)是泡沫生长的地方。

江湖路远(yuan),风高浪急(ji),没有想清楚(chu)的创业(ye)公司或(huo)行(xing)业(ye)用(yong)户,还(hai)是别贸然“带资进组(zu)”了(le)。

啜(chuo)饮时代的(de)精(jing)酿

如果你(ni)是数据库厂商,或者是着急布局大模型和AI应用的企业,希望早点将(jiang)啤酒喝(he)到嘴里,怎(zen)么办呢?

笃定(ding)远一(yi)点(dian)的未来,有些赛道的泡沫比(bi)例是相对(dui)少的,需求格外旺盛。

市场方面,国(guo)产化替(ti)代是(shi)不错的选(xuan)择。

科技(ji)博弈背景下,加上我国(guo)数据库产业的日益繁荣和(he)技(ji)术突(tu)破,金融、电信、能源、交通等关(guan)键基础行(xing)业的企业,在(zai)数据库选(xuan)型时,都开始倾向于国(guo)产,以保障数据的稳定性和(he)安全(quan)性。

国(guo)外厂(chang)商(shang)在向量(liang)数(shu)据库上(shang)有着(zhe)更早(zao)的探索和积累,国(guo)产数(shu)据库要(yao)补齐短板是(shi)需要(yao)时(shi)间的。

目(mu)前,BATH这类实力较强的(de)国內科技企业,沉(chen)淀了向量数据库的(de)核(he)心自主技术,与其(qi)合作研发(fa)和定(ding)制化(hua)开发(fa),针对某些具体场(chang)景,提供特定(ding)优化(hua)的(de)向量数据库产品,加入国产化(hua)替代的(de)赛道是成本(ben)更(geng)低、风险更(geng)可控、市场(chang)需求明(ming)确的(de)选择(ze)。

策略方(fang)面,加入云生态不(bu)要独行。

鉴于向量数据(ju)库(ku)的(de)商业(ye)化前景还不明朗,有业(ye)内人士表(biao)示,与其投资新的(de)向量数据(ju)库(ku)项目,还不如关注现(xian)有数据(ju)库(ku)中,有哪些加上向量引擎可以变得更加强大。

云数据(ju)(ju)库(ku)就是(shi)其中之一,上云用数赋(fu)智是(shi)大势所趋,很多政企(qi)客户(hu)往往会选(xuan)择(ze)公有云或(huo)行业云来满(man)足(zu)其业务(wu)需求,将数据(ju)(ju)迁(qian)移到云上,对云数据(ju)(ju)库(ku)的关注(zhu)度和接受度上升。

腾讯(xun)云(yun)(yun)、华为云(yun)(yun)等大(da)型云(yun)(yun)厂商,具(ju)有较高的(de)(de)品牌认知度和(he)(he)市场接受度,具(ju)有云(yun)(yun)原生(sheng)、AI原生(sheng)的(de)(de)技(ji)术栈和(he)(he)产品体系,经历了海量场景的(de)(de)淬炼和(he)(he)深度优化,和(he)(he)这类(lei)云(yun)(yun)生(sheng)态一(yi)起掘金向量数据(ju)库(ku),是更稳妥(tuo)的(de)(de)方(fang)式。

和AI、大模(mo)型(xing)一(yi)(yi)样(yang),向量数据(ju)库要品出味道,离不开时(shi)间(jian)的(de)窖藏和酝(yun)酿(niang)(niang)。是(shi)在大训(xun)模(mo)型(xing)的(de)热度下(xia)(xia)降后,像泡(pao)沫一(yi)(yi)样(yang)湮灭(mie),还是(shi)作为啤酒精酿(niang)(niang)沉淀(dian)下(xia)(xia)去,等待成(cheng)为下(xia)(xia)一(yi)(yi)代数字基(ji)础设施的(de)刚(gang)需,被行业客户所啜饮,是(shi)留给数据(ju)库玩家(jia)和买家(jia)的(de)选(xuan)择题。

AI 大模型 数(shu)据库
评论
还可输入300个字
专栏介绍
脑极体
43篇文章
你的困惑,来自于无路贴近未知。我们在技术、思想、传播的异界,贩来极限脑量下的TMT。
+关注
400-858-9000
免费服务热线
09:00--20:00
服务时间
18658148790
投诉电话
投融界App下载
官方微信公众号
官方微信小程序
Copyright © 2025 浙江投融界科技有限公司(zzesf.com) 版权所有 | ICP经营许可证:浙B2-20190547 | | 浙公网安备33010602000759号
地址:浙江省杭州市西湖区留下街道西溪路740号7号楼301室
浙江投融界科技有限公司zzesf.com版权所有 | 用户协议 | 隐私条款 | 用户权限
应用版本:V2.7.8 | 更新日期:2022-01-21
 
在线客服
微信订阅