向量数据库的崛起:如何改变数据存储与机器学习的未来

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

近年来,随着大量语言模型(LLMs)和生成式人工智能(GenAI)运动的兴起,向量数据库技术蓬勃发展,吸引了众多创业公司和投资者的关注。传统的关系数据库如Postgres或MySQL非常适合处理结构化数据——这些数据类型预定义明确,可以整齐地排列在行和列中。然而,对于图像、视频、电子邮件、社交媒体帖子等非结构化数据,传统数据库的处理方式就显得力不从心。

与此相对,向量数据库通过向量嵌入的形式存储和处理数据,将文本、文件、图像等数据转换为数值表征,捕捉不同数据点之间的含义和关系。这种方法非常适合机器学习,因为数据库根据各项数据的相关性在空间上存储数据,这使得检索语义上相似的数据变得更加容易。

这对于OpenAI的GPT-4等大型语言模型尤其有用,因为它允许AI聊天机器人通过分析以前的类似对话来更好地理解对话上下文。向量搜索还可用于各种实时应用,如社交网络或电商应用中的内容推荐,因为它可以快速查看用户搜索过什么,并检索出类似的项目。

向量搜索还可以帮助减少LLM应用中的“幻觉”,通过提供可能在原始训练数据集中不可用的额外信息。

向量搜索初创公司Qdrant的首席执行官兼联合创始人Andre Zayarni向TechCrunch解释说:“如果不使用向量相似度搜索,你仍然可以开发AI/ML应用,但你需要进行更多的重新训练和微调。当有大量数据集需要处理时,向量数据库就显得尤为重要,它是一个高效便捷处理向量嵌入的工具。”

今年1月,Qdrant获得了2800万美元的资金支持,凭借其快速增长成为去年增长最快的商业开源创业公司之一。并且,它远非唯一一个最近筹集资金的向量数据库初创公司——Vespa、Weaviate、Pinecone和Chroma去年共筹集了2亿美元用于各种向量产品。

自今年年初以来,我们还看到Index Ventures领投了Superlinked的950万美元种子轮融资,该平台将复杂数据转化为向量嵌入。几周前,Y Combinator(YC)公布了其2024年冬季群体,其中包括Lantern,这是一家为Postgres销售托管向量搜索引擎的初创公司。

此外,Marqo在去年年底获得了440万美元的种子轮融资,紧接着在2月份进行了1250万美元的A轮融资。Marqo平台提供全方位的向量工具,包括向量生成、存储和检索,使用户无需借助OpenAI或Hugging Face等第三方工具,通过单一API即可使用所有功能。

Marqo的联合创始人Tom Hamer和Jesse N. Clark曾在亚马逊担任工程师,他们意识到在不同模式如文本和图像上进行语义灵活搜索的巨大未满足需求。这促使他们在2021年离开亚马逊创立了Marqo。

Clark对TechCrunch表示:“在亚马逊从事视觉搜索和机器人技术工作时,我真正开始考虑向量搜索——我在思考新的产品发现方式,很快就聚焦于向量搜索。在机器人技术中,我利用多模态搜索来检索我们的图像,以识别可能存在的错误物体,比如软管和包裹,否则这些问题将非常难以解决。”

虽然向量数据库在ChatGPT和GenAI运动的喧嚣中正当其时,但它们并非适用于每一种企业搜索场景的灵丹妙药。

Percona的创始人Peter Zaitsev向TechCrunch解释说:“专用数据库往往专注于特定的用例,因此可以为所需任务的性能以及用户体验设计其架构,与需要适应当前设计的通用数据库相比。”

尽管专业数据库可能在某些方面表现出色但忽视了其他方面,我们开始看到数据库领域的老牌公司如Elastic、Redis、OpenSearch、Cassandra、Oracle和MongoDB,以及像Microsoft的Azure、Amazon的AWS和Cloudflare这样的云服务提供商,都在添加向量数据库搜索技术。

Zaitsev将这一最新趋势与十多年前JSON的情况进行比较,当时网络应用变得更加普遍,开发者需要一种对人类来说易于阅读和编写的语言独立数据格式。在那种情况下,像MongoDB这样的文档数据库作为新的数据库类别出现,而现有的关系数据库也引入了JSON支持。

Zaitsev对TechCrunch表示:“我认为向量数据库也可能出现类似的情况。那些正在构建非常复杂和大规模AI应用的用户将使用专用的向量搜索数据库,而那些需要为其现有应用构建一些AI功能的人更可能在他们已经使用的数据库中使用向量搜索功能。”

但Zayarni和他的Qdrant同事们正押注,完全围绕向量构建的原生解决方案将提供所需的“速度、内存安全和规模”,随着向量数据的爆炸性增长,与那些将向量搜索作为后期添加的公司相比,原生解决方案将表现更优。

Zayarni说:“他们的宣传是,‘如果需要,我们也可以进行向量搜索’。而我们的宣传是,‘我们以最佳方式进行高级向量搜索’。这完全是关于专业化。我们实际上建议从你技术栈中已有的数据库开始。如果向量搜索是你解决方案的关键组成部分,用户终将面临限制。”

相关推荐

  1. Elasticsearch向量数据存储搜索

    2024-04-24 13:04:03       33 阅读
  2. 【AI】人工智能(AI)崛起未来展望

    2024-04-24 13:04:03       8 阅读
  3. AI赋能未来:大模型AIGC崛起

    2024-04-24 13:04:03       6 阅读
  4. 机器学习如何改变缺陷检测格局?

    2024-04-24 13:04:03       36 阅读
  5. 机器学习如何改变缺陷检测格局?

    2024-04-24 13:04:03       33 阅读
  6. 拥抱未来:探索改变游戏规则存储技术

    2024-04-24 13:04:03       7 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-04-24 13:04:03       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-04-24 13:04:03       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-04-24 13:04:03       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-04-24 13:04:03       18 阅读

热门阅读

  1. 在Linux上开启FTP服务

    2024-04-24 13:04:03       14 阅读
  2. LeetCode 344.反转字符串

    2024-04-24 13:04:03       14 阅读
  3. 多服务器上的 docker 实现互相访问

    2024-04-24 13:04:03       16 阅读
  4. React vs React Native写法上的不同

    2024-04-24 13:04:03       14 阅读
  5. 20240423-线程基础

    2024-04-24 13:04:03       13 阅读
  6. C++orm使用插曲——MySQL保留字

    2024-04-24 13:04:03       16 阅读
  7. 如何在 Docker 和 DigitalOcean Kubernetes 上部署 Kafka

    2024-04-24 13:04:03       10 阅读
  8. 深入理解Kubernetes:kube-scheduler源码解析

    2024-04-24 13:04:03       13 阅读
  9. DNS 服务器不同类型有什么作用?

    2024-04-24 13:04:03       15 阅读
  10. 项目开发的详细步骤(精华版)

    2024-04-24 13:04:03       12 阅读