什么是向量搜索?
向量搜索是一种利用语义进行数据搜索的突破性能力。在人工智能中,向量用于捕捉非结构化数据的语义,如图像、文档、视频等。向量由称为嵌入模型的深度学习AI模型生成,表现为一系列数字,称为维度,用于捕捉数据对象的重要“特征”。这些特征代表数据的语义内容,而非文档中的实际文字或图像中的像素。向量之间的相似度表现为数学距离。在业务场景中,向量可用于表示对象的如严重性、症状、感觉和状态等特征。向量搜索的相似性度表明,具有更相似特征值的对象会产生更接近的向量。
既然市面已有很多向量数据库可供选择,为何Oracle还要躬身入局?
?
向量数据库的必要性:传统的企业数据库虽然在查询能力、容错性和安全性方面较为成熟,但在处理非结构化数据时存在局限性。向量数据库能够通过将数据转换为向量形式来实现语义搜索和基于值的搜索,从而提高搜索的准确性和效率。
?
Oracle的AI向量搜索:Oracle通过将AI向量搜索功能集成到企业数据库中,使得用户可以在当前数据上运行所有类型的混合搜索,因此无需预测所需数据,也无需移动和同步数据,简化了数据管理并提高了安全性。
?
SQL支持AI向量搜索:通过SQL语句,用户可以轻松地在非结构化数据(如对象)上进行AI向量搜索,并与结构化数据(如产品和客户信息)的基于值的搜索相结合,实现更复杂的查询。
展示的几个SQL查询表明了如何结合AI向量搜索与Oracle原有的多模数据类型搜索来找到匹配的记录,例如找到与特定笔记本电脑相关的前10条记录,或者找到在拉斯维加斯由客户报告的与特定笔记本电脑相关的前10条记录。
Oracle的解决方案的优势在于提供了一个集成的搜索平台,确保所有数据保持的一致性,任何开发者均可在极小的学习成本内学会使用。
Oracle AI向量搜索有什么特点?
Oracle AI Vector
Search 是一种先进的数据库技术,它通过将非结构化数据嵌入为向量来实现语义的相似性搜索。这项技术包括以下几个关键步骤:
?
向量生成(Generate):使用预创建的嵌入、外部嵌入服务或数据库内嵌入模型来生成向量。Oracle 提供了 UTL_TO_EMBEDDING() 和 VECTOR_EMBEDDING() 函数来支持这一过程。
?
向量存储(Store):引入了新的 VECTOR 数据类型,用于在数据库表列中存储向量。这种数据类型支持不同的维度值格式,如 FLOAT32、FLOAT64 和 INT8。
?
向量索引(Index):构建近似向量索引,以加快向量搜索的速度。Oracle 提供了基于图的索引(如 HNSW 索引)和分区向量索引(如 IVF_FLAT 索引),这些索引可以提供快速且准确的相似性搜索。
?
向量搜索(Search):通过 SQL 语句在 VECTOR 列上执行 AI 向量搜索,可以结合关系型过滤器和连接来提高搜索的准确性和效率。
?
横向扩展
(Scale-Out): Oracle
AI Vector Search 支持多种方式的水平扩展,能够处理大规模数据和工作负载,并且确保事务一致性、数据的完整性和准确性。这些技术包括;RAC、智能Exadata存储、分区及分片,丰富的技术组合实现更高效的向量搜索。
Oracle AI向量搜索究竟有多快?
?
性能对比:Oracle
AI向量搜索在处理大规模向量数据时,相较于开源数据库(包括关系型数据库、向量数据库和文档数据库),在查询性能(QPS
@ 95% 召回率)上展现出显著优势。在SIFT数据集(1M个128维向量)中,Oracle比开源数据库快3-6倍;在Fashion-MNIST数据集(60K个768维向量)中,Oracle快3-10倍;在GIST数据集(1M个968维向量)中,Oracle比向量数据库快2-3倍。
?
效率与资源消耗:尽管文档数据库(O-DOCDB)在某些情况下速度略快(27%),但其CPU使用量是Oracle数据库的3-4倍。而Oracle
AI向量搜索在保持高效率的同时,资源消耗更为合理。
?
应用场景:Oracle
AI向量搜索适用于多种企业级相似性搜索场景,包括但不限于:寻找相似项:如支持票据、生物识别模式识别、产品推荐。检测制造异常:通过向量搜索技术检测生产过程中的异常。文本搜索:利用语义相似性进行文本搜索。
?
生成性AI生态系统:向量搜索是生成性AI生态系统的关键部分,能够通过自然语言与业务数据交互,提升用户体验。
?
检索增强生成(RAG):这是一种结合了用户自然语言问题、向量数据库中的私有内容和通用知识来提供信息丰富答案的方法。通过向量搜索增强生成性AI,可以提供更准确的答案,同时避免了对敏感企业数据的直接训练。
Oracle AI向量搜索在性能、效率和应用场景上具有优越性,已经成为生成式AI生态系统中的重要角色。
Oracle AI向量搜索让RAG走得更远
Oracle AI向量搜索技术将结构化业务数据与向量结合,支持RAG为用户的提问提供更为准确的答案。同时,它还确保了业务安全规则,只使用用户授权访问的数据。在一个关于笔记本电脑频繁重启的问题示例中,展示了AI向量搜索如何找到相关问题报告,并结合产品和客户数据,并通过生成式AI(GenAI)提供更准确的答案。Oracle
AI向量搜索技术还在文档分类、聊天机器人、识别文档中的个人信息(PII)以及在线旅行社聊天机器人和自然语言目录搜索等客户用例中得到广泛应用。
Oracle AI向量搜索的优势总结
?
向量数据类型:Oracle引入了新的向量数据类型,用于存储向量。
?
SQL语法和函数:提供了新的SQL语法和函数,使得表达相似性搜索变得更加轻松。
?
向量索引:为了高性能,引入了新的向量索引。
?
性能:AI向量搜索非常快,能够加速AI应用的开发。
?
AI向量搜索的应用:AI向量搜索能够支持完整的Gen
AI(生成式人工智能)管道。
?
业务应用:Oracle将AI向量搜索带到企业数据中,加速AI赋能应用的开发。
内容载自:ORACLE网站
