
本文档介绍了如何使用 Langchain 将 DocumentDB 作为向量存储。由于 DocumentDB 的向量搜索查询 API 与 MongoDB 不同,因此直接使用 MongoDB 的集成方式可能会遇到问题。本文将介绍如何使用 Langchain 提供的 DocumentDB 向量存储集成,并提供示例代码和注意事项,帮助你成功地将 DocumentDB 作为向量存储使用。
DocumentDB 最近发布了向量搜索功能。虽然 DocumentDB 与 MongoDB 兼容,但其向量搜索查询 API 与 MongoDB 不同。因此,直接使用为 MongoDB Atlas 设计的代码可能无法正常工作。Langchain 现在直接支持 DocumentDB 作为向量存储,从而解决了这个问题。
首先,确保安装了 Langchain 和 DocumentDB 相关的库。可以使用 pip 进行安装:
pip install langchain pymongo
连接到 DocumentDB 数据库,你需要提供连接字符串。确保连接字符串包含正确的凭据和数据库信息。
from pymongo import MongoClient # 替换为你的 DocumentDB 连接字符串 CONNECTION_STRING = "mongodb://your_username:your_password@your_documentdb_cluster.us-east-1.docdb.amazonaws.com:27017/?replicaSet=rs0&readPreference=secondaryPreferred" client = MongoClient(CONNECTION_STRING) db = client["your_database_name"] # 替换为你的数据库名称 collection = db["your_collection_name"] # 替换为你的集合名称
接下来,使用 Langchain 的 DocumentDB 类创建向量存储。首先,你需要准备好文档和嵌入模型。
from langchain.document_loaders import TextLoader
from langchain.embeddings import OpenAIEmbeddings # 你可以使用任何 Langchain 支持的嵌入模型
from langchain.vectorstores import DocumentDB
from langchain.text_splitter import CharacterTextSplitter
# 加载文档
loader = TextLoader("your_document.txt") # 替换为你的文档路径
documents = loader.load()
# 分割文档
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)
# 初始化嵌入模型
embeddings = OpenAIEmbeddings() # 需要 OpenAI API 密钥
# 创建 DocumentDB 向量存储
vector_store = DocumentDB.from_documents(
    docs,
    embeddings,
    collection=collection,
)代码解释:
创建向量存储后,可以使用 similarity_search 方法执行相似性搜索。
query = "What is this document about?" results = vector_store.similarity_search(query) print(results)
代码解释:
以下是一个完整的示例代码,展示了如何使用 Langchain 将 DocumentDB 作为向量存储:
from pymongo import MongoClient
from langchain.document_loaders import TextLoader
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import DocumentDB
from langchain.text_splitter import CharacterTextSplitter
# 替换为你的 DocumentDB 连接字符串
CONNECTION_STRING = "mongodb://your_username:your_password@your_documentdb_cluster.us-east-1.docdb.amazonaws.com:27017/?replicaSet=rs0&readPreference=secondaryPreferred"
client = MongoClient(CONNECTION_STRING)
db = client["your_database_name"] # 替换为你的数据库名称
collection = db["your_collection_name"] # 替换为你的集合名称
# 加载文档
loader = TextLoader("your_document.txt") # 替换为你的文档路径
documents = loader.load()
# 分割文档
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)
# 初始化嵌入模型
embeddings = OpenAIEmbeddings() # 需要 OpenAI API 密钥
# 创建 DocumentDB 向量存储
vector_store = DocumentDB.from_documents(
    docs,
    embeddings,
    collection=collection,
)
# 执行相似性搜索
query = "What is this document about?"
results = vector_store.similarity_search(query)
print(results)本文介绍了如何使用 Langchain 将 DocumentDB 作为向量存储。通过使用 Langchain 提供的 DocumentDB 向量存储集成,你可以轻松地将 DocumentDB 集成到你的 Langchain 应用程序中,并利用 DocumentDB 的向量搜索功能。 记住,DocumentDB的向量搜索API与MongoDB不同,因此必须使用Langchain提供的DocumentDB集成。
以上就是使用 Langchain 将 DocumentDB 作为向量存储的详细内容,更多请关注php中文网其它相关文章!
                        
                        每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
                Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号