在人工智能(AI)领域,构建能够理解和利用特定领域知识的智能代理变得越来越重要。为AI代理提供访问企业内部数据的能力,可以显著提升其解决问题的能力和效率。例如,提供公司文档、PDF文件和网站数据,能够使AI代理更好地理解公司业务和特定任务。 然而,市面上许多数据提取工具都是闭源的,需要API密钥并涉及将数据发送到第三方平台进行处理,这既增加了成本,也带来了数据安全和隐私方面的担忧。本文将介绍如何使用Docling,一个强大的开源Python库,来构建完全开源的文档提取流程,为您的AI代理提供定制化的知识。
Docling是一个强大的开源Python库,用于文档提取和知识库构建。
可以使用Docling免费解析PDF、网页等各类文档。
无需依赖闭源API,保护数据安全和隐私。
本文提供构建开源AI知识库的完整流程和代码示例。
随着ai技术的日益普及,越来越多的企业和开发者开始尝试利用ai代理来解决实际问题。然而,许多ai应用都需要访问特定的知识库才能发挥作用。例如,企业可能希望ai代理能够理解其内部文档,以便更好地服务客户或优化内部流程。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

传统的解决方案通常依赖于闭源的API,例如Chatbase、Azure AI Document Intelligence、Amazon Textract和LlamaIndex等。这些API虽然功能强大,但也存在一些问题:
Docling的出现,为我们提供了一个全新的选择。它是一个完全开源的Python库,可以帮助您构建自己的文档提取流程,无需依赖任何闭源API。这意味着您可以完全掌控您的数据,并根据自己的需求定制流程。
LlamaParse也是一个数据提取工具,但是Docling是更优秀的开源替代方案。
立即学习“Python免费学习笔记(深入)”;
Docling的优势在于其完全开源的特性。这意味着您可以自由地查看、修改和分发代码,并根据自己的需求进行定制。此外,由于数据处理完全在本地进行,因此可以更好地保护数据安全和隐私。 下表对闭源方案和 Docling 进行了对比:
| 特性 | 闭源API(如Chatbase) | Docling(开源方案) |
|---|---|---|
| 成本 | 高 | 免费 |
| 数据安全 | 风险高 | 安全 |
| 灵活性 | 有限 | 高,可定制 |
| 可控性 | 低 | 高,完全掌控 |
| 是否开源 | 否 | 是 |
总而言之,Docling是一个强大且灵活的开源解决方案,可以帮助您构建自己的AI知识库,并更好地保护您的数据。

Docling 不仅是一个工具,而是一个强大的文档处理库,它能够将各种文档格式统一转换为标准格式,为你的AI agent提供统一的数据来源。
这些特性使得 Docling 成为构建 AI 知识库的理想选择,无论你是处理 PDF 文档,还是网络内容,Docling 都能提供强大的支持。
在使用 Docling 之前,需要进行一些准备工作。首先,需要安装 Python 环境(推荐使用 3.8 或更高版本)。然后,使用 pip 安装 Docling 及其依赖项:
pip install -r requirements.txt
你还需要设置 OpenAI API 密钥,用于创建 Embeddings, 当然你也可以使用开源模型, 在这一步只是可选的。

OPENAI_API_KEY=你的api密钥
首先,我们需要从文档中提取内容。Docling 提供了 DocumentConverter 类,可以方便地将各种文档格式转换为统一的内部表示。

以下是一个提取PDF文档内容的示例:
from docling.document_converter import DocumentConverter
converter = DocumentConverter()
result = converter.convert("https://arxiv.org/pdf/2408.09869")
document = result.document
markdown_output = document.export_to_markdown()
json_output = document.export_to_dict()
print(markdown_output)以下是一个提取网页内容的示例:
result = converter.convert("https://ds4sd.github.io/docling/")
document = result.document
markdown_output = document.export_to_markdown()
print(markdown_output)如果需要提取整个网站的内容,可以使用 Sitemap:
from utils.sitemap import get_sitemap_urls
sitemap_urls = get_sitemap_urls("https://ds4sd.github.io/docling/")
conv_results_iter = converter.convert_all(sitemap_urls)
docs = []
for result in conv_results_iter:
if result.document:
docs.append(document)为了更好地利用提取的内容,我们需要将其分割成更小的块,以便更好地进行索引和检索。Docling 提供了混合分块(Hybrid Chunking)功能,可以根据文档的结构和内容,智能地将文档分割成更小的块。

以下是一个使用混合分块的示例:
from docling.chunking import HybridChunker chunker = HybridChunker() chunk_iter = chunker.chunk(dl_doc.document) chunks = list(chunk_iter)
接下来,我们需要为每个内容块创建 Embedding,以便进行语义搜索。Embedding 是一种将文本转换为向量表示的技术,可以捕捉文本的语义信息。本文使用OpenAI 进行 Embeddings 创建。

以下是一个创建 Embedding 并存储到 LanceDB 的示例:
import lancedb
from lancedb.embeddings import get_registry
db = lancedb.connect("./data/lancedb")
# 获取 OpenAI Embedding 函数
func = get_registry().get("openai").create(name="text-embedding-3-large")
class ChunkMetadata(LanceModel):
filename: str = None
page_numbers: list[int] = None
title: str = None
class Chunks(LanceModel):
text: str = SourceField()
vector: Vector(func.ndims) = func.VectorField(type=ignore)
metadata: ChunkMetadata
table = db.create_table("docling", schema=Chunks, mode="overwrite")
# 准备数据
processed_chunks = []
for chunk in chunks:
processed_chunks.append({
"text": chunk.text,
"metadata": {
"filename": chunk.meta.origin.filename,
"page_numbers": sorted(chunk.meta.page_no),
"title": chunk.meta.headings[0] if chunk.meta.headings else None
}
})
table.add(processed_chunks)在这个示例中,我们首先连接到 LanceDB 数据库。然后,我们定义了一个 Pydantic 模型 Chunks,用于描述数据表的结构。这个模型包含了文本内容、Embedding 向量和元数据。
完全开源,免费使用
强大的文档提取和解析能力
支持多种文档格式
可与 LangChain、LlamaIndex 等 AI 框架集成
高效的本地处理能力
? Cons需要一定的 Python 编程基础
部分高级功能可能需要手动配置
对于某些特殊格式的文档,可能需要自定义提取规则
Docling 是免费的吗?
是的,Docling 是一个完全开源的项目,您可以免费使用和修改。
我需要 OpenAI API 密钥才能使用 Docling 吗?
使用 OpenAI API 密钥是可选的。Docling 允许你使用开源模型创建embeddings, 但视频为了演示使用了OpenAI, 所以如果需要使用 OpenAI 的 Embedding 功能,您需要提供 API 密钥。
Docling 支持哪些文档格式?
Docling 支持多种文档格式,包括 PDF、DOCX、XLSX、PPTX、Markdown、HTML 等。
如何将 Docling 集成到我的 AI 应用程序中?
Docling 可以轻松地与 LangChain、LlamaIndex 等 AI 框架集成。
除了 Docling,还有哪些开源文档提取工具?
除了Docling之外,还有一些其他的开源文档提取工具可供选择,例如: PDFMiner: 这是一个用于从PDF文档中提取文本的Python库。它提供了一种直接的方法来解析PDF文件并提取文本内容,但可能需要额外的处理来处理复杂的布局和格式。 Apache Tika: 这是一个内容分析工具包,可以检测和提取各种文件格式的元数据和文本内容。它支持多种文档格式,包括PDF、Microsoft Office文档和HTML等。 Beautiful Soup: 这是一个用于从HTML和XML文件中提取数据的Python库。它提供了一种简单而灵活的方法来解析文档并提取所需的信息。 虽然这些工具都可以用于文档提取,但Docling的优势在于其完全开源的特性、强大的AI理解能力和对多种文档格式的支持。它提供了一个更全面和灵活的解决方案,可以更好地满足构建AI知识库的需求。 在选择文档提取工具时,需要根据您的具体需求和场景进行评估。如果您需要一个完全开源、功能强大且易于使用的工具,那么Docling是一个不错的选择。
以上就是利用Docling和Python构建开源AI知识库(含教程)的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号