利用Docling和Python构建开源AI知识库（含教程）-人工智能-PHP中文网

利用Docling和Python构建开源AI知识库（含教程）

聖光之護

发布： 2025-12-21 09:12:25

原创

664人浏览过

在人工智能（AI）领域，构建能够理解和利用特定领域知识的智能代理变得越来越重要。为AI代理提供访问企业内部数据的能力，可以显著提升其解决问题的能力和效率。例如，提供公司文档、PDF文件和网站数据，能够使AI代理更好地理解公司业务和特定任务。然而，市面上许多数据提取工具都是闭源的，需要API密钥并涉及将数据发送到第三方平台进行处理，这既增加了成本，也带来了数据安全和隐私方面的担忧。本文将介绍如何使用Docling，一个强大的开源Python库，来构建完全开源的文档提取流程，为您的AI代理提供定制化的知识。

关键要点

Docling是一个强大的开源Python库，用于文档提取和知识库构建。

可以使用Docling免费解析PDF、网页等各类文档。

无需依赖闭源API，保护数据安全和隐私。

本文提供构建开源AI知识库的完整流程和代码示例。

开源文档提取工具Docling

告别闭源API：拥抱开源的数据提取方案

随着ai技术的日益普及，越来越多的企业和开发者开始尝试利用ai代理来解决实际问题。然而，许多ai应用都需要访问特定的知识库才能发挥作用。例如，企业可能希望ai代理能够理解其内部文档，以便更好地服务客户或优化内部流程。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

利用Docling和Python构建开源AI知识库（含教程）

传统的解决方案通常依赖于闭源的API，例如Chatbase、Azure AI Document Intelligence、Amazon Textract和LlamaIndex等。这些API虽然功能强大，但也存在一些问题：

成本高昂：使用这些API通常需要付费，随着数据量的增加，成本也会不断上升。
数据安全风险：需要将敏感数据发送到第三方平台进行处理，存在数据泄露的风险。
缺乏灵活性：闭源API的功能和定制性有限，难以满足所有需求。

Docling的出现，为我们提供了一个全新的选择。它是一个完全开源的Python库，可以帮助您构建自己的文档提取流程，无需依赖任何闭源API。这意味着您可以完全掌控您的数据，并根据自己的需求定制流程。

LlamaParse也是一个数据提取工具，但是Docling是更优秀的开源替代方案。

立即学习“Python免费学习笔记（深入）”；

Docling的优势在于其完全开源的特性。这意味着您可以自由地查看、修改和分发代码，并根据自己的需求进行定制。此外，由于数据处理完全在本地进行，因此可以更好地保护数据安全和隐私。下表对闭源方案和 Docling 进行了对比：

特性	闭源API（如Chatbase）	Docling（开源方案）
成本	高	免费
数据安全	风险高	安全
灵活性	有限	高，可定制
可控性	低	高，完全掌控
是否开源	否	是

总而言之，Docling是一个强大且灵活的开源解决方案，可以帮助您构建自己的AI知识库，并更好地保护您的数据。

Docling 的主要功能

利用Docling和Python构建开源AI知识库（含教程）

Docling 不仅是一个工具，而是一个强大的文档处理库，它能够将各种文档格式统一转换为标准格式，为你的AI agent提供统一的数据来源。

通用格式支持: 可以处理PDF, DOCX, XLSX, PPTX, Markdown, HTML, 图片等多种格式。
强大的 AI 理解能力: 基于 AI 的布局分析和表格结构识别，提供更精准的文档理解。
灵活的导出选项: 支持导出为 HTML, Markdown, JSON 或纯文本。
高性能: 可以在本地硬件上高效运行。
正在开发的功能:
- 元数据提取，包括标题、作者、参考资料和语言
- 包含视觉语言模型 (SmolDocling)
- 图表理解 (Barchart, Piechart, LinePlot 等)
- 复杂化学物质理解（分子结构）
易于集成: Docling可以和LangChain, LlamaIndex, Crew AI & Haystack等集成，为agentic AI 提供支持

这些特性使得 Docling 成为构建 AI 知识库的理想选择，无论你是处理 PDF 文档，还是网络内容，Docling 都能提供强大的支持。

准备 Docling 环境

环境配置与依赖安装

在使用 Docling 之前，需要进行一些准备工作。首先，需要安装 Python 环境（推荐使用 3.8 或更高版本）。然后，使用 pip 安装 Docling 及其依赖项：

pip install -r requirements.txt

登录后复制

你还需要设置 OpenAI API 密钥,用于创建 Embeddings, 当然你也可以使用开源模型, 在这一步只是可选的。

利用Docling和Python构建开源AI知识库（含教程）

萝卜简历

免费在线AI简历制作工具，帮助求职者轻松完成简历制作。

171

查看详情

OPENAI_API_KEY=你的api密钥

登录后复制

使用 Docling 构建知识库

文档内容提取

首先，我们需要从文档中提取内容。Docling 提供了 DocumentConverter 类，可以方便地将各种文档格式转换为统一的内部表示。

利用Docling和Python构建开源AI知识库（含教程）

以下是一个提取PDF文档内容的示例：

from docling.document_converter import DocumentConverter

converter = DocumentConverter()
result = converter.convert("https://arxiv.org/pdf/2408.09869")
document = result.document
markdown_output = document.export_to_markdown()
json_output = document.export_to_dict()
print(markdown_output)

登录后复制

以下是一个提取网页内容的示例：

result = converter.convert("https://ds4sd.github.io/docling/")
document = result.document
markdown_output = document.export_to_markdown()
print(markdown_output)

登录后复制

如果需要提取整个网站的内容，可以使用 Sitemap：

from utils.sitemap import get_sitemap_urls

sitemap_urls = get_sitemap_urls("https://ds4sd.github.io/docling/")
conv_results_iter = converter.convert_all(sitemap_urls)

docs = []
for result in conv_results_iter:
    if result.document:
        docs.append(document)

登录后复制

内容分块（Chunking）

为了更好地利用提取的内容，我们需要将其分割成更小的块，以便更好地进行索引和检索。Docling 提供了混合分块（Hybrid Chunking）功能，可以根据文档的结构和内容，智能地将文档分割成更小的块。

利用Docling和Python构建开源AI知识库（含教程）

以下是一个使用混合分块的示例：

from docling.chunking import HybridChunker

chunker = HybridChunker()
chunk_iter = chunker.chunk(dl_doc.document)
chunks = list(chunk_iter)

登录后复制

Embedding创建

接下来，我们需要为每个内容块创建 Embedding，以便进行语义搜索。Embedding 是一种将文本转换为向量表示的技术，可以捕捉文本的语义信息。本文使用OpenAI 进行 Embeddings 创建。

利用Docling和Python构建开源AI知识库（含教程）

以下是一个创建 Embedding 并存储到 LanceDB 的示例：

import lancedb
from lancedb.embeddings import get_registry

db = lancedb.connect("./data/lancedb")

# 获取 OpenAI Embedding 函数
func = get_registry().get("openai").create(name="text-embedding-3-large")

class ChunkMetadata(LanceModel):
    filename: str = None
    page_numbers: list[int] = None
    title: str = None

class Chunks(LanceModel):
    text: str = SourceField()
    vector: Vector(func.ndims) = func.VectorField(type=ignore)
    metadata: ChunkMetadata

table = db.create_table("docling", schema=Chunks, mode="overwrite")

# 准备数据
processed_chunks = []
for chunk in chunks:
    processed_chunks.append({
        "text": chunk.text,
        "metadata": {
            "filename": chunk.meta.origin.filename,
            "page_numbers": sorted(chunk.meta.page_no),
            "title": chunk.meta.headings[0] if chunk.meta.headings else None
        }
    })

table.add(processed_chunks)

登录后复制

在这个示例中，我们首先连接到 LanceDB 数据库。然后，我们定义了一个 Pydantic 模型 Chunks，用于描述数据表的结构。这个模型包含了文本内容、Embedding 向量和元数据。