利用Docling和Python构建开源AI知识库(含教程)

聖光之護
发布: 2025-12-21 09:12:25
原创
664人浏览过
在人工智能(AI)领域,构建能够理解和利用特定领域知识的智能代理变得越来越重要。为AI代理提供访问企业内部数据的能力,可以显著提升其解决问题的能力和效率。例如,提供公司文档、PDF文件和网站数据,能够使AI代理更好地理解公司业务和特定任务。 然而,市面上许多数据提取工具都是闭源的,需要API密钥并涉及将数据发送到第三方平台进行处理,这既增加了成本,也带来了数据安全和隐私方面的担忧。本文将介绍如何使用Docling,一个强大的开源Python库,来构建完全开源的文档提取流程,为您的AI代理提供定制化的知识。

关键要点

Docling是一个强大的开源Python库,用于文档提取和知识库构建。

可以使用Docling免费解析PDF、网页等各类文档。

无需依赖闭源API,保护数据安全和隐私。

本文提供构建开源AI知识库的完整流程和代码示例。

开源文档提取工具Docling

告别闭源API:拥抱开源的数据提取方案

随着ai技术的日益普及,越来越多的企业和开发者开始尝试利用ai代理来解决实际问题。然而,许多ai应用都需要访问特定的知识库才能发挥作用。例如,企业可能希望ai代理能够理解其内部文档,以便更好地服务客户或优化内部流程。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

利用Docling和Python构建开源AI知识库(含教程)

传统的解决方案通常依赖于闭源的API,例如Chatbase、Azure AI Document Intelligence、Amazon Textract和LlamaIndex等。这些API虽然功能强大,但也存在一些问题:

  • 成本高昂:使用这些API通常需要付费,随着数据量的增加,成本也会不断上升。
  • 数据安全风险:需要将敏感数据发送到第三方平台进行处理,存在数据泄露的风险。
  • 缺乏灵活性:闭源API的功能和定制性有限,难以满足所有需求。

Docling的出现,为我们提供了一个全新的选择。它是一个完全开源的Python库,可以帮助您构建自己的文档提取流程,无需依赖任何闭源API。这意味着您可以完全掌控您的数据,并根据自己的需求定制流程。

LlamaParse也是一个数据提取工具,但是Docling是更优秀的开源替代方案。

立即学习Python免费学习笔记(深入)”;

Docling的优势在于其完全开源的特性。这意味着您可以自由地查看、修改和分发代码,并根据自己的需求进行定制。此外,由于数据处理完全在本地进行,因此可以更好地保护数据安全和隐私。 下表对闭源方案和 Docling 进行了对比:

特性 闭源API(如Chatbase) Docling(开源方案)
成本 免费
数据安全 风险高 安全
灵活性 有限 高,可定制
可控性 高,完全掌控
是否开源

总而言之,Docling是一个强大且灵活的开源解决方案,可以帮助您构建自己的AI知识库,并更好地保护您的数据。

Docling 的主要功能

利用Docling和Python构建开源AI知识库(含教程)

Docling 不仅是一个工具,而是一个强大的文档处理库,它能够将各种文档格式统一转换为标准格式,为你的AI agent提供统一的数据来源。

  1. 通用格式支持: 可以处理PDF, DOCX, XLSX, PPTX, Markdown, HTML, 图片等多种格式。
  2. 强大的 AI 理解能力: 基于 AI 的布局分析和表格结构识别,提供更精准的文档理解。
  3. 灵活的导出选项: 支持导出为 HTML, Markdown, JSON 或纯文本。
  4. 高性能: 可以在本地硬件上高效运行。
  5. 正在开发的功能:
    • 元数据提取,包括标题、作者、参考资料和语言
    • 包含视觉语言模型 (SmolDocling)
    • 图表理解 (Barchart, Piechart, LinePlot 等)
    • 复杂化学物质理解(分子结构)
  6. 易于集成: Docling可以和LangChain, LlamaIndex, Crew AI & Haystack等集成,为agentic AI 提供支持

这些特性使得 Docling 成为构建 AI 知识库的理想选择,无论你是处理 PDF 文档,还是网络内容,Docling 都能提供强大的支持。

准备 Docling 环境

环境配置与依赖安装

在使用 Docling 之前,需要进行一些准备工作。首先,需要安装 Python 环境(推荐使用 3.8 或更高版本)。然后,使用 pip 安装 Docling 及其依赖项:

pip install -r requirements.txt
登录后复制

你还需要设置 OpenAI API 密钥,用于创建 Embeddings, 当然你也可以使用开源模型, 在这一步只是可选的。

利用Docling和Python构建开源AI知识库(含教程)

萝卜简历
萝卜简历

免费在线AI简历制作工具,帮助求职者轻松完成简历制作。

萝卜简历 171
查看详情 萝卜简历
OPENAI_API_KEY=你的api密钥
登录后复制

使用 Docling 构建知识库

文档内容提取

首先,我们需要从文档中提取内容。Docling 提供了 DocumentConverter 类,可以方便地将各种文档格式转换为统一的内部表示。

利用Docling和Python构建开源AI知识库(含教程)

以下是一个提取PDF文档内容的示例:

from docling.document_converter import DocumentConverter

converter = DocumentConverter()
result = converter.convert("https://arxiv.org/pdf/2408.09869")
document = result.document
markdown_output = document.export_to_markdown()
json_output = document.export_to_dict()
print(markdown_output)
登录后复制

以下是一个提取网页内容的示例:

result = converter.convert("https://ds4sd.github.io/docling/")
document = result.document
markdown_output = document.export_to_markdown()
print(markdown_output)
登录后复制

如果需要提取整个网站的内容,可以使用 Sitemap:

from utils.sitemap import get_sitemap_urls

sitemap_urls = get_sitemap_urls("https://ds4sd.github.io/docling/")
conv_results_iter = converter.convert_all(sitemap_urls)

docs = []
for result in conv_results_iter:
    if result.document:
        docs.append(document)
登录后复制

内容分块(Chunking)

为了更好地利用提取的内容,我们需要将其分割成更小的块,以便更好地进行索引和检索。Docling 提供了混合分块(Hybrid Chunking)功能,可以根据文档的结构和内容,智能地将文档分割成更小的块。

利用Docling和Python构建开源AI知识库(含教程)

以下是一个使用混合分块的示例:

from docling.chunking import HybridChunker

chunker = HybridChunker()
chunk_iter = chunker.chunk(dl_doc.document)
chunks = list(chunk_iter)
登录后复制

Embedding创建

接下来,我们需要为每个内容块创建 Embedding,以便进行语义搜索。Embedding 是一种将文本转换为向量表示的技术,可以捕捉文本的语义信息。本文使用OpenAI 进行 Embeddings 创建。

利用Docling和Python构建开源AI知识库(含教程)

以下是一个创建 Embedding 并存储到 LanceDB 的示例:

import lancedb
from lancedb.embeddings import get_registry

db = lancedb.connect("./data/lancedb")

# 获取 OpenAI Embedding 函数
func = get_registry().get("openai").create(name="text-embedding-3-large")

class ChunkMetadata(LanceModel):
    filename: str = None
    page_numbers: list[int] = None
    title: str = None

class Chunks(LanceModel):
    text: str = SourceField()
    vector: Vector(func.ndims) = func.VectorField(type=ignore)
    metadata: ChunkMetadata

table = db.create_table("docling", schema=Chunks, mode="overwrite")

# 准备数据
processed_chunks = []
for chunk in chunks:
    processed_chunks.append({
        "text": chunk.text,
        "metadata": {
            "filename": chunk.meta.origin.filename,
            "page_numbers": sorted(chunk.meta.page_no),
            "title": chunk.meta.headings[0] if chunk.meta.headings else None
        }
    })

table.add(processed_chunks)
登录后复制

在这个示例中,我们首先连接到 LanceDB 数据库。然后,我们定义了一个 Pydantic 模型 Chunks,用于描述数据表的结构。这个模型包含了文本内容、Embedding 向量和元数据。

Docling 的优缺点

? Pros

完全开源,免费使用

强大的文档提取和解析能力

支持多种文档格式

可与 LangChain、LlamaIndex 等 AI 框架集成

高效的本地处理能力

? Cons

需要一定的 Python 编程基础

部分高级功能可能需要手动配置

对于某些特殊格式的文档,可能需要自定义提取规则

常见问题解答

Docling 是免费的吗?

是的,Docling 是一个完全开源的项目,您可以免费使用和修改。

我需要 OpenAI API 密钥才能使用 Docling 吗?

使用 OpenAI API 密钥是可选的。Docling 允许你使用开源模型创建embeddings, 但视频为了演示使用了OpenAI, 所以如果需要使用 OpenAI 的 Embedding 功能,您需要提供 API 密钥。

Docling 支持哪些文档格式?

Docling 支持多种文档格式,包括 PDF、DOCX、XLSX、PPTX、Markdown、HTML 等。

如何将 Docling 集成到我的 AI 应用程序中?

Docling 可以轻松地与 LangChain、LlamaIndex 等 AI 框架集成。

相关问题

除了 Docling,还有哪些开源文档提取工具?

除了Docling之外,还有一些其他的开源文档提取工具可供选择,例如: PDFMiner: 这是一个用于从PDF文档中提取文本的Python库。它提供了一种直接的方法来解析PDF文件并提取文本内容,但可能需要额外的处理来处理复杂的布局和格式。 Apache Tika: 这是一个内容分析工具包,可以检测和提取各种文件格式的元数据和文本内容。它支持多种文档格式,包括PDF、Microsoft Office文档和HTML等。 Beautiful Soup: 这是一个用于从HTML和XML文件中提取数据的Python库。它提供了一种简单而灵活的方法来解析文档并提取所需的信息。 虽然这些工具都可以用于文档提取,但Docling的优势在于其完全开源的特性、强大的AI理解能力和对多种文档格式的支持。它提供了一个更全面和灵活的解决方案,可以更好地满足构建AI知识库的需求。 在选择文档提取工具时,需要根据您的具体需求和场景进行评估。如果您需要一个完全开源、功能强大且易于使用的工具,那么Docling是一个不错的选择。

以上就是利用Docling和Python构建开源AI知识库(含教程)的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号