mineru 是一款专注于将 pdf 文档转换为机器友好格式(如 markdown、json)的高效工具,支持灵活输出至多种结构化格式。近期,该项目正式推出全新“网页解析”能力——用户仅需提供网页 url 或上传 html 文件,即可一键完成高质量网页到 markdown 的智能转换。
解析完成后,界面采用左右双栏布局:左侧实时渲染网页快照,右侧同步生成结构清晰、语义准确的 Markdown 或 JSON 内容。支持高保真缩放与精准对齐,真正实现所见即所得的对照编辑体验。
技术报告链接:https://www.php.cn/link/25fac99a7e76310b5286a9df9c3839a1 模型地址:https://www.php.cn/link/59495dda55063c90e74d8761976f3229
此次升级的核心模块——“MinerU HTML”网页解析引擎,具备以下五大核心优势:
极速转化,一步到位。无需繁琐配置,在统一输入框中直接粘贴网址,无论是图文混排的长篇报道,还是含大量交互元素的复杂页面,MinerU 均可秒级输出逻辑严谨、层级分明的 Markdown 文档。
深度识别,延续专业基因。全面继承 MinerU 在数学公式、多维表格识别方面的领先能力。网页中嵌套的 LaTeX 公式、跨行跨页表格等专业内容均可被高精度还原,保障输出结果兼具可读性与学术严谨性,特别适配科研文献处理与工程文档分析场景。
智能容错,自动重试机制。面对 JavaScript 动态加载失败或网络波动导致的解析中断,系统将主动触发多轮自适应重试策略,确保各类强交互型网站、反爬机制较严的平台也能稳定提取结构化数据。
原生兼容主流前端框架。深度适配由 React、Vue、Svelte 等现代框架构建的单页应用(SPA),可准确捕获虚拟 DOM 渲染后的真实内容,彻底规避乱码、断行、样式错位等问题,让可视化呈现与结构化输出高度一致。
智能净化,聚焦核心信息。内置内容感知引擎,可自动识别并剔除广告横幅、导航侧栏、无关外链、弹窗遮罩等干扰元素,保留主正文、标题、列表、图表等关键信息,交付干净、紧凑、高信息密度的内容成果。

当前,MinerU 网页版与桌面客户端均向每位用户提供每日 100 次免费解析额度。立即体验:https://www.php.cn/link/9bd81dc8888424bc78667f18017bdf42
源码仓库:点击获取










