HuggingFace 开源 FinePDFs 与 FineVision 数据集

心靈之曲

发布时间：2025-09-08 19:25:01

686人浏览过

来源于php中文网

原创

hugging face 近日发布了两个大规模开源数据集：finepdfs 和 finevision，分别针对语言模型与视觉-语言模型的训练需求，旨在大幅提升开源模型的性能表现。

https://www.php.cn/link/6750c0194a5f9ae7194a0ae154b64959
https://www.php.cn/link/a007685ecc0ccf820b8ac1d6e77f69fd

FinePDFs 是当前规模最大的公开 PDF 语料库，完全基于 PDF 文档构建，涵盖约 3 万亿 tokens，来自 4.75 亿份文件，支持 1733 种语言，总数据量达 3.65TB。

该数据集源自 105 个 CommonCrawl 快照（时间跨度为 2013 年夏季至 2025 年 2 月），经过 datatrove 工具链进行去重、内容过滤及个人身份信息（PII）匿名化处理，并采用 ODC-By 1.0 开放许可证发布。其文档平均长度接近传统 HTML 数据集的两倍，且包含大量超过 10 万字符的长文本样本，特别适合用于增强开源大语言模型的长上下文理解能力。

数据集已按语言和书写系统分类整理，其中 978 种语言包含超过 100 万 tokens，66 种语言达到或超过 10 亿 tokens。

HuggingFace 开源 FinePDFs 与 FineVision 数据集

iWebShop开源商城系统

iWebShop是一款基于PHP语言及MYSQL数据库开发的B2B2C多用户开源免费的商城系统，系统支持自营和多商家入驻、集成微信商城、手机商城、移动端APP商城、三级分销、视频电商直播、微信小程序等于一体，它可以承载大数据量且性能优良，还可以跨平台，界面美观功能丰富是电商建站首选源码。iWebShop开源商城系统 v5.14 更新日志：新增商品编辑页面规格图片上传优化商品详情页面规格图片与主图切

下载

FineVision 则专为视觉-语言模型（VLM）训练打造，融合了来自 200 多个不同来源的数据，包含 1730 万张图像、2430 万个训练样本、8890 万轮多轮对话以及高达 95 亿 tokens 的回答内容，能够支持如 GUI 导航、目标指向、对象计数等新兴能力的训练。

HuggingFace 开源 FinePDFs 与 FineVision 数据集

据官方介绍，在 10 项主流基准测试中，使用 FineVision 训练的模型平均性能提升超过 20%，显著增强开源视觉-语言模型的表现。所有数据已转换为 Parquet 格式，总容量约为 4.48TB，支持高效的流式加载，便于大规模分布式训练。

Electron 38.0.0 发布，跨平台桌面应用开发工具

APP开发都需要用到什么技术？

快应用是指什么？

Python前端开发整理大全！

APP前端开发对技术要求高么？

相关标签:

html 工具 pdf 2025 分布式 html 对象 https PDF 文档

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：宇树科技冲刺 IPO 将影响机器人产业格局下一篇：幸运降临：安徽芜湖女子刮刮乐喜中100万大奖

作者最新文章

DiagrammingAI：AI驱动的图表生成器，提升效率与创新

2026-01-02 10:09

《新疆好地方》注销账号方法

2026-01-02 10:12

OK钱包安全吗

2026-01-02 10:12

GitHub Copilot CLI：AI驱动的终端效率革命

2026-01-02 10:12

AI赋能建筑业： Datagrid 助力打造高效智能 SOP 专家

2026-01-02 10:15

数学图形变换：几何变换详解与应用指南

2026-01-02 10:15

《花粉儿》注册方法介绍

2026-01-02 10:19

《比心》申请上麦方法

2026-01-02 10:19

AI视频生成工具大揭秘：8个免费网站助你轻松创作

2026-01-02 10:20

硕士论文 vs 博士论文：核心区别深度解析

2026-01-02 10:23

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

什么是分布式

分布式是一种计算和数据处理的方式，将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容，供大家免费下载体验。

320

2023.08.11

分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容，供大家免费下载体验。

229

2023.10.07

html版权符号

597

2023.06.14

html在线编辑器

html在线编辑器是用于在线编辑的工具，编辑的内容是基于HTML的文档。它经常被应用于留言板留言、论坛发贴、Blog编写日志或等需要用户输入普通HTML的地方，是Web应用的常用模块之一。php中文网为大家带来了html在线编辑器的相关教程、以及相关文章等内容，供大家免费下载使用。

641

2023.06.21

html网页制作

html网页制作是指使用超文本标记语言来设计和创建网页的过程，html是一种标记语言，它使用标记来描述文档结构和语义，并定义了网页中的各种元素和内容的呈现方式。本专题为大家提供html网页制作的相关的文章、下载、课程内容，供大家免费下载体验。

462

2023.07.31

html空格

html空格是一种用于在网页中添加间隔和对齐文本的特殊字符，被用于在网页中插入额外的空间，以改变元素之间的排列和对齐方式。本专题为大家提供html空格的相关的文章、下载、课程内容，供大家免费下载体验。

243

2023.08.01

html是什么

HTML是一种标准标记语言，用于创建和呈现网页的结构和内容，是互联网发展的基石，为网页开发提供了丰富的功能和灵活性。本专题为大家提供html相关的各种文章、以及下载和课程。

2865

2023.08.11

html字体大小怎么设置

在网页设计中，字体大小的选择是至关重要的。合理的字体大小不仅可以提升网页的可读性，还能够影响用户对网页整体布局的感知。php中文网将介绍一些常用的方法和技巧，帮助您在HTML中设置合适的字体大小。

501

2023.08.11

php源码安装教程大全

本专题整合了php源码安装教程，阅读专题下面的文章了解更多详细内容。

150

2025.12.31

热门下载

网站特效

网站源码

网站素材

前端模板