国思软件 - HuggingFace 开源 FinePDFs 与 FineVision 数据集

　　Hugging Face 开源了两个大规模数据集 FinePDFs 和 FineVision，前者是目前最大的公开 PDF 语料库，后者则专为视觉 - 语言模型训练设计，旨在显著提升开源模型的能力。

　　https://huggingface.co/datasets/HuggingFaceFW/finepdfs

　　https://huggingface.co/datasets/HuggingFaceM4/FineVision

　　FinePDFs 是目前最大的公开 PDF 语料库，完全由 PDF 文件构建，包含约 3 万亿 tokens，覆盖 4.75 亿份文档、1733 种语言，数据量 3.65TB。

　　语料来自 105 个 CommonCrawl 快照（2013 夏 —2025 年 2 月），经 datatrove 库去重、过滤与 PII 匿名化，采用 ODC-By 1.0 许可证。文档平均长度接近 HTML 数据集的两倍，长于 10 万字符的样本显著，可用于提升开源 LLM 的长上下文能力。

　　数据集已按语言 - 脚本对划分，978 种语言超 100 万 tokens，66 种语言超 10 亿 tokens。

　　FineVision 面向视觉 - 语言模型训练，整合 200 余个来源，含 1730 万张图像、2430 万样本、8890 万轮对话、95 亿回答 tokens，支持 GUI 导航、指向、计数等新能力。

　　官方称在 10 项基准上带来 20% 以上提升，可显著增强开源 VLM 性能。数据已转为 Parquet，总量约 4.48 TB，支持流式加载。

HuggingFace 开源 FinePDFs 与 FineVision 数据集

我们的产品

相关链接

关于我们

联系我们