数据集 / 归档 / 2026-05-29

2026-05-29 数据集 (2)

openbmb / Ultra-FineWeb-L3

从高质量网页语料精炼的结构化训练数据,含推理信号与教育风格

10.59亿行 · 1.9 TB

  • 文本
  • 文本生成
  • apache-2.0 · 可商用
  • 含中文

下载 6.2k · 收藏 87 · 5天前更新

  • py from datasets import load_dataset ds = load_dataset("openbmb/Ultra-FineWeb-L3")

jasperai / monet

大规模精选图文对数据集,用于训练文生图系统

1.05亿行 · 136.1 TB

  • 多模态
  • 文生图
  • image-feature-extraction
  • zero-shot-image-classification
  • apache-2.0 · 可商用

下载 245k · 收藏 39 · 5天前更新

← 前一日 2026-05-28 · 后一日 2026-05-30 →