数据集 / 归档 / 2026-05-23

2026-05-23 数据集 (8)

wikimedia / structured-wikipedia

英语和法语维基百科的结构化文章数据

1046.9万行 · 74.3 GB

  • 文本
  • cc-by-sa-4.0 · 可商用

下载 2.5k · 收藏 127 · 14天前更新

  • py from datasets import load_dataset ds = load_dataset("wikimedia/structured-wikipedia")

LukaDev13 / Liminal-Dreamcore-1K

AI生成的Dreamcore风格图像集合

0 行 · 359 MB

  • 图像
  • mit · 可商用

下载 2.4k · 收藏 18 · 15天前更新

zhifeixie / Voices-in-the-Wild-2M

多声学条件下的自动语音识别数据

58.2万行 · 177.4 GB

  • 音频
  • 语音识别
  • 含中文

下载 5.1k · 收藏 17 · 14天前更新

FreedomIntelligence / medical-o1-reasoning-SFT

基于医学可验证问题的推理链SFT数据

9.0万行 · 680 MB

  • 文本
  • 问答
  • 文本生成
  • apache-2.0 · 可商用
  • 含中文

下载 5.9k · 收藏 1.1k · 1年前更新

  • py from datasets import load_dataset ds = load_dataset("FreedomIntelligence/medical-o1-reasoning-SFT")

HuggingFaceFW / fineweb-edu

从网络过滤出的教育类网页文本数据

34.97亿行 · 6.2 TB

  • 多模态
  • 文本生成
  • odc-by · 可商用

下载 616k · 收藏 1.1k · 10个月前更新

  • py from datasets import load_dataset ds = load_dataset("HuggingFaceFW/fineweb-edu")

gsdf / EasyNegative

Stable Diffusion的负面嵌入

3 行 · 3.9 GB

  • 图像
  • other · 待核

下载 25k · 收藏 1.2k · 3年前更新

  • py from datasets import load_dataset ds = load_dataset("gsdf/EasyNegative")

togethercomputer / RedPajama-Data-1T

LLaMa数据集的完全开源复现

172.6万行 · 39.5 GB

  • 文本
  • 文本生成

下载 2.2k · 收藏 1.2k · 1年前更新

  • py from datasets import load_dataset ds = load_dataset("togethercomputer/RedPajama-Data-1T")

wikimedia / wikipedia

多语言维基百科清洗后的完整文章

6161.5万行 · 1.4 TB

  • 文本
  • 文本生成
  • 掩码填充
  • cc-by-sa-3.0 · 可商用
  • 含中文

下载 266k · 收藏 1.2k · 2年前更新

  • py from datasets import load_dataset ds = load_dataset("wikimedia/wikipedia")

← 前一日 2026-05-22 · 后一日 2026-05-24 →