HuggingFace

最近 13 天 · 共 52 个数据集

数据集
2026-06-03

Qwen / Qwen-Image-Bench

面向创作者的文生图模型评估基准,覆盖语义对齐之外的能力

1,000 行 · 18.9 GB

  • 多模态
  • 图像描述
  • apache-2.0 · 可商用
  • 含中文

下载 11k · 收藏 13 · 5天前更新

  • py from datasets import load_dataset ds = load_dataset("Qwen/Qwen-Image-Bench")

OpenClaw / clawhub-security-signals

公开的OpenClaw代理技能安全信号数据集,记录信任与来源评估证据

6.7万行 · 1.7 GB

  • 多模态
  • 文本分类
  • mit · 可商用

下载 84 · 收藏 14 · 1天前更新

  • py from datasets import load_dataset ds = load_dataset("OpenClaw/clawhub-security-signals")
2026-06-02

ReasonCore / open-spatial-reasoning

从单张驾驶图像测试模型3D空间推理能力的多项选择问答数据集

50 行 · 21 MB

  • 多模态
  • multiple-choice
  • cc-by-4.0 · 可商用

下载 108 · 收藏 33 · 1天前更新

  • py from datasets import load_dataset ds = load_dataset("ReasonCore/open-spatial-reasoning")

VCLab-PolyU / GGT-100K

真实世界低质量与高质量图像对,用于图像恢复的生成式基准

0 行 · 383.1 GB

  • cc-by-nc-nd-4.0 · 非商用

下载 156 · 收藏 15 · 1天前更新

2026-05-31

KRAFTON / Raon-OpenTTS-Pool

多个公开英语语音语料库聚合而成的TTS训练数据集

8.46亿行 · 19.7 TB

  • 多模态
  • 语音合成
  • other · 待核

下载 10k · 收藏 25 · 12天前更新

  • py from datasets import load_dataset ds = load_dataset("KRAFTON/Raon-OpenTTS-Pool")
2026-05-30

amphora / ResearchMath-14k

从学术论文与问题列表中提取的研究级数学问题

1.4万行 · 72 MB

  • 文本
  • 文本生成
  • 问答
  • mit · 可商用

下载 302 · 收藏 18 · 5天前更新

  • py from datasets import load_dataset ds = load_dataset("amphora/ResearchMath-14k")
2026-05-29

openbmb / Ultra-FineWeb-L3

从高质量网页语料精炼的结构化训练数据,含推理信号与教育风格

10.59亿行 · 1.9 TB

  • 文本
  • 文本生成
  • apache-2.0 · 可商用
  • 含中文

下载 6.2k · 收藏 87 · 5天前更新

  • py from datasets import load_dataset ds = load_dataset("openbmb/Ultra-FineWeb-L3")

jasperai / monet

大规模精选图文对数据集,用于训练文生图系统

1.05亿行 · 136.1 TB

  • 多模态
  • 文生图
  • image-feature-extraction
  • zero-shot-image-classification
  • apache-2.0 · 可商用

下载 245k · 收藏 39 · 5天前更新

2026-05-28

Jackrong / Claude-opus-4.7-TraceInversion-5000x

从Claude opus 4.7通过Trace Inversion蒸馏的思维链推理数据集。

4,761 行 · 241 MB

  • 文本
  • 文本生成
  • apache-2.0 · 可商用
  • 含中文

下载 343 · 收藏 18 · 14天前更新

  • py from datasets import load_dataset ds = load_dataset("Jackrong/Claude-opus-4.7-TraceInversion-5000x")
2026-05-26

Jackrong / Claude-opus-4.6-TraceInversion-9000x

通过Trace Inversion重构的Claude 4.6思维链数据

8,669 行 · 152 MB

  • 文本
  • 文本生成
  • apache-2.0 · 可商用
  • 含中文

下载 348 · 收藏 16 · 14天前更新

  • py from datasets import load_dataset ds = load_dataset("Jackrong/Claude-opus-4.6-TraceInversion-9000x")

Kwai-Klear / GoLongRL

面向长上下文语言模型的强化学习训练数据,含9种奖励函数

2.3万行 · 2.7 GB

  • 文本

下载 484 · 收藏 16 · 12天前更新

  • py from datasets import load_dataset ds = load_dataset("Kwai-Klear/GoLongRL")

zhen-nan / L2P-dataset

基于潜在到像素迁移的像素空间扩散数据

6.3万行 · 28.0 GB

  • 多模态
  • apache-2.0 · 可商用

下载 78 · 收藏 18 · 11天前更新

  • py from datasets import load_dataset ds = load_dataset("zhen-nan/L2P-dataset")
2026-05-25

armand0e / qwen3.7-max-pi-traces

Qwen3.7-max模型生成的智能体轨迹数据

47 行 · 10 MB

  • 多模态
  • 文本生成

下载 191 · 收藏 21 · 10天前更新

  • py from datasets import load_dataset ds = load_dataset("armand0e/qwen3.7-max-pi-traces")
2026-05-24

Nerfgun3 / bad_prompt

用于Stable Diffusion的负向提示嵌入向量。

1 行 · 14 MB

  • 图像
  • creativeml-openrail-m · 可商用

下载 2.6k · 收藏 942 · 3年前更新

  • py from datasets import load_dataset ds = load_dataset("Nerfgun3/bad_prompt")

allenai / dolma

包含3万亿token的英文语料,用于语言模型预训练研究。

6.1 TB

  • >1T
  • 文本生成
  • odc-by · 可商用

下载 4.8k · 收藏 1.0k · 2年前更新

databricks / databricks-dolly-15k

Databricks员工生成的指令跟随数据,覆盖多种任务类别。

1.5万行 · 267 MB

  • 文本
  • 问答
  • 摘要
  • cc-by-sa-3.0 · 可商用

下载 34k · 收藏 971 · 2年前更新

  • py from datasets import load_dataset ds = load_dataset("databricks/databricks-dolly-15k")

roneneldan / TinyStories

由GPT-3.5/4生成的短篇故事,词汇量小。

214.2万行 · 17.3 GB

  • 文本
  • 文本生成
  • cdla-sharing-1.0 · 可商用

下载 89k · 收藏 992 · 1年前更新

  • py from datasets import load_dataset ds = load_dataset("roneneldan/TinyStories")

tatsu-lab / alpaca

由OpenAI text-davinci-003生成的指令和演示数据。

5.2万行 · 319 MB

  • 文本
  • 文本生成
  • cc-by-nc-4.0 · 非商用

下载 108k · 收藏 968 · 3年前更新

  • py from datasets import load_dataset ds = load_dataset("tatsu-lab/alpaca")

tiiuae / falcon-refinedweb

从CommonCrawl过滤去重得到的大型英文网页数据集。

9.68亿行 · 1.7 TB

  • 文本
  • 文本生成
  • odc-by · 可商用

下载 22k · 收藏 914 · 2年前更新

  • py from datasets import load_dataset ds = load_dataset("tiiuae/falcon-refinedweb")
2026-05-23

wikimedia / structured-wikipedia

英语和法语维基百科的结构化文章数据

1046.9万行 · 74.3 GB

  • 文本
  • cc-by-sa-4.0 · 可商用

下载 2.5k · 收藏 127 · 14天前更新

  • py from datasets import load_dataset ds = load_dataset("wikimedia/structured-wikipedia")

FreedomIntelligence / medical-o1-reasoning-SFT

基于医学可验证问题的推理链SFT数据

9.0万行 · 680 MB

  • 文本
  • 问答
  • 文本生成
  • apache-2.0 · 可商用
  • 含中文

下载 5.9k · 收藏 1.1k · 1年前更新

  • py from datasets import load_dataset ds = load_dataset("FreedomIntelligence/medical-o1-reasoning-SFT")

HuggingFaceFW / fineweb-edu

从网络过滤出的教育类网页文本数据

34.97亿行 · 6.2 TB

  • 多模态
  • 文本生成
  • odc-by · 可商用

下载 616k · 收藏 1.1k · 10个月前更新

  • py from datasets import load_dataset ds = load_dataset("HuggingFaceFW/fineweb-edu")

gsdf / EasyNegative

Stable Diffusion的负面嵌入

3 行 · 3.9 GB

  • 图像
  • other · 待核

下载 25k · 收藏 1.2k · 3年前更新

  • py from datasets import load_dataset ds = load_dataset("gsdf/EasyNegative")

togethercomputer / RedPajama-Data-1T

LLaMa数据集的完全开源复现

172.6万行 · 39.5 GB

  • 文本
  • 文本生成

下载 2.2k · 收藏 1.2k · 1年前更新

  • py from datasets import load_dataset ds = load_dataset("togethercomputer/RedPajama-Data-1T")

wikimedia / wikipedia

多语言维基百科清洗后的完整文章

6161.5万行 · 1.4 TB

  • 文本
  • 文本生成
  • 掩码填充
  • cc-by-sa-3.0 · 可商用
  • 含中文

下载 266k · 收藏 1.2k · 2年前更新

  • py from datasets import load_dataset ds = load_dataset("wikimedia/wikipedia")
2026-05-22

actava / chi-bench

美国医疗工作流的AI智能体基准测试,覆盖三个长期域。

101 行 · 929 KB

  • 多模态
  • 文本生成
  • apache-2.0 · 可商用

下载 1.2k · 收藏 25 · 12天前更新

  • py from datasets import load_dataset ds = load_dataset("actava/chi-bench")

HuggingFaceFW / fineweb

从CommonCrawl清洗去重的英文网页文本数据集。

524.54亿行 · 117.4 TB

  • 多模态
  • 文本生成
  • odc-by · 可商用

下载 970k · 收藏 2.8k · 10个月前更新

GD-ML / TransitLM

中国四城市公共交通路线规划数据集,含坐标与换乘结构。

15.0万行 · 53.0 GB

  • 多模态
  • 文本生成
  • cc-by-nc-4.0 · 非商用
  • 含中文

下载 522 · 收藏 17 · 20天前更新

  • py from datasets import load_dataset ds = load_dataset("GD-ML/TransitLM")

HuggingFaceBio / carbon-pretraining-corpus

DNA和RNA序列的基因组预训练语料,覆盖真核与原核物种。

1.80亿行 · 1.3 TB

  • 多模态
  • 文本生成
  • other · 待核

下载 2.9k · 收藏 17 · 19天前更新

  • py from datasets import load_dataset ds = load_dataset("HuggingFaceBio/carbon-pretraining-corpus")

Anthropic / hh-rlhf

人类对有用性和无害性的偏好数据,用于RLHF训练。

16.9万行 · 4.1 GB

  • 文本
  • mit · 可商用

下载 38k · 收藏 1.7k · 3年前更新

  • py from datasets import load_dataset ds = load_dataset("Anthropic/hh-rlhf")

Open-Orca / OpenOrca

增强的FLAN数据集,用于训练对话模型。

294.2万行 · 63.5 GB

  • 文本
  • 文本分类
  • 序列标注
  • 表格问答
  • mit · 可商用

下载 50k · 收藏 1.5k · 1年前更新

  • py from datasets import load_dataset ds = load_dataset("Open-Orca/OpenOrca")

OpenAssistant / oasst1

35种语言的人类助手对话语料,含质量评分。

8.9万行 · 1.6 GB

  • 多模态
  • apache-2.0 · 可商用
  • 含中文

下载 24k · 收藏 1.5k · 3年前更新

  • py from datasets import load_dataset ds = load_dataset("OpenAssistant/oasst1")

fka / prompts.chat

社区分享的AI提示词数据集。

1,823 行 · 29 MB

  • 文本
  • 问答
  • 文本生成
  • cc0-1.0 · 可商用

下载 53k · 收藏 9.7k · 12天前更新

  • py from datasets import load_dataset ds = load_dataset("fka/prompts.chat")
2026-05-21

Jackrong / GLM-5.1-Reasoning-1M-Cleaned

GLM-5.1生成的推理数据,覆盖科学、多语言STEM和数学四个子集。

57.2万行 · 44.2 GB

  • 文本
  • 文本生成
  • 问答
  • apache-2.0 · 可商用
  • 含中文

下载 12k · 收藏 216 · 1个月前更新

  • py from datasets import load_dataset ds = load_dataset("Jackrong/GLM-5.1-Reasoning-1M-Cleaned")

Modotte / CodeX-2M-Thinking

合成生成的代码思考数据集,用于模型微调。

219.0万行 · 24.4 GB

  • 文本
  • 文本生成
  • 问答
  • apache-2.0 · 可商用

下载 5.9k · 收藏 101 · 3个月前更新

  • py from datasets import load_dataset ds = load_dataset("Modotte/CodeX-2M-Thinking")

alibaba-multimodal-industrial-ai / IndustryBench

多语言工业领域知识基准,覆盖12个工业领域,中英俄越四种语言。

2,049 行 · 25 MB

  • 文本
  • 问答
  • 文本生成
  • mit · 可商用
  • 含中文

下载 181 · 收藏 26 · 20天前更新

  • py from datasets import load_dataset ds = load_dataset("alibaba-multimodal-industrial-ai/IndustryBench")

openai / gsm8k

小学数学应用题,需要多步算术推理。

1.8万行 · 12 MB

  • 文本
  • 文本生成
  • mit · 可商用

下载 946k · 收藏 1.3k · 2个月前更新

  • py from datasets import load_dataset ds = load_dataset("openai/gsm8k")

5551z / VisCoR-55K

视觉推理数据集,涵盖通用、推理、数学、图表和OCR五类。

5.5万行 · 8.1 GB

  • 多模态

下载 376 · 收藏 38 · 1个月前更新

  • py from datasets import load_dataset ds = load_dataset("5551z/VisCoR-55K")

blanchon / opencs2_dataset

Counter-Strike 2玩家第一人称视角训练片段,1280x720视频。

68.6万行 · 10.6 TB

  • 多模态
  • 视频分类
  • 强化学习
  • other
  • cc-by-4.0 · 可商用

下载 22k · 收藏 24 · 29天前更新

  • py from datasets import load_dataset ds = load_dataset("blanchon/opencs2_dataset")

ADSKAILab / Zero-To-CAD-1m

合成生成的CAD程序构建序列,可执行且可解释。

100.0万行 · 349.1 GB

  • 多模态
  • text-to-3d
  • image-to-3d
  • apache-2.0 · 可商用

下载 26k · 收藏 116 · 1个月前更新

  • py from datasets import load_dataset ds = load_dataset("ADSKAILab/Zero-To-CAD-1m")

ShadenA / MathNet

多国数学竞赛问题数据集,包含多个国家的题目。

5.6万行 · 738 MB

  • 多模态
  • 问答
  • 文本生成
  • 图像描述
  • cc-by-4.0 · 可商用
  • 含中文

下载 23k · 收藏 80 · 1个月前更新

  • py from datasets import load_dataset ds = load_dataset("ShadenA/MathNet")
2026-05-20

PsiBotAI / SynData

涵盖视觉、语言和动作的多模态人类数据,用于具身智能训练。

44.9万行 · 29.4 TB

  • 多模态
  • cc-by-4.0 · 可商用

下载 36k · 收藏 146 · 14天前更新

  • py from datasets import load_dataset ds = load_dataset("PsiBotAI/SynData")

AlienKevin / SWE-ZERO-12M-trajectories

编码智能体轨迹数据,覆盖16种编程语言和3K个仓库。

1229.1万行 · 199.4 GB

  • 文本
  • 文本生成
  • apache-2.0 · 可商用

下载 7.6k · 收藏 85 · 18天前更新

  • py from datasets import load_dataset ds = load_dataset("AlienKevin/SWE-ZERO-12M-trajectories")

angrygiraffe / claude-opus-4.6-4.7-reasoning-8.7k

Claude生成的合成思维链推理数据。

495 MB

  • 文本
  • 10K–100K
  • 文本生成
  • 问答
  • apache-2.0 · 可商用

下载 3.2k · 收藏 147 · 1个月前更新

  • py from datasets import load_dataset ds = load_dataset("angrygiraffe/claude-opus-4.6-4.7-reasoning-8.7k")

TuringEnterprises / Open-MM-RL

多模态STEM推理数据,涵盖物理、数学、生物和化学。

40 行 · 62 MB

  • 多模态
  • 问答
  • mit · 可商用

下载 8.2k · 收藏 121 · 20天前更新

  • py from datasets import load_dataset ds = load_dataset("TuringEnterprises/Open-MM-RL")

open-thoughts / AgentTrove

开源智能体交互轨迹集合,覆盖代码修复、Shell脚本、数学求解等任务。

169.7万行 · 19.6 GB

  • 文本
  • 文本生成
  • apache-2.0 · 可商用

下载 10k · 收藏 146 · 26天前更新

  • py from datasets import load_dataset ds = load_dataset("open-thoughts/AgentTrove")

Qwen / WebWorldData

从真实网页收集的浏览器交互轨迹数据。

46.3万行 · 57.2 GB

  • 文本
  • 文本生成
  • apache-2.0 · 可商用
  • 含中文

下载 604 · 收藏 41 · 25天前更新

  • py from datasets import load_dataset ds = load_dataset("Qwen/WebWorldData")

TeichAI / DeepSeek-v4-Pro-Agent

DeepSeek-v4-Pro生成的原始智能体轨迹文件。

4,006 行 · 286 MB

  • 多模态

下载 2.5k · 收藏 35 · 21天前更新

  • py from datasets import load_dataset ds = load_dataset("TeichAI/DeepSeek-v4-Pro-Agent")

lambda / hermes-agent-reasoning-traces

多轮工具调用轨迹,包含逐步推理和真实工具执行结果。

1.5万行 · 2.2 GB

  • 文本
  • 文本生成
  • apache-2.0 · 可商用

下载 7.4k · 收藏 325 · 1个月前更新

  • py from datasets import load_dataset ds = load_dataset("lambda/hermes-agent-reasoning-traces")

查看全部数据集归档 →