数据集 · SummFlow

2026-07-21

MCG-NJU / VideoChat3-Academic2M

学术视频指令数据，用于视频字幕、问答和动作理解

1.9万行 · 173.1 GB

文本
video-text-to-text
apache-2.0 · 可商用

下载 2.0k · 收藏 20 · 1天前更新

py from datasets import load_dataset ds = load_dataset("MCG-NJU/VideoChat3-Academic2M")

HuggingFaceFW / fineweb

从CommonCrawl清洗去重后的英文网页文本数据集

524.54亿行 · 117.4 TB

多模态
文本生成
odc-by · 可商用

下载 626k · 收藏 3.0k · 1年前更新

社区实测

大规模网页预训练语料（15 万亿 token），在同等规模数据集中表现领先

提供 15 万亿 token 的高质量网页预训练语料，在同类规模中表现领先
FineWeb-Edu 子集提供 1.3 万亿 token 教育类高质量内容，满足对内容质量要求更高的预训练场景

原始数据源自 Common Crawl，需经过大量过滤清洗才能达到可用质量

来源

FineWeb: decanting the web for the finest text data at scale FineWeb-Edu: How to Make a Very High-Quality Dataset to Pre-train ...lmmx/bbcfw: Exploring the BBC News subset of the FineWeb dataset ...

截至 2026-06-20

codeparrot / github-code

来自GitHub的代码文件，覆盖32种编程语言

669.9 GB

文本生成
other · 待核

下载 5.7M · 收藏 406 · 3年前更新

Anthropic / hh-rlhf

人类偏好数据，用于训练帮助性和无害性奖励模型

16.9万行 · 4.1 GB

文本
mit · 可商用

下载 32k · 收藏 1.8k · 3年前更新

社区实测

作为 RLHF 早期开源基准被广泛引用,但社区实际使用中发现标注质量参差不齐,部分样本的偏好标签存在明显错误。

提供大规模人类偏好数据用于安全对齐(safety-focused alignment)训练
数据格式简单(每行一对 chosen/rejected 文本),可直接用于偏好模型训练
提供 train/test 划分,方便复现评估

标注存在噪声:部分样本中 rejected 回复质量实际优于 chosen 回复,可能是人工标注失误所致

来源

GitHub - anthropics/hh-rlhf RLHF-Aligned Open LLMs: A Comparative Survey - Preprints.org Anthropic RLHF Dataset: Human Preference Data (+ errors I found)

截至 2026-06-20

py from datasets import load_dataset ds = load_dataset("Anthropic/hh-rlhf")

Open-Orca / OpenOrca

增强的FLAN指令数据集，用于对齐训练

294.2万行 · 63.5 GB

文本
文本分类
序列标注
表格问答
mit · 可商用

下载 17k · 收藏 1.6k · 1年前更新

社区实测

OpenOrca 是微软 Orca 论文思路的开源复现,用 GPT-4 生成指令数据训练小模型,社区反馈模型能力有提升但会「以为自己是 ChatGPT」。

提供了一套可公开获取的 GPT-4 质量指令微调数据,降低复现 Orca 方法的门槛
使较小参数量的开源模型在推理任务上获得可感知的提升
作为基座数据与其他模型(如 Platypus2、OpenChat)合并后能产生优于各自单独使用的效果

用该数据集训练的模型可能产生身份混淆,自称 ChatGPT 或表现出「妄想」行为

来源

Open Orca Dataset Released! : r/LocalLLaMA - Reddit Just tried Mistral-7B-OpenOrca-GGUF. It's impressive - Hacker News Open-Orca-Platypus is out! a 13b that surpasses llama65b!? - Reddit

截至 2026-06-20

py from datasets import load_dataset ds = load_dataset("Open-Orca/OpenOrca")

OpenAssistant / oasst1

多语言人类助手对话数据集，包含质量评分

8.9万行 · 398 MB

多模态
apache-2.0 · 可商用
含中文

下载 18k · 收藏 1.6k · 3年前更新

社区实测

社区众包收集的大规模对话数据集，带有人工质量/毒性/创意等多维标注，但项目已于2023年10月终止，被oasst2取代。

提供了带人工多维标注（质量、毒性、幽默、创意等）的大规模开源对话数据
可在自有硬件上运行基于该数据集训练的模型

2023年4月发布的版本过滤了'不安全'内容，非原始完整采集数据
基于LLaMA的模型存在许可证问题，需通过XOR方式分发
项目已于2023年10月终止，被oasst2取代
LLaMA模型权重文件曾出现全为零的情况

来源

OpenAssistant/oasst1 · Datasets at Hugging Face It was fully released, no? https://huggingface.co/datasets ...OpenAssistant RELEASED! The world's best open-source Chat AI!

截至 2026-06-20

已被取代 oasst2 · oasst1 为 2023 年 4 月的中期快照，oasst2 为数据收集结束后的最终版本

py from datasets import load_dataset ds = load_dataset("OpenAssistant/oasst1")

fka / prompts.chat

AI提示词（prompts）的社交平台镜像数据集

2,049 行 · 29 MB

文本
问答
文本生成
cc0-1.0 · 可商用

下载 32k · 收藏 9.8k · 今天更新

社区实测

由 awesome-chatgpt-prompts 演进而来的开源提示词集合,社区视其为从静态列表升级为可自托管工具的延续

提供免费、开源、可自托管的提示词收集与分享工具
以 Hugging Face 数据集形式提供,便于程序化访问与集成
从原有 awesome-chatgpt-prompts 仓库升级为端到端工具

提示词内容存在持续增删维护,部分旧提示词被移除或改写,稳定性一般

来源

GitHub - f/prompts.chat: f.k.a. Awesome ChatGPT Prompts. Share, discover, and collect prompts from the community. Free and open source — self-host for your organization with complete privacy. · GitHub prompts.chat: Free and Open Source Prompt Collection Tool - Reddit fka/prompts.chat · Datasets at Hugging Face Update prompts.csv · fka/prompts.chat at 25a2a44

截至 2026-06-20

py from datasets import load_dataset ds = load_dataset("fka/prompts.chat")

2026-07-20

openai / gsm8k

小学数学应用题，需多步算术推理。

1.8万行 · 12 MB

文本
文本生成
mit · 可商用

下载 926k · 收藏 1.4k · 3个月前更新

社区实测

GSM8K 是多步算术推理评测的事实标准之一，被主流实验室广泛采用，但原始的结果导向评分方式对推理过程质量的区分度有限。

提供 2-8 步算术推理的标准化评测基准，被 Google PaLM、Chain of Thought 等研究采用
自由形式数值答案 + 精确匹配评分，便于跨模型和跨提示策略的误差诊断与对比
支持思维链和工具辅助数学能力的评测

原始评测以最终答案正确与否为准，可能忽略推理过程的质量差异
模型在纯推理场景下算术准确性不足，需借助计算器注入才能稳定完成计算

来源

GitHub - openai/grade-school-math How Surge AI Built OpenAI's GSM8K Dataset of 8,500 Math Problems GSM8K - Epoch AI MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation

截至 2026-06-20

py from datasets import load_dataset ds = load_dataset("openai/gsm8k")

2026-07-18

markov-ai / gaming-500-hours

168款游戏的PC/主机屏幕录制，仅保留操作和菜单等游戏内内容

776 行 · 1.6 TB

多模态

下载 29k · 收藏 176 · 20天前更新

py from datasets import load_dataset ds = load_dataset("markov-ai/gaming-500-hours")

schema-harness / arc-agi-3-schema-traces

ARC-AGI-3推理任务的AI模型行为轨迹与事件日志

50 行 · 417 MB

多模态

下载 0 · 收藏 16 · 4天前更新

py from datasets import load_dataset ds = load_dataset("schema-harness/arc-agi-3-schema-traces")

2026-07-17

nvidia / Open-SWE-Traces

软件工程智能体指令微调的agent轨迹数据集

20.7万行 · 165.5 GB

文本
cc-by-4.0 · 可商用

下载 8.0k · 收藏 53 · 4天前更新

py from datasets import load_dataset ds = load_dataset("nvidia/Open-SWE-Traces")

2026-07-16

Manusagents / GPT-5.5-Gemini-3.1-Pro-Grok-4-Claude-Fable-5-Mythos-5-Qwen-3.7-Max-and-more-Distillation-Dataset

多来源开源蒸馏数据集，涵盖代码、教学等8类内容

1851.2万行 · 87.5 GB

文本
文本生成
other
mit · 可商用

下载 4.5k · 收藏 17 · 13天前更新

py from datasets import load_dataset ds = load_dataset("Manusagents/GPT-5.5-Gemini-3.1-Pro-Grok-4-Claude-Fable-5-Mythos-5-Qwen-3.7-Max-and-more-Distillation-Dataset")

2026-07-15

SupraLabs / reasoning-corpus-4K-5M-v1

来自DeepSeek、Qwen等模型的推理链，用于训练小语言模型

71.1 GB

文本
1M–10M
文本生成
apache-2.0 · 可商用

下载 95 · 收藏 13 · 10天前更新

py from datasets import load_dataset ds = load_dataset("SupraLabs/reasoning-corpus-4K-5M-v1")

2026-07-14

Glint-Research / Fable-5-traces

Fable 5 编程智能体轨迹数据，用于策略学习与推理动作蒸馏

4,665 行 · 84 MB

多模态
文本生成
agpl-3.0 · 可商用

下载 74k · 收藏 604 · 21天前更新

社区实测

唯一公开捕获了 Fable-5 绕过反蒸馏分类器的思维链痕迹的数据集，但仅覆盖约 4 天窗口期的 4659 条编码轨迹，规模有限。

提供了唯一一份绕过 Fable-5 API 端反蒸馏分类器的明文思维链编码轨迹
支撑了从 Fable-5 向 Qwen3.6 的知识蒸馏（Qwable-v1），单卡 H200 约 14 小时完成
捕获了 SWE-bench Pro 80.3% 水平模型的 agentic coding 行为样本

源模型因美国出口管制指令被全球暂停，数据集衍生物可能面临监管与合规风险
反蒸馏分类器在 API 端实时删减思维块，数据集仅包含漏网之鱼，存在选择性偏差
仅 4659 条轨迹，覆盖窗口约 4 天，规模与多样性有限，且源模型定价 $50/M output tokens，用户群体可能存在偏差

来源

Claude Fable 5 distilled : r/LocalLLM Claude Fable 5 distilled : r/LocalLLaMA Claude Fable 5 distilled : r/LLMDevs

截至 2026-06-20

py from datasets import load_dataset ds = load_dataset("Glint-Research/Fable-5-traces")

armand0e / claude-fable-5-claude-code

Claude Fable 5 智能体原始轨迹，与 Fable-5-traces 内容相同

63 行 · 103 MB

多模态
文本生成

下载 18k · 收藏 305 · 1个月前更新

社区实测

社区普遍认为 Fable 5 在编程任务上仅处于中游水平，并非 Anthropic 所宣传的颠覆性突破。

在部分网络安全任务上相比前代模型有所提升

生成速度慢
会生成不安全的代码
安全护栏容易被绕过
存在基准测试刷分嫌疑（被社区称为 shameless cheater）

来源

Claude Fable 5: mid-tier results on coding tasks : r/hackernews Claude Fable 5 it's slow, generates insecure code, its guardrails are easily bypassed and is a shameless cheater. : r/theprimeagen Claude Fable 5 | Hacker News

截至 2026-06-20

py from datasets import load_dataset ds = load_dataset("armand0e/claude-fable-5-claude-code")

openbmb / UltraX-Preview

UltraX 函数调用精炼框架的预览数据集，用于预训练数据自适应编辑

486.9 GB

文本
100M–1B
文本生成
apache-2.0 · 可商用

下载 651 · 收藏 22 · 8天前更新

py from datasets import load_dataset ds = load_dataset("openbmb/UltraX-Preview")

scholarweave / arxiv-latex

arXiv 论文 LaTeX 源文件全量语料，预处理格式化为 Parquet

305.9万行 · 485.5 GB

文本
文本生成
特征提取
other · 待核

下载 33k · 收藏 72 · 7天前更新

py from datasets import load_dataset ds = load_dataset("scholarweave/arxiv-latex")

2026-07-13

AlicanKiraz0 / Turkce-Atlas-Instruct

土耳其语的指令微调对话数据

33.6万行 · 992 MB

文本
文本生成
问答
摘要
mit · 可商用

下载 4 · 收藏 15 · 8天前更新

py from datasets import load_dataset ds = load_dataset("AlicanKiraz0/Turkce-Atlas-Instruct")

AletheiaResearch / GLM-5.2-Agent

GLM-5.2生成的Agent跟踪数据，含工具模式

319 行 · 141 MB

多模态
文本生成

下载 2.6k · 收藏 40 · 19天前更新

py from datasets import load_dataset ds = load_dataset("AletheiaResearch/GLM-5.2-Agent")

2026-07-12

SupraLabs / reasoning-summaries-61k

将长推理链转化为简短摘要的数据集

6.1万行 · 274 MB

文本
摘要
文本生成
apache-2.0 · 可商用

下载 168 · 收藏 15 · 15天前更新

py from datasets import load_dataset ds = load_dataset("SupraLabs/reasoning-summaries-61k")

2026-07-11

netflix / Vera-Layered-Video-Dataset

用于分层扩散视频编辑的内容保持视频数据集

9.0万行 · 220.6 GB

视频
文生视频
apache-2.0 · 可商用

下载 12k · 收藏 20 · 21天前更新

Qwen / AgentWorldBench

基于真实环境轨迹的语言世界模型评估基准

2,170 行 · 402 MB

多模态
文本生成
apache-2.0 · 可商用

下载 2.2k · 收藏 76 · 16天前更新

py from datasets import load_dataset ds = load_dataset("Qwen/AgentWorldBench")

sensenova / SenseNova-Vision-Corpus-50M

用于统一视觉理解与几何任务的大规模多模态视觉语料

900 行 · 8.8 TB

多模态
any-to-any
cc-by-nc-4.0 · 非商用

下载 1.8k · 收藏 14 · 10天前更新

py from datasets import load_dataset ds = load_dataset("sensenova/SenseNova-Vision-Corpus-50M")

2026-07-10

IlyaGusev / habr

俄罗斯IT博客habr.com的帖子与评论数据

30.2万行 · 10.8 GB

多模态
文本生成

下载 528 · 收藏 72 · 3个月前更新

py from datasets import load_dataset ds = load_dataset("IlyaGusev/habr")

Crownelius / Complete-FABLE.5-traces-2M

基于FABLE.5/Claude的推理轨迹数据，经来源清理

5.1万行 · 12.6 GB

多模态
文本生成
mit · 可商用

下载 7.5k · 收藏 87 · 13天前更新

py from datasets import load_dataset ds = load_dataset("Crownelius/Complete-FABLE.5-traces-2M")

ProCreations / grug-think

使用grug简短思考风格的Agent对话数据

10.1万行 · 4.4 GB

文本
文本生成
apache-2.0 · 可商用

下载 301 · 收藏 15 · 11天前更新

py from datasets import load_dataset ds = load_dataset("ProCreations/grug-think")

ASLP-lab / WSC-Train

大规模四川话语料，带丰富标注的语音数据集

0 行 · 3.3 GB

apache-2.0 · 可商用

下载 432 · 收藏 142 · 13天前更新

2026-07-09

CMRobot / MotionDecode

千小时高精度光学动捕数据，覆盖多场景多任务与物体6D位姿

0 行 · 55.9 GB

下载 1.2k · 收藏 16 · 13天前更新

Syn4D / Syn4D

合成4D多视角视频、深度与物体跟踪数据集

1.7 TB

cc-by-4.0 · 可商用

下载 14k · 收藏 11 · 12天前更新

2026-07-08

LiquidAI / antidoom-mix-v1.0

面向antidoom风格生成和偏好数据的仅提示训练混合

0 行 · -5327512480 B

文本生成
apache-2.0 · 可商用

下载 86 · 收藏 23 · 13天前更新

ruggsea / infini-news-corpus

从Common Crawl CC-News提取的多语言新闻语料

13.57亿行 · 3.6 TB

多模态
文本生成
文本分类
text-retrieval
cc-by-4.0 · 可商用
含中文

下载 30k · 收藏 18 · 19天前更新

Nerfgun3 / bad_prompt

用于负面提示的文本嵌入/嵌入文件

1 行 · 14 MB

图像
creativeml-openrail-m · 可商用

下载 1.7k · 收藏 952 · 3年前更新

社区实测

能简化负面提示词编写并提升画质，但会显著改变画面艺术风格，使用前需权衡。

将负面提示词统一为单个嵌入词，简化负面提示编写
提升图像质量

会完全改变画面艺术风格，非纯质量增强型嵌入
文件名与触发词命名存在混淆（bad_prompt_v2 与 bad_prompt_version2）

来源

Nerfgun3/bad_prompt · Datasets at Hugging Face Nerfgun3/bad_prompt · Confuse: What's the right prompt I should use?New Negative Embedding ~ negative_hand : r/StableDiffusion

截至 2026-06-20

py from datasets import load_dataset ds = load_dataset("Nerfgun3/bad_prompt")

allenai / dolma

开放语料库，用于语言模型预训练研究

6.1 TB

>1T
文本生成
odc-by · 可商用

下载 4.1k · 收藏 1.1k · 2年前更新

社区实测

Dolma 是当时规模最大的开放预训练语料库，主要服务于 OLMo 模型训练，社区认可其透明度但实际使用中存在工程与合规摩擦。

提供可公开获取、可审计的预训练数据，使研究者能间接研究闭源模型的训练数据构成
覆盖网页、学术文献、代码、书籍、百科等多领域内容

使用 AI2 Impact License 而非标准开放许可
HuggingFace 讨论区有用户标记法律合规问题
v1.7 存在重复文档
已被 Dolma 3 取代，v1.x 不再是最新版本
下载与存储工程门槛高，wget 脚本有覆盖/跳过问题
流式访问报错，开箱体验不稳定

来源

Dolma: An Open Corpus of 3 Trillion Tokens for Language Model ...Ai2 Dolma: 3 trillion token open corpus for language model pretraining Olmo 3: Charting a path through the model flow to lead open-source AI allenai/dolma · Discussions

截至 2026-06-20

已被取代 Dolma 3 Dolmino · Dolma v1 已被 Dolma 3 Dolmino 取代,后者是 OLMo 3 第二阶段退火训练使用的高质量数据池。

databricks / databricks-dolly-15k

由人工生成的指令跟随数据集，覆盖多种任务类型

1.5万行 · 267 MB

文本
问答
摘要
cc-by-sa-3.0 · 可商用

下载 42k · 收藏 995 · 3年前更新

社区实测

首个开放商用许可的人工生成指令数据集，但因规模小(15k条)且存在标注噪声、毒性内容等质量问题，已被更大更干净的数据集替代

提供明确允许商用的开源指令微调数据集许可
以人工众包方式生成指令-回复对，区别于纯合成数据路线

Cleanlab清洗版分析显示原始数据存在毒性评分高达0.99、非英语内容评分达0.91等质量问题
部分回复含时效性事实陈述(如'曼联现任主帅是滕哈格')，已过时
存在空回复(null)条目
社区讨论质疑该数据集当前是否仍有价值

来源

Dolly: Open Instruction-Tuned LLM | Databricks Blog Cleanlab/databricks-dolly-15k-cleanset · Datasets at Hugging Face [D] Databricks Dolly 15k - Creating Synthetic Variants - Reddit

截至 2026-06-20

py from datasets import load_dataset ds = load_dataset("databricks/databricks-dolly-15k")

roneneldan / TinyStories

GPT生成的小词汇表短故事数据集

214.2万行 · 17.3 GB

文本
文本生成
cdla-sharing-1.0 · 可商用

下载 85k · 收藏 1.1k · 1年前更新

社区实测

社区普遍认可其为小模型研究与架构实验的有效基准数据集，尤其适合在消费级硬件上快速验证新想法。

让极小参数模型（低于5M）产出连贯英文文本
让极简架构（单层transformer）也能生成可读故事
为新型架构实验提供低门槛、可在消费级硬件上训练的基准
通过限制词汇量（约1.5k词根）降低语言建模难度

数据集为GPT-3.5/GPT-4合成生成，非真实语料
词汇限定在3-4岁儿童水平，覆盖范围极窄
领域单一（仅儿童故事），泛化能力有限

来源

TinyStories: How Small Can Language Models Be and Still Speak Coherent English | OpenReview The Smallest GPT with Coherent English (by Microsoft) : r/LocalLLaMA roneneldan/TinyStories-33M Free Chat Online - skywork.ai - Skywork For small models this is for sure the way forward ... - Hacker News

截至 2026-06-20

py from datasets import load_dataset ds = load_dataset("roneneldan/TinyStories")

tatsu-lab / alpaca

由OpenAI引擎生成的指令和演示数据集

5.2万行 · 319 MB

文本
文本生成
cc-by-nc-4.0 · 非商用

下载 80k · 收藏 1.0k · 3年前更新

社区实测

早期有影响力的指令微调数据集，全量合成自 Self-Instruct，但因数据质量问题和底层模型许可限制，实际落地使用有限。

提供了可复现的指令微调基线，52K 条合成数据即可让 7B 模型在 Self-Instruct 评测上接近 text-davinci-003
以开源数据集+训练代码的形式降低了指令跟随研究的复现门槛

数据存在明显的拼接/格式错误，部分样本中多条 instruction-response 被错误合并
全量合成数据，生成依赖已弃用的 text-davinci-003，无法用原始方法复现或扩展
基于 LLaMA 权重微调，衍生使用受 LLaMA 原始许可限制，商用需谨慎

来源

Stanford Alpaca GitHub 仓库 AlpacaFarm GitHub 仓库 Hugging Face 数据集页面

截至 2026-06-20

py from datasets import load_dataset ds = load_dataset("tatsu-lab/alpaca")

tiiuae / falcon-refinedweb

过滤和去重后的英文CommonCrawl网页数据集

9.68亿行 · 1.7 TB

文本
文本生成
odc-by · 可商用

下载 15k · 收藏 932 · 3年前更新

社区实测

发布时 Falcon 凭此数据集登顶 Open LLM Leaderboard,证明了大规模过滤去重的纯网页数据路线可行,但 CommonCrawl 快照陈旧,如今已非首选。

Apache 2.0 许可,商用无额外限制
证明经过严格过滤和去重的纯网页数据即可训练出超越精选语料混合物的模型,缓解了高质量语料规模焦虑

CommonCrawl 快照停留在 2013 年,数据时效性远落后于后续网页数据集
仅覆盖英语和法语,多语言场景不可用
原始网页数据中仍混杂 SEO 垃圾页等低质内容
存在常见网页偏差

来源

tiiuae-falcon-7b - AI Model Catalog | Microsoft Foundry Models [2306.01116] The RefinedWeb Dataset for Falcon LLM - ar5iv tiiuae/falcon-refinedweb · Datasets at Hugging Face [N] Abu Dhabi's TTI releases open-source Falcon-7B and -40B LLMs : r/MachineLearning

截至 2026-06-20

py from datasets import load_dataset ds = load_dataset("tiiuae/falcon-refinedweb")

2026-07-07

WithinUsAI / claude_mythos_distilled_25k

模仿Claude Mythos的合成SFT数据集，涵盖网络安全等多个领域。

2.5万行 · 105 MB

文本
apache-2.0 · 可商用

下载 3.9k · 收藏 143 · 2个月前更新

HF 安全扫描标记可疑 · VirusTotal 1/74· 低比例多为数据内含代码触发的误报,查看报告自行判断查看报告

py from datasets import load_dataset ds = load_dataset("WithinUsAI/claude_mythos_distilled_25k")

OpenOneRec / Explorer_LLM_Rec_Competition

包含用户历史行为与内容元数据的跨域推荐数据集。

17.2 GB

下载 18k · 收藏 13 · 19天前更新

wikimedia / wikipedia

维基百科清洗后的文章数据集，覆盖所有语言。

6161.5万行 · 1.4 TB

文本
文本生成
掩码填充
cc-by-sa-3.0 · 可商用
含中文

下载 197k · 收藏 1.3k · 2年前更新

社区实测

Wikipedia 被社区视为不可或缺的公共知识基础设施，界面干净无广告追踪，但面临 AI 摘要导致的流量下滑和偶发的安全事件挑战。

提供无广告、无追踪、无恶意软件的干净信息获取体验
作为免费公共知识资源向所有人开放

曾因恶意用户脚本导致全站只读锁定，存在账户安全与自动化恶意编辑风险
AI 搜索摘要正在减少 Wikipedia 的直接访问流量

来源

[MEGATHREAD] Wikimedia wikis locked / Accounts compromised Wikipedia says traffic is falling due to AI search summaries and social video | Hacker News Opinion on donating to Wikipedia? : r/BuyFromEU Wikipedia/Wikimedia is worth hundreds of dollars per year to me. I ...

截至 2026-06-20

py from datasets import load_dataset ds = load_dataset("wikimedia/wikipedia")

FreedomIntelligence / medical-o1-reasoning-SFT

基于可验证医疗问题的推理链SFT数据集，来自Deepseek-R1蒸馏。

9.0万行 · 680 MB

文本
问答
文本生成
apache-2.0 · 可商用
含中文

下载 11k · 收藏 1.1k · 1年前更新

社区实测

HuatuoGPT-o1 的 SFT 训练数据集，由 GPT-4o 生成的带复杂思维链的医疗问答题，Apache 2.0 许可，社区主要将其用于医疗 LLM 推理能力微调。

医疗推理 SFT 训练数据开源，附带 GPT-4o 生成的复杂思维链(Complex CoT)与答案
Apache 2.0 许可，允许商用
中英双语医疗问答覆盖(en/zh 各约 2 万条)

数据完全由 GPT-4o 合成生成，推理质量与医学准确性受限于生成模型，未经人工校验的合成数据可能包含幻觉或错误推理

来源

HuatuoGPT-o1 GitHub README — SFT Data 说明 Hugging Face Dataset Card — License 与语言标注

截至 2026-06-20

py from datasets import load_dataset ds = load_dataset("FreedomIntelligence/medical-o1-reasoning-SFT")

HuggingFaceFW / fineweb-edu

从FineWeb中筛选的教育类网页数据集，使用LLM分类器。

34.97亿行 · 6.2 TB

多模态
文本生成
odc-by · 可商用

下载 382k · 收藏 1.2k · 1年前更新

社区实测

社区认可其开放透明(脚本完整公开)与教育子集的高质量,认为技术报告为预训练数据构建提供了宝贵参考

预训练数据构建过程不透明:多数大模型厂商不公开数据细节,该数据集完整公开了所有处理脚本
大规模高质量开源预训练数据的获取:15万亿token规模且质量超越同类数据集

来源

FineWeb: Decanting the web for the finest text data at scale | Hacker News FineWeb-Edu: How to Make a Very High-Quality Dataset to Pre-train ...

截至 2026-06-20

py from datasets import load_dataset ds = load_dataset("HuggingFaceFW/fineweb-edu")

gsdf / EasyNegative

用于Stable Diffusion的负面嵌入，基于Counterfeit模型训练。

3 行 · 3.9 GB

图像
other · 待核

下载 19k · 收藏 1.2k · 3年前更新

社区实测

SD 1.5 生态中广泛使用的负向嵌入，对抑制单色、重复图案有效，但与 SDXL/Pony/Illustrious 不兼容且会大幅改变画面风格。

抑制单色、重复图案及怪异输出，减少画面出现灰度化或纹理重复的问题

仅适用于 SD 1.5 模型，与 SDXL、Pony、Illustrious 等模型不兼容，强行使用无效
可能大幅改变画面整体风格，并非所有场景都适合无脑加入

来源

A simple comparison of Easy Negative and Bad Prompt v2 - Reddit I can't figure out why my easynegative embedding isn't working easynegative changes styles too much : r/StableDiffusion - Reddit How are some people able to use EasyNegative on PonyDiffusion ...

截至 2026-06-20

py from datasets import load_dataset ds = load_dataset("gsdf/EasyNegative")

togethercomputer / RedPajama-Data-1T

完全开源的LLaMa数据集复现（RedPajama）。

172.6万行 · 39.5 GB

文本
文本生成

下载 2.1k · 收藏 1.2k · 2年前更新

社区实测

RedPajama-1T是LLaMA训练数据配方的早期开源复现,已被RedPajama-V2取代

原始web数据存在HTML转文本伪影、低质量来源和内容偏差,不宜直接用于LLM训练
已被RedPajama-V2取代,v2提供30T token、40+预计算质量标注和去重,RPv1代码已归档至rp_v1分支

来源

RedPajama-Data-v2: An open dataset with 30 trillion tokens for training large language models GitHub - togethercomputer/RedPajama-Data: The RedPajama-Data repository contains code for preparing large datasets for training large language models. · GitHub

截至 2026-06-20

已被取代 RedPajama-Data-V2 · V2 将规模从 1.2T 扩展到 30T tokens,覆盖 84 个 CommonCrawl 快照,是官方推荐的后续版本

py from datasets import load_dataset ds = load_dataset("togethercomputer/RedPajama-Data-1T")