数据集 / 归档 / 2026-05-21

2026-05-21 数据集 (8)

Jackrong / GLM-5.1-Reasoning-1M-Cleaned

GLM-5.1生成的推理数据,覆盖科学、多语言STEM和数学四个子集。

57.2万行 · 44.2 GB

  • 文本
  • 文本生成
  • 问答
  • apache-2.0 · 可商用
  • 含中文

下载 12k · 收藏 216 · 1个月前更新

  • py from datasets import load_dataset ds = load_dataset("Jackrong/GLM-5.1-Reasoning-1M-Cleaned")

Modotte / CodeX-2M-Thinking

合成生成的代码思考数据集,用于模型微调。

219.0万行 · 24.4 GB

  • 文本
  • 文本生成
  • 问答
  • apache-2.0 · 可商用

下载 5.9k · 收藏 101 · 3个月前更新

  • py from datasets import load_dataset ds = load_dataset("Modotte/CodeX-2M-Thinking")

alibaba-multimodal-industrial-ai / IndustryBench

多语言工业领域知识基准,覆盖12个工业领域,中英俄越四种语言。

2,049 行 · 25 MB

  • 文本
  • 问答
  • 文本生成
  • mit · 可商用
  • 含中文

下载 181 · 收藏 26 · 20天前更新

  • py from datasets import load_dataset ds = load_dataset("alibaba-multimodal-industrial-ai/IndustryBench")

openai / gsm8k

小学数学应用题,需要多步算术推理。

1.8万行 · 12 MB

  • 文本
  • 文本生成
  • mit · 可商用

下载 946k · 收藏 1.3k · 2个月前更新

  • py from datasets import load_dataset ds = load_dataset("openai/gsm8k")

5551z / VisCoR-55K

视觉推理数据集,涵盖通用、推理、数学、图表和OCR五类。

5.5万行 · 8.1 GB

  • 多模态

下载 376 · 收藏 38 · 1个月前更新

  • py from datasets import load_dataset ds = load_dataset("5551z/VisCoR-55K")

blanchon / opencs2_dataset

Counter-Strike 2玩家第一人称视角训练片段,1280x720视频。

68.6万行 · 10.6 TB

  • 多模态
  • 视频分类
  • 强化学习
  • other
  • cc-by-4.0 · 可商用

下载 22k · 收藏 24 · 29天前更新

  • py from datasets import load_dataset ds = load_dataset("blanchon/opencs2_dataset")

ADSKAILab / Zero-To-CAD-1m

合成生成的CAD程序构建序列,可执行且可解释。

100.0万行 · 349.1 GB

  • 多模态
  • text-to-3d
  • image-to-3d
  • apache-2.0 · 可商用

下载 26k · 收藏 116 · 1个月前更新

  • py from datasets import load_dataset ds = load_dataset("ADSKAILab/Zero-To-CAD-1m")

ShadenA / MathNet

多国数学竞赛问题数据集,包含多个国家的题目。

5.6万行 · 738 MB

  • 多模态
  • 问答
  • 文本生成
  • 图像描述
  • cc-by-4.0 · 可商用
  • 含中文

下载 23k · 收藏 80 · 1个月前更新

  • py from datasets import load_dataset ds = load_dataset("ShadenA/MathNet")

← 前一日 2026-05-20 · 后一日 2026-05-22 →