数据集 / 归档 / 2026-05-20

2026-05-20 数据集 (8)

PsiBotAI / SynData

涵盖视觉、语言和动作的多模态人类数据,用于具身智能训练。

44.9万行 · 29.4 TB

  • 多模态
  • cc-by-4.0 · 可商用

下载 36k · 收藏 146 · 14天前更新

  • py from datasets import load_dataset ds = load_dataset("PsiBotAI/SynData")

AlienKevin / SWE-ZERO-12M-trajectories

编码智能体轨迹数据,覆盖16种编程语言和3K个仓库。

1229.1万行 · 199.4 GB

  • 文本
  • 文本生成
  • apache-2.0 · 可商用

下载 7.6k · 收藏 85 · 18天前更新

  • py from datasets import load_dataset ds = load_dataset("AlienKevin/SWE-ZERO-12M-trajectories")

angrygiraffe / claude-opus-4.6-4.7-reasoning-8.7k

Claude生成的合成思维链推理数据。

495 MB

  • 文本
  • 10K–100K
  • 文本生成
  • 问答
  • apache-2.0 · 可商用

下载 3.2k · 收藏 147 · 1个月前更新

  • py from datasets import load_dataset ds = load_dataset("angrygiraffe/claude-opus-4.6-4.7-reasoning-8.7k")

TuringEnterprises / Open-MM-RL

多模态STEM推理数据,涵盖物理、数学、生物和化学。

40 行 · 62 MB

  • 多模态
  • 问答
  • mit · 可商用

下载 8.2k · 收藏 121 · 20天前更新

  • py from datasets import load_dataset ds = load_dataset("TuringEnterprises/Open-MM-RL")

open-thoughts / AgentTrove

开源智能体交互轨迹集合,覆盖代码修复、Shell脚本、数学求解等任务。

169.7万行 · 19.6 GB

  • 文本
  • 文本生成
  • apache-2.0 · 可商用

下载 10k · 收藏 146 · 26天前更新

  • py from datasets import load_dataset ds = load_dataset("open-thoughts/AgentTrove")

Qwen / WebWorldData

从真实网页收集的浏览器交互轨迹数据。

46.3万行 · 57.2 GB

  • 文本
  • 文本生成
  • apache-2.0 · 可商用
  • 含中文

下载 604 · 收藏 41 · 25天前更新

  • py from datasets import load_dataset ds = load_dataset("Qwen/WebWorldData")

TeichAI / DeepSeek-v4-Pro-Agent

DeepSeek-v4-Pro生成的原始智能体轨迹文件。

4,006 行 · 286 MB

  • 多模态

下载 2.5k · 收藏 35 · 21天前更新

  • py from datasets import load_dataset ds = load_dataset("TeichAI/DeepSeek-v4-Pro-Agent")

lambda / hermes-agent-reasoning-traces

多轮工具调用轨迹,包含逐步推理和真实工具执行结果。

1.5万行 · 2.2 GB

  • 文本
  • 文本生成
  • apache-2.0 · 可商用

下载 7.4k · 收藏 325 · 1个月前更新

  • py from datasets import load_dataset ds = load_dataset("lambda/hermes-agent-reasoning-traces")

← 前一日 不可用 · 后一日 2026-05-21 →