Qwen / Qwen-Image-Bench
面向创作者的文生图模型评估基准,覆盖语义对齐之外的能力
下载 11k · 收藏 13 · 5天前更新
- py from datasets import load_dataset ds = load_dataset("Qwen/Qwen-Image-Bench")
最近 13 天 · 共 52 个数据集
面向创作者的文生图模型评估基准,覆盖语义对齐之外的能力
下载 11k · 收藏 13 · 5天前更新
公开的OpenClaw代理技能安全信号数据集,记录信任与来源评估证据
下载 84 · 收藏 14 · 1天前更新
从单张驾驶图像测试模型3D空间推理能力的多项选择问答数据集
下载 108 · 收藏 33 · 1天前更新
真实世界低质量与高质量图像对,用于图像恢复的生成式基准
下载 156 · 收藏 15 · 1天前更新
多个公开英语语音语料库聚合而成的TTS训练数据集
下载 10k · 收藏 25 · 12天前更新
从学术论文与问题列表中提取的研究级数学问题
下载 302 · 收藏 18 · 5天前更新
从高质量网页语料精炼的结构化训练数据,含推理信号与教育风格
下载 6.2k · 收藏 87 · 5天前更新
大规模精选图文对数据集,用于训练文生图系统
下载 245k · 收藏 39 · 5天前更新
从Claude opus 4.7通过Trace Inversion蒸馏的思维链推理数据集。
下载 343 · 收藏 18 · 14天前更新
通过Trace Inversion重构的Claude 4.6思维链数据
下载 348 · 收藏 16 · 14天前更新
面向长上下文语言模型的强化学习训练数据,含9种奖励函数
下载 484 · 收藏 16 · 12天前更新
基于潜在到像素迁移的像素空间扩散数据
下载 78 · 收藏 18 · 11天前更新
Qwen3.7-max模型生成的智能体轨迹数据
下载 191 · 收藏 21 · 10天前更新
多模态大语言模型的视觉基元思考数据集
下载 13k · 收藏 28 · 1个月前更新
用于Stable Diffusion的负向提示嵌入向量。
下载 2.6k · 收藏 942 · 3年前更新
包含3万亿token的英文语料,用于语言模型预训练研究。
下载 4.8k · 收藏 1.0k · 2年前更新
Databricks员工生成的指令跟随数据,覆盖多种任务类别。
下载 34k · 收藏 971 · 2年前更新
由GPT-3.5/4生成的短篇故事,词汇量小。
下载 89k · 收藏 992 · 1年前更新
由OpenAI text-davinci-003生成的指令和演示数据。
下载 108k · 收藏 968 · 3年前更新
从CommonCrawl过滤去重得到的大型英文网页数据集。
下载 22k · 收藏 914 · 2年前更新
英语和法语维基百科的结构化文章数据
下载 2.5k · 收藏 127 · 14天前更新
AI生成的Dreamcore风格图像集合
下载 2.4k · 收藏 18 · 15天前更新
多声学条件下的自动语音识别数据
下载 5.1k · 收藏 17 · 14天前更新
基于医学可验证问题的推理链SFT数据
下载 5.9k · 收藏 1.1k · 1年前更新
从网络过滤出的教育类网页文本数据
下载 616k · 收藏 1.1k · 10个月前更新
Stable Diffusion的负面嵌入
下载 25k · 收藏 1.2k · 3年前更新
LLaMa数据集的完全开源复现
下载 2.2k · 收藏 1.2k · 1年前更新
多语言维基百科清洗后的完整文章
下载 266k · 收藏 1.2k · 2年前更新
美国医疗工作流的AI智能体基准测试,覆盖三个长期域。
下载 1.2k · 收藏 25 · 12天前更新
从CommonCrawl清洗去重的英文网页文本数据集。
下载 970k · 收藏 2.8k · 10个月前更新
中国四城市公共交通路线规划数据集,含坐标与换乘结构。
下载 522 · 收藏 17 · 20天前更新
DNA和RNA序列的基因组预训练语料,覆盖真核与原核物种。
下载 2.9k · 收藏 17 · 19天前更新
人类对有用性和无害性的偏好数据,用于RLHF训练。
下载 38k · 收藏 1.7k · 3年前更新
增强的FLAN数据集,用于训练对话模型。
下载 50k · 收藏 1.5k · 1年前更新
35种语言的人类助手对话语料,含质量评分。
下载 24k · 收藏 1.5k · 3年前更新
社区分享的AI提示词数据集。
下载 53k · 收藏 9.7k · 12天前更新
GLM-5.1生成的推理数据,覆盖科学、多语言STEM和数学四个子集。
下载 12k · 收藏 216 · 1个月前更新
合成生成的代码思考数据集,用于模型微调。
下载 5.9k · 收藏 101 · 3个月前更新
多语言工业领域知识基准,覆盖12个工业领域,中英俄越四种语言。
下载 181 · 收藏 26 · 20天前更新
小学数学应用题,需要多步算术推理。
下载 946k · 收藏 1.3k · 2个月前更新
视觉推理数据集,涵盖通用、推理、数学、图表和OCR五类。
下载 376 · 收藏 38 · 1个月前更新
Counter-Strike 2玩家第一人称视角训练片段,1280x720视频。
下载 22k · 收藏 24 · 29天前更新
合成生成的CAD程序构建序列,可执行且可解释。
下载 26k · 收藏 116 · 1个月前更新
多国数学竞赛问题数据集,包含多个国家的题目。
下载 23k · 收藏 80 · 1个月前更新
涵盖视觉、语言和动作的多模态人类数据,用于具身智能训练。
下载 36k · 收藏 146 · 14天前更新
编码智能体轨迹数据,覆盖16种编程语言和3K个仓库。
下载 7.6k · 收藏 85 · 18天前更新
Claude生成的合成思维链推理数据。
下载 3.2k · 收藏 147 · 1个月前更新
多模态STEM推理数据,涵盖物理、数学、生物和化学。
下载 8.2k · 收藏 121 · 20天前更新
开源智能体交互轨迹集合,覆盖代码修复、Shell脚本、数学求解等任务。
下载 10k · 收藏 146 · 26天前更新
从真实网页收集的浏览器交互轨迹数据。
下载 604 · 收藏 41 · 25天前更新
DeepSeek-v4-Pro生成的原始智能体轨迹文件。
下载 2.5k · 收藏 35 · 21天前更新
多轮工具调用轨迹,包含逐步推理和真实工具执行结果。
下载 7.4k · 收藏 325 · 1个月前更新
输入关键词,跨模型 / 数据集 / 空间 检索