数据集 · 2026-05-22

美国医疗工作流的AI智能体基准测试，覆盖三个长期域。

101 行 · 929 KB

下载 1.2k · 收藏 25 · 12天前更新

从CommonCrawl清洗去重的英文网页文本数据集。

524.54亿行 · 117.4 TB

下载 970k · 收藏 2.8k · 10个月前更新

中国四城市公共交通路线规划数据集，含坐标与换乘结构。

15.0万行 · 53.0 GB

下载 522 · 收藏 17 · 20天前更新

DNA和RNA序列的基因组预训练语料，覆盖真核与原核物种。

1.80亿行 · 1.3 TB

下载 2.9k · 收藏 17 · 19天前更新

py from datasets import load_dataset ds = load_dataset("HuggingFaceBio/carbon-pretraining-corpus")

人类对有用性和无害性的偏好数据，用于RLHF训练。

16.9万行 · 4.1 GB

下载 38k · 收藏 1.7k · 3年前更新

增强的FLAN数据集，用于训练对话模型。

294.2万行 · 63.5 GB

下载 50k · 收藏 1.5k · 1年前更新

35种语言的人类助手对话语料，含质量评分。

8.9万行 · 1.6 GB

下载 24k · 收藏 1.5k · 3年前更新

社区分享的AI提示词数据集。

1,823 行 · 29 MB

下载 53k · 收藏 9.7k · 12天前更新

2026-05-22 数据集 (8)