数据集 / 归档 / 2026-05-22

2026-05-22 数据集 (8)

actava / chi-bench

美国医疗工作流的AI智能体基准测试,覆盖三个长期域。

101 行 · 929 KB

  • 多模态
  • 文本生成
  • apache-2.0 · 可商用

下载 1.2k · 收藏 25 · 12天前更新

  • py from datasets import load_dataset ds = load_dataset("actava/chi-bench")

HuggingFaceFW / fineweb

从CommonCrawl清洗去重的英文网页文本数据集。

524.54亿行 · 117.4 TB

  • 多模态
  • 文本生成
  • odc-by · 可商用

下载 970k · 收藏 2.8k · 10个月前更新

GD-ML / TransitLM

中国四城市公共交通路线规划数据集,含坐标与换乘结构。

15.0万行 · 53.0 GB

  • 多模态
  • 文本生成
  • cc-by-nc-4.0 · 非商用
  • 含中文

下载 522 · 收藏 17 · 20天前更新

  • py from datasets import load_dataset ds = load_dataset("GD-ML/TransitLM")

HuggingFaceBio / carbon-pretraining-corpus

DNA和RNA序列的基因组预训练语料,覆盖真核与原核物种。

1.80亿行 · 1.3 TB

  • 多模态
  • 文本生成
  • other · 待核

下载 2.9k · 收藏 17 · 19天前更新

  • py from datasets import load_dataset ds = load_dataset("HuggingFaceBio/carbon-pretraining-corpus")

Anthropic / hh-rlhf

人类对有用性和无害性的偏好数据,用于RLHF训练。

16.9万行 · 4.1 GB

  • 文本
  • mit · 可商用

下载 38k · 收藏 1.7k · 3年前更新

  • py from datasets import load_dataset ds = load_dataset("Anthropic/hh-rlhf")

Open-Orca / OpenOrca

增强的FLAN数据集,用于训练对话模型。

294.2万行 · 63.5 GB

  • 文本
  • 文本分类
  • 序列标注
  • 表格问答
  • mit · 可商用

下载 50k · 收藏 1.5k · 1年前更新

  • py from datasets import load_dataset ds = load_dataset("Open-Orca/OpenOrca")

OpenAssistant / oasst1

35种语言的人类助手对话语料,含质量评分。

8.9万行 · 1.6 GB

  • 多模态
  • apache-2.0 · 可商用
  • 含中文

下载 24k · 收藏 1.5k · 3年前更新

  • py from datasets import load_dataset ds = load_dataset("OpenAssistant/oasst1")

fka / prompts.chat

社区分享的AI提示词数据集。

1,823 行 · 29 MB

  • 文本
  • 问答
  • 文本生成
  • cc0-1.0 · 可商用

下载 53k · 收藏 9.7k · 12天前更新

  • py from datasets import load_dataset ds = load_dataset("fka/prompts.chat")

← 前一日 2026-05-21 · 后一日 2026-05-23 →