数据集 / 归档 / 2026-05-24

2026-05-24 数据集 (6)

Nerfgun3 / bad_prompt

用于Stable Diffusion的负向提示嵌入向量。

1 行 · 14 MB

  • 图像
  • creativeml-openrail-m · 可商用

下载 2.6k · 收藏 942 · 3年前更新

  • py from datasets import load_dataset ds = load_dataset("Nerfgun3/bad_prompt")

allenai / dolma

包含3万亿token的英文语料,用于语言模型预训练研究。

6.1 TB

  • >1T
  • 文本生成
  • odc-by · 可商用

下载 4.8k · 收藏 1.0k · 2年前更新

databricks / databricks-dolly-15k

Databricks员工生成的指令跟随数据,覆盖多种任务类别。

1.5万行 · 267 MB

  • 文本
  • 问答
  • 摘要
  • cc-by-sa-3.0 · 可商用

下载 34k · 收藏 971 · 2年前更新

  • py from datasets import load_dataset ds = load_dataset("databricks/databricks-dolly-15k")

roneneldan / TinyStories

由GPT-3.5/4生成的短篇故事,词汇量小。

214.2万行 · 17.3 GB

  • 文本
  • 文本生成
  • cdla-sharing-1.0 · 可商用

下载 89k · 收藏 992 · 1年前更新

  • py from datasets import load_dataset ds = load_dataset("roneneldan/TinyStories")

tatsu-lab / alpaca

由OpenAI text-davinci-003生成的指令和演示数据。

5.2万行 · 319 MB

  • 文本
  • 文本生成
  • cc-by-nc-4.0 · 非商用

下载 108k · 收藏 968 · 3年前更新

  • py from datasets import load_dataset ds = load_dataset("tatsu-lab/alpaca")

tiiuae / falcon-refinedweb

从CommonCrawl过滤去重得到的大型英文网页数据集。

9.68亿行 · 1.7 TB

  • 文本
  • 文本生成
  • odc-by · 可商用

下载 22k · 收藏 914 · 2年前更新

  • py from datasets import load_dataset ds = load_dataset("tiiuae/falcon-refinedweb")

← 前一日 2026-05-23 · 后一日 2026-05-25 →