Skip to content

AI 数据集资源大全

数据是 AI 模型的"燃料"。本页汇总预训练语料、指令微调数据、评测基准和领域专用数据集,帮助你快速找到适合的数据资源。

预训练语料

通用预训练数据

数据集规模语言来源链接
The Pile825GB英文多源整合pile.eleuther.ai
C4750GB多语言Common Crawl 清洗HuggingFace
RedPajama1.2T tokens英文开源复制 LLaMA 数据GitHub
RefinedWeb5T tokens英文Falcon 模型数据HuggingFace
The Stack6TB多语言代码数据HuggingFace

中文预训练数据

数据集规模来源链接
WuDaoCorpora2.3TB清华官方网站
CLUECorpus2020100GBCLUE 组织GitHub
SkyPile-150B150B tokens天工HuggingFace
MNBVC超大规模中文多源GitHub

指令微调数据

通用指令数据

数据集样本数特点链接
Alpaca52KSelf-Instruct 方法GitHub
ShareGPT90K+用户对话数据HuggingFace
UltraChat1.5M合成对话HuggingFace
Dolly15K人工标注HuggingFace
OpenAssistant161K众包标注HuggingFace

中文指令数据

数据集样本数特点链接
Belle2M+中文指令GitHub
COIG191K中文开放指令GitHub
firefly1.1M中文任务数据GitHub
Alpaca-zh52KAlpaca 中文翻译GitHub

评测基准数据

通用能力评测

数据集任务类型样本数链接
MMLU多学科选择题15,908HuggingFace
GSM8K数学推理8,500HuggingFace
HumanEval代码生成164GitHub
BBH大脑推理6,511HuggingFace
ARC科学推理7,787HuggingFace

中文评测

数据集任务类型样本数链接
C-Eval中文综合能力13,948GitHub
CMMLU中文多任务11,528GitHub
Gaokao高考题目2,781GitHub

安全评测

数据集任务类型特点链接
TruthfulQA诚实性检测幻觉GitHub
ToxiGen有害性13 类有害语言HuggingFace
BBQ偏见社会偏见GitHub

多模态数据

图像-文本数据

数据集规模任务链接
LAION-5B5.8B 图像-文本对通用laion.ai
CC12M12M 图像-文本对通用HuggingFace
COYO-700M700M 图像-文本对通用GitHub
WIT11.5M 图像-文本对维基百科HuggingFace

视频数据

数据集规模任务链接
InternVid7M 视频视频-语言GitHub
WebVid10M 视频短视频理解HuggingFace

领域专用数据

代码

数据集规模语言链接
The Stack v230TB600+ 语言HuggingFace
GitHub Code大规模多语言GitHub API
CodeSearchNet2M 函数6 语言GitHub

医疗

数据集规模任务链接
PubMed30M+ 文献医学文献PubMed
MIMIC-III/IV50K+ 患者临床数据PhysioNet
MedQA61K 题目医学考试GitHub

法律

数据集规模任务链接
Pile of Law256GB法律文档HuggingFace
COLIEE变动法律信息检索COLIEE

数据集工具

工具功能链接
Hugging Face Datasets数据集搜索与下载huggingface.co/datasets
Kaggle Datasets数据集平台kaggle.com/datasets
Papers With Code论文配套数据集paperswithcode.com
Dataverse学术数据存储dataverse.org

数据质量与合规

数据质量评估

markdown
## 数据集质量检查清单

- [ ] 数据来源可靠性
- [ ] 标注质量验证
- [ ] 样本均衡性检查
- [ ] 偏见检测
- [ ] 隐私敏感信息检查
- [ ] 版权合规性确认
- [ ] 数据更新频率

合规要求

法规要求适用范围
GDPR数据保护、同意管理欧盟
CCPA消费者隐私加州
中国个人信息保护法个人信息处理中国
生成式 AI 管理办法数据标注要求中国

相关页面

参考来源

  • Hugging Face Datasets 平台
  • Papers With Code 数据集页面
  • 各数据集原始论文
  • 数据合规指南 (GDPR, CCPA 等)

AI Knowledge Base — 持续积累