Appearance
AI 数据集资源大全
数据是 AI 模型的"燃料"。本页汇总预训练语料、指令微调数据、评测基准和领域专用数据集,帮助你快速找到适合的数据资源。
预训练语料
通用预训练数据
| 数据集 | 规模 | 语言 | 来源 | 链接 |
|---|---|---|---|---|
| The Pile | 825GB | 英文 | 多源整合 | pile.eleuther.ai |
| C4 | 750GB | 多语言 | Common Crawl 清洗 | HuggingFace |
| RedPajama | 1.2T tokens | 英文 | 开源复制 LLaMA 数据 | GitHub |
| RefinedWeb | 5T tokens | 英文 | Falcon 模型数据 | HuggingFace |
| The Stack | 6TB | 多语言 | 代码数据 | HuggingFace |
中文预训练数据
| 数据集 | 规模 | 来源 | 链接 |
|---|---|---|---|
| WuDaoCorpora | 2.3TB | 清华 | 官方网站 |
| CLUECorpus2020 | 100GB | CLUE 组织 | GitHub |
| SkyPile-150B | 150B tokens | 天工 | HuggingFace |
| MNBVC | 超大规模 | 中文多源 | GitHub |
指令微调数据
通用指令数据
| 数据集 | 样本数 | 特点 | 链接 |
|---|---|---|---|
| Alpaca | 52K | Self-Instruct 方法 | GitHub |
| ShareGPT | 90K+ | 用户对话数据 | HuggingFace |
| UltraChat | 1.5M | 合成对话 | HuggingFace |
| Dolly | 15K | 人工标注 | HuggingFace |
| OpenAssistant | 161K | 众包标注 | HuggingFace |
中文指令数据
| 数据集 | 样本数 | 特点 | 链接 |
|---|---|---|---|
| Belle | 2M+ | 中文指令 | GitHub |
| COIG | 191K | 中文开放指令 | GitHub |
| firefly | 1.1M | 中文任务数据 | GitHub |
| Alpaca-zh | 52K | Alpaca 中文翻译 | GitHub |
评测基准数据
通用能力评测
| 数据集 | 任务类型 | 样本数 | 链接 |
|---|---|---|---|
| MMLU | 多学科选择题 | 15,908 | HuggingFace |
| GSM8K | 数学推理 | 8,500 | HuggingFace |
| HumanEval | 代码生成 | 164 | GitHub |
| BBH | 大脑推理 | 6,511 | HuggingFace |
| ARC | 科学推理 | 7,787 | HuggingFace |
中文评测
| 数据集 | 任务类型 | 样本数 | 链接 |
|---|---|---|---|
| C-Eval | 中文综合能力 | 13,948 | GitHub |
| CMMLU | 中文多任务 | 11,528 | GitHub |
| Gaokao | 高考题目 | 2,781 | GitHub |
安全评测
| 数据集 | 任务类型 | 特点 | 链接 |
|---|---|---|---|
| TruthfulQA | 诚实性 | 检测幻觉 | GitHub |
| ToxiGen | 有害性 | 13 类有害语言 | HuggingFace |
| BBQ | 偏见 | 社会偏见 | GitHub |
多模态数据
图像-文本数据
| 数据集 | 规模 | 任务 | 链接 |
|---|---|---|---|
| LAION-5B | 5.8B 图像-文本对 | 通用 | laion.ai |
| CC12M | 12M 图像-文本对 | 通用 | HuggingFace |
| COYO-700M | 700M 图像-文本对 | 通用 | GitHub |
| WIT | 11.5M 图像-文本对 | 维基百科 | HuggingFace |
视频数据
| 数据集 | 规模 | 任务 | 链接 |
|---|---|---|---|
| InternVid | 7M 视频 | 视频-语言 | GitHub |
| WebVid | 10M 视频 | 短视频理解 | HuggingFace |
领域专用数据
代码
| 数据集 | 规模 | 语言 | 链接 |
|---|---|---|---|
| The Stack v2 | 30TB | 600+ 语言 | HuggingFace |
| GitHub Code | 大规模 | 多语言 | GitHub API |
| CodeSearchNet | 2M 函数 | 6 语言 | GitHub |
医疗
| 数据集 | 规模 | 任务 | 链接 |
|---|---|---|---|
| PubMed | 30M+ 文献 | 医学文献 | PubMed |
| MIMIC-III/IV | 50K+ 患者 | 临床数据 | PhysioNet |
| MedQA | 61K 题目 | 医学考试 | GitHub |
法律
| 数据集 | 规模 | 任务 | 链接 |
|---|---|---|---|
| Pile of Law | 256GB | 法律文档 | HuggingFace |
| COLIEE | 变动 | 法律信息检索 | COLIEE |
数据集工具
| 工具 | 功能 | 链接 |
|---|---|---|
| Hugging Face Datasets | 数据集搜索与下载 | huggingface.co/datasets |
| Kaggle Datasets | 数据集平台 | kaggle.com/datasets |
| Papers With Code | 论文配套数据集 | paperswithcode.com |
| Dataverse | 学术数据存储 | dataverse.org |
数据质量与合规
数据质量评估
markdown
## 数据集质量检查清单
- [ ] 数据来源可靠性
- [ ] 标注质量验证
- [ ] 样本均衡性检查
- [ ] 偏见检测
- [ ] 隐私敏感信息检查
- [ ] 版权合规性确认
- [ ] 数据更新频率合规要求
| 法规 | 要求 | 适用范围 |
|---|---|---|
| GDPR | 数据保护、同意管理 | 欧盟 |
| CCPA | 消费者隐私 | 加州 |
| 中国个人信息保护法 | 个人信息处理 | 中国 |
| 生成式 AI 管理办法 | 数据标注要求 | 中国 |
相关页面
- AI 论文与学术资源 — AI 论文与学术资源
- 模型仓库导航 — 模型仓库导航
- AI 开发工具箱 — AI 开发工具箱
- AI 学习资源导航 — AI 学习资源导航
- LLM 评测基准对比 — LLM 评测基准对比
参考来源
- Hugging Face Datasets 平台
- Papers With Code 数据集页面
- 各数据集原始论文
- 数据合规指南 (GDPR, CCPA 等)