AI 数据集资源大全

数据是 AI 模型的"燃料"。本页汇总预训练语料、指令微调数据、评测基准和领域专用数据集，帮助你快速找到适合的数据资源。

预训练语料

通用预训练数据

数据集	规模	语言	来源	链接
The Pile	825GB	英文	多源整合	pile.eleuther.ai
C4	750GB	多语言	Common Crawl 清洗	HuggingFace
RedPajama	1.2T tokens	英文	开源复制 LLaMA 数据	GitHub
RefinedWeb	5T tokens	英文	Falcon 模型数据	HuggingFace
The Stack	6TB	多语言	代码数据	HuggingFace

中文预训练数据

数据集	规模	来源	链接
WuDaoCorpora	2.3TB	清华	官方网站
CLUECorpus2020	100GB	CLUE 组织	GitHub
SkyPile-150B	150B tokens	天工	HuggingFace
MNBVC	超大规模	中文多源	GitHub

指令微调数据

通用指令数据

数据集	样本数	特点	链接
Alpaca	52K	Self-Instruct 方法	GitHub
ShareGPT	90K+	用户对话数据	HuggingFace
UltraChat	1.5M	合成对话	HuggingFace
Dolly	15K	人工标注	HuggingFace
OpenAssistant	161K	众包标注	HuggingFace

中文指令数据

数据集	样本数	特点	链接
Belle	2M+	中文指令	GitHub
COIG	191K	中文开放指令	GitHub
firefly	1.1M	中文任务数据	GitHub
Alpaca-zh	52K	Alpaca 中文翻译	GitHub

评测基准数据

通用能力评测

数据集	任务类型	样本数	链接
MMLU	多学科选择题	15,908	HuggingFace
GSM8K	数学推理	8,500	HuggingFace
HumanEval	代码生成	164	GitHub
BBH	大脑推理	6,511	HuggingFace
ARC	科学推理	7,787	HuggingFace

中文评测

数据集	任务类型	样本数	链接
C-Eval	中文综合能力	13,948	GitHub
CMMLU	中文多任务	11,528	GitHub
Gaokao	高考题目	2,781	GitHub

安全评测

数据集	任务类型	特点	链接
TruthfulQA	诚实性	检测幻觉	GitHub
ToxiGen	有害性	13 类有害语言	HuggingFace
BBQ	偏见	社会偏见	GitHub

多模态数据

图像-文本数据

数据集	规模	任务	链接
LAION-5B	5.8B 图像-文本对	通用	laion.ai
CC12M	12M 图像-文本对	通用	HuggingFace
COYO-700M	700M 图像-文本对	通用	GitHub
WIT	11.5M 图像-文本对	维基百科	HuggingFace

视频数据

数据集	规模	任务	链接
InternVid	7M 视频	视频-语言	GitHub
WebVid	10M 视频	短视频理解	HuggingFace

领域专用数据

代码

数据集	规模	语言	链接
The Stack v2	30TB	600+ 语言	HuggingFace
GitHub Code	大规模	多语言	GitHub API
CodeSearchNet	2M 函数	6 语言	GitHub

医疗

数据集	规模	任务	链接
PubMed	30M+ 文献	医学文献	PubMed
MIMIC-III/IV	50K+ 患者	临床数据	PhysioNet
MedQA	61K 题目	医学考试	GitHub

法律

数据集	规模	任务	链接
Pile of Law	256GB	法律文档	HuggingFace
COLIEE	变动	法律信息检索	COLIEE

数据集工具

工具	功能	链接
Hugging Face Datasets	数据集搜索与下载	huggingface.co/datasets
Kaggle Datasets	数据集平台	kaggle.com/datasets
Papers With Code	论文配套数据集	paperswithcode.com
Dataverse	学术数据存储	dataverse.org

数据质量与合规

数据质量评估

markdown

## 数据集质量检查清单

- [ ] 数据来源可靠性
- [ ] 标注质量验证
- [ ] 样本均衡性检查
- [ ] 偏见检测
- [ ] 隐私敏感信息检查
- [ ] 版权合规性确认
- [ ] 数据更新频率

合规要求

法规	要求	适用范围
GDPR	数据保护、同意管理	欧盟
CCPA	消费者隐私	加州
中国个人信息保护法	个人信息处理	中国
生成式 AI 管理办法	数据标注要求	中国

参考来源

Hugging Face Datasets 平台
Papers With Code 数据集页面
各数据集原始论文
数据合规指南 (GDPR, CCPA 等)

AI 数据集资源大全 ​

预训练语料 ​

通用预训练数据 ​

中文预训练数据 ​

指令微调数据 ​

通用指令数据 ​

中文指令数据 ​

评测基准数据 ​

通用能力评测 ​

中文评测 ​

安全评测 ​

多模态数据 ​

图像-文本数据 ​

视频数据 ​

领域专用数据 ​

代码 ​

医疗 ​

法律 ​

数据集工具 ​

数据质量与合规 ​

数据质量评估 ​

合规要求 ​

相关页面 ​

参考来源 ​

AI 数据集资源大全

预训练语料

通用预训练数据

中文预训练数据

指令微调数据

通用指令数据

中文指令数据

评测基准数据

通用能力评测

中文评测

安全评测

多模态数据

图像-文本数据

视频数据

领域专用数据

代码

医疗

法律

数据集工具

数据质量与合规

数据质量评估

合规要求

相关页面

参考来源