Appearance
模型仓库导航
在哪里找到 GPT 级别的开源模型?如何快速理解一个模型的能力和限制?本页面提供模型仓库导航和模型卡阅读方法。
相关概念:Hugging Face · Model Inference & Deployment · Embedding Models / Vector Representations · LLM Evaluation · AI Agents
核心模型仓库平台
Hugging Face Hub
AI 界的 GitHub,最大的开源模型和数据集平台。
- 地址: huggingface.co
- 特点: 50万+ 模型、Transformers 库、免费 API 推理
- 必备工具:
transformers,datasets,accelerate,peft
快速开始:
bash
pip install transformers
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained("meta-llama/Llama-2-7b")
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b")ModelScope (魔搭社区)
阿里云托管的中文 AI 模型平台。
- 地址: modelscope.cn
- 特点: 中文模型丰富、国内访问速度快、支持模型即时体验
- 代表模型: Qwen、通义千问、百川、ChatGLM
Ollama
本地运行大模型的最简单方式。
- 地址: ollama.com
- 特点: 一行命令运行模型、自动下载、支持自定义 Modelfile
- 常用命令:
bash
ollama run llama3.2
ollama run qwen2.5
ollama run deepseek-r1vLLM + 自定义部署
生产级高并发推理。
- 地址: github.com/vllm-project/vllm
- 特点: PagedAttention 加速、OpenAI 兼容 API、支持多 GPU
- 常用场景: 自建 API 服务、微调模型部署
热门开源模型速查
通用语言模型
| 模型 | 参数 | 语言 | 许可 | 特点 |
|---|---|---|---|---|
| Llama 3.1/3.2 | 8B/70B/405B | 多语言 | Llama 3.1 | Meta 最新开源模型 |
| Qwen 2.5 | 0.5B-72B | 多语言 | Qwen | 阿里开源,中英文优秀 |
| DeepSeek-V3 | 671B (37B激活) | 中英文 | MIT | 极致效率的 MoE |
| Mistral 7B / Nemo | 7B/12B | 多语言 | Apache 2.0 | 性能强劲的小模型 |
| Gemma 2 | 2B/9B/27B | 多语言 | Gemma | Google 轻量级模型 |
| Phi-4 | 14B | 英文 | MIT | Microsoft 高质量小模型 |
| Yi-1.5 | 6B/9B/34B | 多语言 | Apache 2.0 | 01.AI 开源模型 |
推理模型
| 模型 | 参数 | 特点 | 来源 |
|---|---|---|---|
| DeepSeek-R1 | 671B | 类 o1 推理能力,完全开源 | DeepSeek |
| Qwen QwQ | 32B | Qwen 思考模型 | 阿里 |
| Llama 3.1 Reasoning | 变化 | 基于 Llama 的推理模型 | 社区 |
多模态模型
| 模型 | 能力 | 来源 |
|---|---|---|
| LLaVA | 图像理解 + 对话 | 社区 |
| Qwen-VL | 视觉理解 + 文本 | 阿里 |
| InternVL | 高端视觉理解 | 商汤 |
| MiniCPM-V | 端侧多模态 | 清华 |
编码模型
| 模型 | 能力 | 来源 |
|---|---|---|
| CodeLlama | 代码生成/补全 | Meta |
| StarCoder2 | 30+ 语言 | BigCode |
| DeepSeek-Coder | 代码理解/生成 | DeepSeek |
| Qwen2.5-Coder | 代码专用 | 阿里 |
模型卡(Model Card)阅读指南
模型卡是了解一个模型的第一站。以下是关键信息检索清单:
1. 基础信息
- [ ] 架构: Transformer / MoE / SSM / 混合?
- [ ] 参数量: 总参数 vs 激活参数(对 MoE 重要)
- [ ] 上下文长度: 支持的最大输入长度
- [ ] 训练数据: 数据来源、规模、时间截止点
2. 性能指标
- [ ] 评测分数: MMLU、HumanEval、GSM8K 等基准分数
- [ ] 对比基准: 与同类模型的分数对比
- [ ] 推理成本: 每百万 Token 的推理成本(如果提供)
3. 使用限制
- [ ] 许可协议: 是否允许商业使用?是否有用户量限制?
- [ ] 安全限制: 是否有使用场景限制?
- [ ] 偏见声明: 已知的偏见和局限性
4. 部署信息
- [ ] 硬件要求: 需要多少 GPU 内存?
- [ ] 量子化支持: 是否支持 GGUF / GPTQ / AWQ?
- [ ] 框架支持: Transformers、llama.cpp、vLLM 等
模型部署工具链
模型获取
├── Hugging Face Hub → transformers 加载
├── ModelScope → 国内镜像下载
└── 直接下载 weights → 手动加载
量子化优化(可选)
├── llama.cpp / GGUF → CPU / 端侧部署
├── AutoGPTQ / GPTQ → 4-bit 量子化
├── AutoAWQ / AWQ → 4-bit 加速
└── bitsandbytes / NF4 → QLoRA 微调
服务化部署
├── vLLM → 高并发 API 服务
├── TGI (Text Generation Inference) → HF 官方服务
├── Ollama → 本地快速部署
└── llama.cpp server → 轻量 API 服务模型选型决策树
| 场景 | 推荐模型 | 理由 |
|---|---|---|
| 本地快速原型 | Llama 3.2 3B / Qwen2.5 3B | 超轻量、响应快 |
| 中文产品 | Qwen2.5 72B / DeepSeek-V3 | 中文能力顶尖 |
| 代码助手 | DeepSeek-Coder / Qwen2.5-Coder | 代码理解强 |
| 端侧部署 | Phi-4 / Gemma 2 2B | 小参数、高质量 |
| 高并发 API | DeepSeek-V3 / Llama 3.1 405B | 开源、可自部署 |
| 多模态应用 | Qwen-VL / MiniCPM-V | 视觉理解能力 |
最后更新:2025-04-28 | 模型更新频繁,建议定期检查 Hugging Face Trending 页面。