模型仓库导航

在哪里找到 GPT 级别的开源模型？如何快速理解一个模型的能力和限制？本页面提供模型仓库导航和模型卡阅读方法。
相关概念：Hugging Face · Model Inference & Deployment · Embedding Models / Vector Representations · LLM Evaluation · AI Agents

核心模型仓库平台

Hugging Face Hub

AI 界的 GitHub，最大的开源模型和数据集平台。

地址: huggingface.co
特点: 50万+ 模型、Transformers 库、免费 API 推理
必备工具: transformers, datasets, accelerate, peft

快速开始:

bash

pip install transformers
from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained("meta-llama/Llama-2-7b")
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b")

ModelScope (魔搭社区)

阿里云托管的中文 AI 模型平台。

地址: modelscope.cn
特点: 中文模型丰富、国内访问速度快、支持模型即时体验
代表模型: Qwen、通义千问、百川、ChatGLM

Ollama

本地运行大模型的最简单方式。

地址: ollama.com
特点: 一行命令运行模型、自动下载、支持自定义 Modelfile
常用命令:

bash

ollama run llama3.2
ollama run qwen2.5
ollama run deepseek-r1

vLLM + 自定义部署

生产级高并发推理。

地址: github.com/vllm-project/vllm
特点: PagedAttention 加速、OpenAI 兼容 API、支持多 GPU
常用场景: 自建 API 服务、微调模型部署

热门开源模型速查

通用语言模型

模型	参数	语言	许可	特点
Llama 3.1/3.2	8B/70B/405B	多语言	Llama 3.1	Meta 最新开源模型
Qwen 2.5	0.5B-72B	多语言	Qwen	阿里开源，中英文优秀
DeepSeek-V3	671B (37B激活)	中英文	MIT	极致效率的 MoE
Mistral 7B / Nemo	7B/12B	多语言	Apache 2.0	性能强劲的小模型
Gemma 2	2B/9B/27B	多语言	Gemma	Google 轻量级模型
Phi-4	14B	英文	MIT	Microsoft 高质量小模型
Yi-1.5	6B/9B/34B	多语言	Apache 2.0	01.AI 开源模型

推理模型

模型	参数	特点	来源
DeepSeek-R1	671B	类 o1 推理能力，完全开源	DeepSeek
Qwen QwQ	32B	Qwen 思考模型	阿里
Llama 3.1 Reasoning	变化	基于 Llama 的推理模型	社区

多模态模型

模型	能力	来源
LLaVA	图像理解 + 对话	社区
Qwen-VL	视觉理解 + 文本	阿里
InternVL	高端视觉理解	商汤
MiniCPM-V	端侧多模态	清华

编码模型

模型	能力	来源
CodeLlama	代码生成/补全	Meta
StarCoder2	30+ 语言	BigCode
DeepSeek-Coder	代码理解/生成	DeepSeek
Qwen2.5-Coder	代码专用	阿里

模型卡（Model Card）阅读指南

模型卡是了解一个模型的第一站。以下是关键信息检索清单：

1. 基础信息

[ ] 架构: Transformer / MoE / SSM / 混合？
[ ] 参数量: 总参数 vs 激活参数（对 MoE 重要）
[ ] 上下文长度: 支持的最大输入长度
[ ] 训练数据: 数据来源、规模、时间截止点

2. 性能指标

[ ] 评测分数: MMLU、HumanEval、GSM8K 等基准分数
[ ] 对比基准: 与同类模型的分数对比
[ ] 推理成本: 每百万 Token 的推理成本（如果提供）

3. 使用限制

[ ] 许可协议: 是否允许商业使用？是否有用户量限制？
[ ] 安全限制: 是否有使用场景限制？
[ ] 偏见声明: 已知的偏见和局限性

4. 部署信息

[ ] 硬件要求: 需要多少 GPU 内存？
[ ] 量子化支持: 是否支持 GGUF / GPTQ / AWQ？
[ ] 框架支持: Transformers、llama.cpp、vLLM 等

模型部署工具链

模型获取
├── Hugging Face Hub → transformers 加载
├── ModelScope → 国内镜像下载
└── 直接下载 weights → 手动加载

量子化优化（可选）
├── llama.cpp / GGUF → CPU / 端侧部署
├── AutoGPTQ / GPTQ → 4-bit 量子化
├── AutoAWQ / AWQ → 4-bit 加速
└── bitsandbytes / NF4 → QLoRA 微调

服务化部署
├── vLLM → 高并发 API 服务
├── TGI (Text Generation Inference) → HF 官方服务
├── Ollama → 本地快速部署
└── llama.cpp server → 轻量 API 服务

模型选型决策树

场景	推荐模型	理由
本地快速原型	Llama 3.2 3B / Qwen2.5 3B	超轻量、响应快
中文产品	Qwen2.5 72B / DeepSeek-V3	中文能力顶尖
代码助手	DeepSeek-Coder / Qwen2.5-Coder	代码理解强
端侧部署	Phi-4 / Gemma 2 2B	小参数、高质量
高并发 API	DeepSeek-V3 / Llama 3.1 405B	开源、可自部署
多模态应用	Qwen-VL / MiniCPM-V	视觉理解能力

最后更新：2025-04-28 | 模型更新频繁，建议定期检查 Hugging Face Trending 页面。

模型仓库导航 ​

核心模型仓库平台 ​

Hugging Face Hub ​

ModelScope (魔搭社区) ​

Ollama ​

vLLM + 自定义部署 ​

热门开源模型速查 ​

通用语言模型 ​

推理模型 ​

多模态模型 ​

编码模型 ​

模型卡（Model Card）阅读指南 ​

1. 基础信息 ​

2. 性能指标 ​

3. 使用限制 ​

4. 部署信息 ​

模型部署工具链 ​

模型选型决策树 ​

模型仓库导航

核心模型仓库平台

Hugging Face Hub

ModelScope (魔搭社区)

Ollama

vLLM + 自定义部署

热门开源模型速查

通用语言模型

推理模型

多模态模型

编码模型

模型卡（Model Card）阅读指南

1. 基础信息

2. 性能指标

3. 使用限制

4. 部署信息

模型部署工具链

模型选型决策树