Skip to content

模型仓库导航

在哪里找到 GPT 级别的开源模型?如何快速理解一个模型的能力和限制?本页面提供模型仓库导航和模型卡阅读方法。

相关概念:Hugging Face · Model Inference & Deployment · Embedding Models / Vector Representations · LLM Evaluation · AI Agents

核心模型仓库平台

Hugging Face Hub

AI 界的 GitHub,最大的开源模型和数据集平台。

  • 地址: huggingface.co
  • 特点: 50万+ 模型、Transformers 库、免费 API 推理
  • 必备工具: transformers, datasets, accelerate, peft

快速开始:

bash
pip install transformers
from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained("meta-llama/Llama-2-7b")
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b")

ModelScope (魔搭社区)

阿里云托管的中文 AI 模型平台。

  • 地址: modelscope.cn
  • 特点: 中文模型丰富、国内访问速度快、支持模型即时体验
  • 代表模型: Qwen、通义千问、百川、ChatGLM

Ollama

本地运行大模型的最简单方式。

  • 地址: ollama.com
  • 特点: 一行命令运行模型、自动下载、支持自定义 Modelfile
  • 常用命令:
bash
ollama run llama3.2
ollama run qwen2.5
ollama run deepseek-r1

vLLM + 自定义部署

生产级高并发推理。

  • 地址: github.com/vllm-project/vllm
  • 特点: PagedAttention 加速、OpenAI 兼容 API、支持多 GPU
  • 常用场景: 自建 API 服务、微调模型部署

热门开源模型速查

通用语言模型

模型参数语言许可特点
Llama 3.1/3.28B/70B/405B多语言Llama 3.1Meta 最新开源模型
Qwen 2.50.5B-72B多语言Qwen阿里开源,中英文优秀
DeepSeek-V3671B (37B激活)中英文MIT极致效率的 MoE
Mistral 7B / Nemo7B/12B多语言Apache 2.0性能强劲的小模型
Gemma 22B/9B/27B多语言GemmaGoogle 轻量级模型
Phi-414B英文MITMicrosoft 高质量小模型
Yi-1.56B/9B/34B多语言Apache 2.001.AI 开源模型

推理模型

模型参数特点来源
DeepSeek-R1671B类 o1 推理能力,完全开源DeepSeek
Qwen QwQ32BQwen 思考模型阿里
Llama 3.1 Reasoning变化基于 Llama 的推理模型社区

多模态模型

模型能力来源
LLaVA图像理解 + 对话社区
Qwen-VL视觉理解 + 文本阿里
InternVL高端视觉理解商汤
MiniCPM-V端侧多模态清华

编码模型

模型能力来源
CodeLlama代码生成/补全Meta
StarCoder230+ 语言BigCode
DeepSeek-Coder代码理解/生成DeepSeek
Qwen2.5-Coder代码专用阿里

模型卡(Model Card)阅读指南

模型卡是了解一个模型的第一站。以下是关键信息检索清单:

1. 基础信息

  • [ ] 架构: Transformer / MoE / SSM / 混合?
  • [ ] 参数量: 总参数 vs 激活参数(对 MoE 重要)
  • [ ] 上下文长度: 支持的最大输入长度
  • [ ] 训练数据: 数据来源、规模、时间截止点

2. 性能指标

  • [ ] 评测分数: MMLU、HumanEval、GSM8K 等基准分数
  • [ ] 对比基准: 与同类模型的分数对比
  • [ ] 推理成本: 每百万 Token 的推理成本(如果提供)

3. 使用限制

  • [ ] 许可协议: 是否允许商业使用?是否有用户量限制?
  • [ ] 安全限制: 是否有使用场景限制?
  • [ ] 偏见声明: 已知的偏见和局限性

4. 部署信息

  • [ ] 硬件要求: 需要多少 GPU 内存?
  • [ ] 量子化支持: 是否支持 GGUF / GPTQ / AWQ?
  • [ ] 框架支持: Transformers、llama.cpp、vLLM 等

模型部署工具链

模型获取
├── Hugging Face Hub → transformers 加载
├── ModelScope → 国内镜像下载
└── 直接下载 weights → 手动加载

量子化优化(可选)
├── llama.cpp / GGUF → CPU / 端侧部署
├── AutoGPTQ / GPTQ → 4-bit 量子化
├── AutoAWQ / AWQ → 4-bit 加速
└── bitsandbytes / NF4 → QLoRA 微调

服务化部署
├── vLLM → 高并发 API 服务
├── TGI (Text Generation Inference) → HF 官方服务
├── Ollama → 本地快速部署
└── llama.cpp server → 轻量 API 服务

模型选型决策树

场景推荐模型理由
本地快速原型Llama 3.2 3B / Qwen2.5 3B超轻量、响应快
中文产品Qwen2.5 72B / DeepSeek-V3中文能力顶尖
代码助手DeepSeek-Coder / Qwen2.5-Coder代码理解强
端侧部署Phi-4 / Gemma 2 2B小参数、高质量
高并发 APIDeepSeek-V3 / Llama 3.1 405B开源、可自部署
多模态应用Qwen-VL / MiniCPM-V视觉理解能力

最后更新:2025-04-28 | 模型更新频繁,建议定期检查 Hugging Face Trending 页面。

AI Knowledge Base — 持续积累