比较

AI / LLM 领域的关键路线对比分析，从模型选择到工程决策。

模型路线对比

选择哪个模型、哪条路线——面向决策层的宏观对比。

GPT-4o vs Claude vs Gemini 2.5 Pro — 三强闭源 API 模型（GPT-4o / Claude / Gemini 2.5 Pro）的能力、定价与场景选型对比。
Llama vs Qwen vs DeepSeek — 三大开源模型家族在架构、许可、生态与场景选择上的全方位比较。
DeepSeek-R1 vs o3 vs Claude Thinking — DeepSeek-R1、OpenAI o3、Claude Thinking 的推理范式对比。
Open Source vs Closed Source LLMs — 闭源与开源路线在能力、成本、隐私、治理上的系统对比。
OpenAI vs Anthropic — OpenAI 产品广度 vs Anthropic 安全深度的多维度对比。
中国大模型全景对比 — Kimi、Qwen、DeepSeek、文心一言、MiniMax、GLM 中国大模型六强全景对比。
图像生成模型对比 — DALL·E 3、Midjourney、Stable Diffusion、Flux、Ideogram 图像生成模型深度对比。
ComfyUI vs SD WebUI vs Fooocus — 三大 Stable Diffusion 图像生成界面深度对比。
视频生成模型对比 — Sora、Runway Gen-3、可灵、海螺、Pika、Veo、Seedance 等主流 AI 视频生成模型的深度对比。
多模态模型对比 — GPT-4o、Gemini、Claude、Qwen-VL、LLaVA 等主流多模态模型在视觉、视频、音频理解上的能力对比。
LLM vs World Models — 大语言模型（符号推理）与世界模型（物理模拟）在架构、能力边界、应用场景和融合趋势上的系统对比。

技术方案对比

用哪种技术实现。

DPO vs RLHF vs PPO — DPO、RLHF、PPO 三种偏好对齐方法的原理、效率与效果对比。
Full FT vs LoRA vs QLoRA — 全量微调与参数高效微调方法在资源、性能上的对比。
Transformer vs SSM (Mamba / RWKV / Jamba) — Transformer 与状态空间模型（Mamba/RWKV/Jamba）的架构流派之争。
MoE vs Dense 架构 — Mixture of Experts 与 Dense 架构在训练成本、推理效率、部署难度上的系统对比。
编程专用模型对比 — Claude、GPT-4o、DeepSeek-Coder、Qwen-Coder、Codestral 等编程专用模型在代码生成、SWE-bench、多语言支持上的对比。
Embedding 模型对比 — OpenAI、Cohere、BGE、E5、GTE、Jina 等主流 Embedding 模型在 MTEB 基准、维度、多语言支持和定价上的对比。
Embedding 服务/API 对比 — OpenAI、Cohere、Jina AI、BGE、Voyage 等主流 Embedding 服务商在性能、定价、特色功能上的对比。
提示策略对比 — Zero-shot、Few-shot、Chain-of-Thought、ReAct、Tree of Thoughts 等提示策略在效果、成本和适用场景上的对比。
AI 安全对齐方法对比 — RLHF、Constitutional AI、DPO、RLAIF、Red Teaming、水印等安全对齐方法在原理、可扩展性和效果上的对比。
合成数据 vs 真实数据 — 合成数据与真实数据在模型训练中的成本、质量、多样性和适用场景对比。
合成数据生成方法对比 — 传统程序化、GAN/VAE、模型生成、差分隐私等主流合成数据生成方法的系统对比。

工程架构对比

系统如何搭建。

RAG vs Long Context — 检索增强生成与长上下文模型在成本、准确性上的系统对比。
RAG vs Fine-Tuning vs Prompt Engineering — RAG、微调与提示工程三种领域适配策略的系统对比。
Workflow vs Agent — 预定义编排流程与动态 Agent 决策的工程权衡与选型指南。
Hosted API vs Self-Hosted (vLLM) — API 服务与自托管推理在成本、延迟、控制上的对比。
Edge vs Cloud Inference — 端侧推理与云端推理在隐私、延迟、成本、能力上的系统对比。
Cloud AI 平台对比 — AWS Bedrock、Azure AI、GCP Vertex AI、阿里云百炼、火山引擎云 AI 平台全景对比。
AWS Bedrock vs Azure AI vs GCP Vertex AI — 国际三大云 AI 平台深度对比。
向量数据库对比 — Pinecone、Weaviate、Milvus、Chroma、Qdrant、pgvector、Redis 等主流向量数据库在性能、扩展性、功能和成本上的全面对比。
Agent 框架对比 — Agent 框架对比：LangGraph、LlamaIndex、CrewAI、AutoGen、OpenAI Agents SDK、Google ADK、Pydantic AI、Dify、n8n 等主流开发框架的全方位对比。
自主 Agent 产品对比 — 自主 Agent 产品对比：Hermes Agent、OpenClaw、Cline、Aider、AutoGPT 等面向用户的自主 AI Agent 产品在消息渠道、核心能力与选型上的深度对比。
推理框架深度对比 — vLLM、TensorRT-LLM、TGI、llama.cpp、Ollama、SGLang 等主流 LLM 推理框架在吞吐量、延迟、支持模型、量化与部署复杂度上的深度对比。
Ollama vs LM Studio vs llama.cpp — 三大本地 LLM 运行工具对比。
语音模型对比 — ElevenLabs、Azure TTS、Google Cloud TTS、Whisper、Deepgram 等主流 TTS/STT 模型与平台在质量、定价、延迟、语言支持上的全面对比。
小模型 vs 大模型 — SLM（小语言模型）与 LLM（大语言模型）在能力、成本、部署、应用场景上的系统对比。

评估与方法对比

如何评估与测量。

LLM 评测基准对比 — MMLU、HumanEval、GSM8K、SWE-bench、MTEB、Arena ELO 等主流 LLM 评测基准在评测维度、适用模型、局限性和可信度上的全面对比。

比较 ​

模型路线对比 ​

技术方案对比 ​

工程架构对比 ​

评估与方法对比 ​

比较

模型路线对比

技术方案对比

工程架构对比

评估与方法对比