Appearance
语音模型对比
语音 AI 正在从"辅助功能"进化为"核心交互方式"。从 GPT-4o 的实时语音对话、ElevenLabs 的超真实 TTS,到 Whisper 的多语言识别,语音技术已经达到商业可用的成熟度。本页深度对比 TTS 和 STT 领域的主流模型与平台。
TTS (文本到语音) 对比
快速对比
| 平台 | 公司 | 语音质量 | 延迟 | 语言支持 | 声音克隆 | 定价 | 最大亮点 |
|---|---|---|---|---|---|---|---|
| ElevenLabs | ElevenLabs | ★★★★★ | 低 | 29+ | ✅ (极强) | $5-330/月 | 超真实、情感丰富 |
| Azure TTS | Microsoft | ★★★★☆ | 低 | 140+ | ✅ | API 按量 | 企业级、多语言 |
| Google Cloud TTS | ★★★★☆ | 低 | 40+ | ✅ | API 按量 | WaveNet 技术、稳定 | |
| Amazon Polly | AWS | ★★★☆☆ | 低 | 30+ | ❌ | API 按量 | 标准化、成本低 |
| OpenAI TTS | OpenAI | ★★★★☆ | 低 | 多语言 | ❌ | API 按量 | 简单、高质量 |
| Fish Audio | Fish Audio | ★★★★☆ | 中 | 中英日韩等 | ✅ | 免费 + 自托管 | 开源、声音克隆 |
| XTTS | Coqui | ★★★★☆ | 中 | 多语言 | ✅ | 免费 | 开源、声音克隆 |
| Cartesia | Cartesia | ★★★★★ | 极低 | 多语言 | ✅ | API 按量 | 实时性、情感控制 |
质量与特性深度对比
| 特性 | ElevenLabs | Azure TTS | Google TTS | Amazon Polly | OpenAI TTS | Fish Audio | XTTS |
|---|---|---|---|---|---|---|---|
| 自然度 | ★★★★★ | ★★★★☆ | ★★★★☆ | ★★★☆☆ | ★★★★☆ | ★★★★☆ | ★★★★☆ |
| 情感表达 | ★★★★★ | ★★★★☆ | ★★★★☆ | ★★★☆☆ | ★★★★☆ | ★★★★☆ | ★★★★☆ |
| 多语言 | ★★★★☆ | ★★★★★ | ★★★★☆ | ★★★☆☆ | ★★★★☆ | ★★★☆☆ | ★★★☆☆ |
| 声音克隆质量 | ★★★★★ | ★★★★☆ | ★★★★☆ | ❌ | ❌ | ★★★★☆ | ★★★★☆ |
| 实时性 | ★★★★☆ | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★☆ | ★★★☆☆ | ★★★☆☆ |
| API 易用性 | ★★★★★ | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★★★ | ★★★☆☆ | ★★★☆☆ |
| 定价亲民度 | ★★★☆☆ | ★★★★☆ | ★★★★☆ | ★★★★★ | ★★★★☆ | ★★★★★ | ★★★★★ |
ElevenLabs — TTS 质量天花板
ElevenLabs 是当前 TTS 领域的标杆产品,以超真实语音合成著称:
- 多级模型:
- Flash v2.5: 实时、低延迟
- Multilingual v2: 最高质量、多语言
- Turbo v2.5: 速度与质量平衡
- 声音库: 数千个预设声音,支持 29+ 语言
- 声音克隆: 仅需几秒音频即可复制声音
- Projects: 长文本有声书编辑工具
- Conversational AI: 实时对话系统
定价:
| 套餐 | 价格 | 包含 |
|---|---|---|
| Free | $0 | 10K 字符/月 |
| Starter | $5/月 | 30K 字符 |
| Creator | $22/月 | 100K 字符 |
| Pro | $99/月 | 500K 字符 |
| Scale | $330/月 | 2M 字符 |
企业云 TTS 对比
| 特性 | Azure TTS | Google Cloud TTS | Amazon Polly |
|---|---|---|---|
| 基础技术 | 自研神经声码合成 | WaveNet / Neural2 | 神经 TTS |
| 标准声音数量 | 400+ | 220+ | 60+ |
| 自定义声音 | 自定义神经声音 | 自定义声音 | Brand Voice |
| SSML 支持 | ✅ 完善 | ✅ | ✅ |
| 实时流式 | ✅ | ✅ | ✅ |
| 定价 (标准) | $1/100万字符 | $4/100万字符 | $4/100万字符 |
| 定价 (神经) | $15/100万字符 | $16/100万字符 | $16/100万字符 |
STT (语音到文本) 对比
快速对比
| 平台 | 公司 | 准确度 | 延迟 | 语言支持 | 实时流式 | 定价 | 最大亮点 |
|---|---|---|---|---|---|---|---|
| Whisper | OpenAI | ★★★★★ | 中 | 99+ | ❌ | 免费 + API | 开源、多语言、高准确度 |
| Whisper API | OpenAI | ★★★★★ | 中 | 99+ | ❌ | $0.006/分钟 | 云端服务、无需部署 |
| Azure Speech | Microsoft | ★★★★☆ | 低 | 100+ | ✅ | API 按量 | 企业级、实时、自定义模型 |
| Google Cloud STT | ★★★★☆ | 低 | 125+ | ✅ | API 按量 | 多语言、流式、自适应 | |
| Deepgram | Deepgram | ★★★★★ | 极低 | 30+ | ✅ | API 按量 | 实时、低延迟、性价比 |
| AssemblyAI | AssemblyAI | ★★★★☆ | 低 | 多语言 | ✅ | API 按量 | 分析功能丰富 |
| Rev.ai | Rev | ★★★★☆ | 低 | 30+ | ✅ | API 按量 | 人工校对选项 |
准确度与特性深度对比
| 特性 | Whisper | Azure Speech | Google STT | Deepgram | AssemblyAI |
|---|---|---|---|---|---|
| 英语准确度 (WER) | ~5-10% | ~5-12% | ~5-12% | ~5-10% | ~5-12% |
| 中文准确度 | ★★★★★ | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★★☆ |
| 实时流式 | ❌ | ✅ | ✅ | ✅ | ✅ |
| 说话人识别 | ✅ | ✅ | ✅ | ✅ | ✅ |
| 时间戳 | ✅ | ✅ | ✅ | ✅ | ✅ |
| 自定义词汇表 | ✅ | ✅ | ✅ | ✅ | ✅ |
| 情感分析 | ❌ | ❌ | ❌ | ❌ | ✅ |
| 摘要生成 | ❌ | ❌ | ❌ | ❌ | ✅ |
| 本地部署 | ✅ | ✅ | ❌ | ✅ | ❌ |
| 定价亲民度 | ★★★★★ | ★★★★☆ | ★★★★☆ | ★★★★★ | ★★★★☆ |
Whisper — STT 开源标准
OpenAI 的 Whisper 是 STT 领域的里程碑,以开源、多语言、高准确度著称:
- 模型尺寸: tiny、base、small、medium、large-v1/v2/v3
- 语言支持: 99 种语言,包括方言和少数民族语言
- 多任务: 语音识别 + 翻译 + 语言识别
- 本地运行: 支持 CPU/GPU 本地部署
- 社区: 极其活跃,大量第三方工具
Whisper 模型性能对比:
| 模型 | 参数 | 英语 WER | 多语言 WER | 速度 |
|---|---|---|---|---|
| tiny | 39M | ~18% | ~20% | 极快 |
| base | 74M | ~14% | ~16% | 很快 |
| small | 244M | ~10% | ~12% | 快 |
| medium | 769M | ~8% | ~10% | 中等 |
| large-v3 | 1550M | ~5% | ~7% | 慢 |
Deepgram — 实时 STT 专家
Deepgram 以实时性和低延迟为核心竞争力:
- Nova-2: 最新模型,准确度接近 Whisper
- 延迟: <300ms 实时转录
- 自定义模型: 支持针对特定领域训练自定义模型
- 定价: $0.0043/分钟 (标准),性价比极高
端到端语音交互
| 产品 | 公司 | 特点 | 延迟 | 定价 |
|---|---|---|---|---|
| GPT-4o Voice | OpenAI | 实时对话、情感理解、多语言 | 低 | API 按量 |
| Gemini Live | 多模态、实时交互 | 低 | API 按量 | |
| Claude Voice | Anthropic | 安全、可靠的语音交互 | 中 | API 按量 |
| ElevenLabs Conversational | ElevenLabs | 实时对话、声音克隆 | 低 | API 按量 |
定价总览
TTS 定价
| 平台 | 免费额度 | 标准价 | 神经/高级价 |
|---|---|---|---|
| ElevenLabs | 10K 字符/月 | - | $5-330/月 |
| Azure TTS | 500K 字符/月 | $1/100万字符 | $15/100万字符 |
| Google TTS | 400万字符/月 | $4/100万字符 | $16/100万字符 |
| Amazon Polly | 500万字符/月 | $4/100万字符 | $16/100万字符 |
| OpenAI TTS | - | $0.015/1K 字符 | - |
| Fish Audio | 免费自托管 | 免费 | 免费 |
| XTTS | 免费 | 免费 | 免费 |
STT 定价
| 平台 | 免费额度 | 标准价 | 实时流式价 |
|---|---|---|---|
| Whisper | 免费 (本地) | 免费 | 免费 |
| Whisper API | - | $0.006/分钟 | - |
| Azure Speech | 5 小时/月 | $1/小时 | $2.5/小时 |
| Google STT | 60 分钟/月 | $0.024/分钟 | $0.048/分钟 |
| Deepgram | $200 免费配额 | $0.0043/分钟 | $0.0075/分钟 |
| AssemblyAI | $50 免费配额 | $0.37/小时 | $0.47/小时 |
选型建议
TTS 选型
| 场景 | 推荐 | 理由 |
|---|---|---|
| 最高质量、有声书 | ElevenLabs | 超真实、情感丰富、声音克隆极强 |
| 企业级、多语言 | Azure TTS | 140+ 语言、企业级 SLA、与 Azure 生态整合 |
| 低成本、开源 | Fish Audio / XTTS | 免费、可自托管、声音克隆能力强 |
| 实时对话系统 | Cartesia / ElevenLabs Flash | 极低延迟、实时流式 |
| 简单集成 | OpenAI TTS | API 简洁、质量可靠 |
| 标准化、成本优先 | Amazon Polly | 最便宜、AWS 生态 |
STT 选型
| 场景 | 推荐 | 理由 |
|---|---|---|
| 开源、本地部署 | Whisper | 免费、多语言、可离线运行 |
| 实时转录、低延迟 | Deepgram | <300ms 延迟、性价比极高 |
| 企业级、自定义模型 | Azure Speech | 企业级、自定义训练、实时流式 |
| 分析功能丰富 | AssemblyAI | 情感分析、摘要、说话人识别 |
| 简单集成 | Whisper API | 简洁 API、无需部署 |
端到端语音交互选型
| 场景 | 推荐 | 理由 |
|---|---|---|
| 通用对话 AI | GPT-4o Voice | 情感理解最强、多语言 |
| Google 生态 | Gemini Live | 与 Google 服务整合 |
| 安全可靠 | Claude Voice | Anthropic 安全理念 |
| 定制声音对话 | ElevenLabs Conversational | 声音克隆 + 实时对话 |
技术趋势
- 实时对话成为标配: GPT-4o、Gemini Live 等标志着语音从"输入输出"进化为"交互方式"
- 声音克隆民主化: ElevenLabs 等平台让任何人都能复制声音,但也带来深度伪造风险
- 开源追赶闭源: Fish Audio、XTTS 等开源方案质量接近商业产品
- 多语言竞争: 从英语主导向中文、日语、韩语等多语言支持发展
- 情感 TTS: 从"机械读音"进化为"情感表达",支持语气、情绪、停顿控制
相关页面
- Speech AI (TTS / STT) — 语音 AI (TTS / STT) 概念页
- ElevenLabs — ElevenLabs 实体页面
- Multimodal Models — 多模态模型
- AI Agents — AI Agent 架构
- Watermarking / AI Detection — AI 内容水印与检测
参考来源
- ElevenLabs 技术文档与定价页面
- OpenAI Whisper 论文 (2022) 与 API 文档
- Microsoft Azure Speech 服务文档
- Google Cloud Speech-to-Text 与 Text-to-Speech 文档
- Deepgram 官方文档与定价
- Fish Audio 开源项目 GitHub
- Coqui XTTS 开源项目