语音模型对比

语音 AI 正在从"辅助功能"进化为"核心交互方式"。从 GPT-4o 的实时语音对话、ElevenLabs 的超真实 TTS，到 Whisper 的多语言识别，语音技术已经达到商业可用的成熟度。本页深度对比 TTS 和 STT 领域的主流模型与平台。

TTS (文本到语音) 对比

快速对比

平台	公司	语音质量	延迟	语言支持	声音克隆	定价	最大亮点
ElevenLabs	ElevenLabs	★★★★★	低	29+	✅ (极强)	$5-330/月	超真实、情感丰富
Azure TTS	Microsoft	★★★★☆	低	140+	✅	API 按量	企业级、多语言
Google Cloud TTS	Google	★★★★☆	低	40+	✅	API 按量	WaveNet 技术、稳定
Amazon Polly	AWS	★★★☆☆	低	30+	❌	API 按量	标准化、成本低
OpenAI TTS	OpenAI	★★★★☆	低	多语言	❌	API 按量	简单、高质量
Fish Audio	Fish Audio	★★★★☆	中	中英日韩等	✅	免费 + 自托管	开源、声音克隆
XTTS	Coqui	★★★★☆	中	多语言	✅	免费	开源、声音克隆
Cartesia	Cartesia	★★★★★	极低	多语言	✅	API 按量	实时性、情感控制

质量与特性深度对比

特性	ElevenLabs	Azure TTS	Google TTS	Amazon Polly	OpenAI TTS	Fish Audio	XTTS
自然度	★★★★★	★★★★☆	★★★★☆	★★★☆☆	★★★★☆	★★★★☆	★★★★☆
情感表达	★★★★★	★★★★☆	★★★★☆	★★★☆☆	★★★★☆	★★★★☆	★★★★☆
多语言	★★★★☆	★★★★★	★★★★☆	★★★☆☆	★★★★☆	★★★☆☆	★★★☆☆
声音克隆质量	★★★★★	★★★★☆	★★★★☆	❌	❌	★★★★☆	★★★★☆
实时性	★★★★☆	★★★★★	★★★★★	★★★★★	★★★★☆	★★★☆☆	★★★☆☆
API 易用性	★★★★★	★★★★☆	★★★★☆	★★★★☆	★★★★★	★★★☆☆	★★★☆☆
定价亲民度	★★★☆☆	★★★★☆	★★★★☆	★★★★★	★★★★☆	★★★★★	★★★★★

ElevenLabs — TTS 质量天花板

ElevenLabs 是当前 TTS 领域的标杆产品，以超真实语音合成著称：

多级模型:
- Flash v2.5: 实时、低延迟
- Multilingual v2: 最高质量、多语言
- Turbo v2.5: 速度与质量平衡
声音库: 数千个预设声音，支持 29+ 语言
声音克隆: 仅需几秒音频即可复制声音
Projects: 长文本有声书编辑工具
Conversational AI: 实时对话系统

定价:

套餐	价格	包含
Free	$0	10K 字符/月
Starter	$5/月	30K 字符
Creator	$22/月	100K 字符
Pro	$99/月	500K 字符
Scale	$330/月	2M 字符

企业云 TTS 对比

特性	Azure TTS	Google Cloud TTS	Amazon Polly
基础技术	自研神经声码合成	WaveNet / Neural2	神经 TTS
标准声音数量	400+	220+	60+
自定义声音	自定义神经声音	自定义声音	Brand Voice
SSML 支持	✅ 完善	✅	✅
实时流式	✅	✅	✅
定价 (标准)	$1/100万字符	$4/100万字符	$4/100万字符
定价 (神经)	$15/100万字符	$16/100万字符	$16/100万字符

STT (语音到文本) 对比

快速对比

平台	公司	准确度	延迟	语言支持	实时流式	定价	最大亮点
Whisper	OpenAI	★★★★★	中	99+	❌	免费 + API	开源、多语言、高准确度
Whisper API	OpenAI	★★★★★	中	99+	❌	$0.006/分钟	云端服务、无需部署
Azure Speech	Microsoft	★★★★☆	低	100+	✅	API 按量	企业级、实时、自定义模型
Google Cloud STT	Google	★★★★☆	低	125+	✅	API 按量	多语言、流式、自适应
Deepgram	Deepgram	★★★★★	极低	30+	✅	API 按量	实时、低延迟、性价比
AssemblyAI	AssemblyAI	★★★★☆	低	多语言	✅	API 按量	分析功能丰富
Rev.ai	Rev	★★★★☆	低	30+	✅	API 按量	人工校对选项

准确度与特性深度对比

特性	Whisper	Azure Speech	Google STT	Deepgram	AssemblyAI
英语准确度 (WER)	~5-10%	~5-12%	~5-12%	~5-10%	~5-12%
中文准确度	★★★★★	★★★★☆	★★★★☆	★★★★☆	★★★★☆
实时流式	❌	✅	✅	✅	✅
说话人识别	✅	✅	✅	✅	✅
时间戳	✅	✅	✅	✅	✅
自定义词汇表	✅	✅	✅	✅	✅
情感分析	❌	❌	❌	❌	✅
摘要生成	❌	❌	❌	❌	✅
本地部署	✅	✅	❌	✅	❌
定价亲民度	★★★★★	★★★★☆	★★★★☆	★★★★★	★★★★☆

Whisper — STT 开源标准

OpenAI 的 Whisper 是 STT 领域的里程碑，以开源、多语言、高准确度著称：

模型尺寸: tiny、base、small、medium、large-v1/v2/v3
语言支持: 99 种语言，包括方言和少数民族语言
多任务: 语音识别 + 翻译 + 语言识别
本地运行: 支持 CPU/GPU 本地部署
社区: 极其活跃，大量第三方工具

Whisper 模型性能对比:

模型	参数	英语 WER	多语言 WER	速度
tiny	39M	~18%	~20%	极快
base	74M	~14%	~16%	很快
small	244M	~10%	~12%	快
medium	769M	~8%	~10%	中等
large-v3	1550M	~5%	~7%	慢

Deepgram — 实时 STT 专家

Deepgram 以实时性和低延迟为核心竞争力：

Nova-2: 最新模型，准确度接近 Whisper
延迟: <300ms 实时转录
自定义模型: 支持针对特定领域训练自定义模型
定价: $0.0043/分钟 (标准)，性价比极高

端到端语音交互

产品	公司	特点	延迟	定价
GPT-4o Voice	OpenAI	实时对话、情感理解、多语言	低	API 按量
Gemini Live	Google	多模态、实时交互	低	API 按量
Claude Voice	Anthropic	安全、可靠的语音交互	中	API 按量
ElevenLabs Conversational	ElevenLabs	实时对话、声音克隆	低	API 按量

定价总览

TTS 定价

平台	免费额度	标准价	神经/高级价
ElevenLabs	10K 字符/月	-	$5-330/月
Azure TTS	500K 字符/月	$1/100万字符	$15/100万字符
Google TTS	400万字符/月	$4/100万字符	$16/100万字符
Amazon Polly	500万字符/月	$4/100万字符	$16/100万字符
OpenAI TTS	-	$0.015/1K 字符	-
Fish Audio	免费自托管	免费	免费
XTTS	免费	免费	免费

STT 定价

平台	免费额度	标准价	实时流式价
Whisper	免费 (本地)	免费	免费
Whisper API	-	$0.006/分钟	-
Azure Speech	5 小时/月	$1/小时	$2.5/小时
Google STT	60 分钟/月	$0.024/分钟	$0.048/分钟
Deepgram	$200 免费配额	$0.0043/分钟	$0.0075/分钟
AssemblyAI	$50 免费配额	$0.37/小时	$0.47/小时

选型建议

TTS 选型

场景	推荐	理由
最高质量、有声书	ElevenLabs	超真实、情感丰富、声音克隆极强
企业级、多语言	Azure TTS	140+ 语言、企业级 SLA、与 Azure 生态整合
低成本、开源	Fish Audio / XTTS	免费、可自托管、声音克隆能力强
实时对话系统	Cartesia / ElevenLabs Flash	极低延迟、实时流式
简单集成	OpenAI TTS	API 简洁、质量可靠
标准化、成本优先	Amazon Polly	最便宜、AWS 生态

STT 选型

场景	推荐	理由
开源、本地部署	Whisper	免费、多语言、可离线运行
实时转录、低延迟	Deepgram	<300ms 延迟、性价比极高
企业级、自定义模型	Azure Speech	企业级、自定义训练、实时流式
分析功能丰富	AssemblyAI	情感分析、摘要、说话人识别
简单集成	Whisper API	简洁 API、无需部署

端到端语音交互选型

场景	推荐	理由
通用对话 AI	GPT-4o Voice	情感理解最强、多语言
Google 生态	Gemini Live	与 Google 服务整合
安全可靠	Claude Voice	Anthropic 安全理念
定制声音对话	ElevenLabs Conversational	声音克隆 + 实时对话

技术趋势

实时对话成为标配: GPT-4o、Gemini Live 等标志着语音从"输入输出"进化为"交互方式"
声音克隆民主化: ElevenLabs 等平台让任何人都能复制声音，但也带来深度伪造风险
开源追赶闭源: Fish Audio、XTTS 等开源方案质量接近商业产品
多语言竞争: 从英语主导向中文、日语、韩语等多语言支持发展
情感 TTS: 从"机械读音"进化为"情感表达"，支持语气、情绪、停顿控制

参考来源

ElevenLabs 技术文档与定价页面
OpenAI Whisper 论文 (2022) 与 API 文档
Microsoft Azure Speech 服务文档
Google Cloud Speech-to-Text 与 Text-to-Speech 文档
Deepgram 官方文档与定价
Fish Audio 开源项目 GitHub
Coqui XTTS 开源项目

语音模型对比 ​

TTS (文本到语音) 对比 ​

快速对比 ​

质量与特性深度对比 ​

ElevenLabs — TTS 质量天花板 ​

企业云 TTS 对比 ​

STT (语音到文本) 对比 ​

快速对比 ​

准确度与特性深度对比 ​

Whisper — STT 开源标准 ​

Deepgram — 实时 STT 专家 ​

端到端语音交互 ​

定价总览 ​

TTS 定价 ​

STT 定价 ​

选型建议 ​

TTS 选型 ​

STT 选型 ​

端到端语音交互选型 ​

技术趋势 ​

相关页面 ​

参考来源 ​

语音模型对比

TTS (文本到语音) 对比

快速对比

质量与特性深度对比

ElevenLabs — TTS 质量天花板

企业云 TTS 对比

STT (语音到文本) 对比

快速对比

准确度与特性深度对比

Whisper — STT 开源标准

Deepgram — 实时 STT 专家

端到端语音交互

定价总览

TTS 定价

STT 定价

选型建议

TTS 选型

STT 选型

端到端语音交互选型

技术趋势

相关页面

参考来源