Speech AI (TTS / STT)

语音 AI 正在经历一场革命。从 GPT-4o 的实时语音对话、ElevenLabs 的超真实 TTS，到 Fish Audio 的开源方案，语音技术正在从"机器感"进化为"人类级"。本页覆盖 TTS、STT 和端到端语音交互的核心技术与产品。

技术分类

TTS (Text-to-Speech) 文本到语音

将文本转换为自然语音的技术：

方法	原理	优点	代表
传统合成	规则驱动 + 声学模型	可控、可解释	早期 Siri
统计参数合成	隐马尔可夫模型 (HMM)	自然度提升	中期 TTS
神经网络合成	Tacotron、WaveNet	高度自然	Google Assistant
大模型合成	Transformer + 扩散模型	超真实、多语言	ElevenLabs, GPT-4o

STT (Speech-to-Text) 语音到文本

将语音转换为文本的技术：

方法	原理	优点	代表
传统识别	HMM + GMM	计算效率高	早期语音输入法
深度学习	CTC + RNN	准确度大幅提升	DeepSpeech
Transformer	自注意力编码器	上下文理解	Whisper
多模态	音频 + 文本联合	实时对话	GPT-4o

主流产品与平台

TTS 平台

产品	公司	特点	定价
ElevenLabs	ElevenLabs	超真实、情感丰富、多语言	免费额度 + 订阅
Azure TTS	Microsoft	企业级、多语言	API 按量
Google Cloud TTS	Google	WaveNet 技术	API 按量
Amazon Polly	AWS	多语言、标准化	API 按量
Fish Audio	Fish Audio	开源、声音克隆	免费 + 自托管
XTTS	Coqui	开源、声音克隆	免费

STT 平台

产品	公司	特点	定价
Whisper	OpenAI	开源、多语言、高准确度	免费 + API
Whisper API	OpenAI	云端服务	API 按量
Azure Speech	Microsoft	企业级、实时	API 按量
Google Cloud STT	Google	多语言、流式	API 按量
Deepgram	Deepgram	实时、低延迟	API 按量

端到端语音交互

产品	公司	特点
GPT-4o Voice	OpenAI	实时对话、情感理解、多语言
Gemini Live	Google	多模态、实时交互
Claude Voice	Anthropic	安全、可靠的语音交互

技术进展

语音克隆 (Voice Cloning)

用少量样本复制任意声音：

原理: 提取声音特征 → 生成相同声色的语音
应用: 有声书、广告、游戏、助手
风险: 深度伪造 (Deepfake)、身份冒充

实时对话

延迟: 从数秒级降到数百毫秒
情感: 理解语气、情绪、停顿
打断: 支持自然的对话节奏

多语言支持

ElevenLabs: 支持 29 种语言
Whisper: 支持 99 种语言
Fish Audio: 支持中英日韩等主流语言

应用场景

场景	技术	产品例子
有声书	TTS	Audible, 喜马拉雅
视频配音	TTS	抖音, YouTube
客服机器人	STT + TTS + LLM	智能客服
无障碍辅助	STT + TTS	语音输入法
游戏 NPC	TTS + 声音克隆	游戏角色
教育	实时对话	语言学习 App

挑战与风险

技术挑战

实时性: 低延迟与高质量的平衡
多说话人: 识别和区分多个说话者
噪音环境: 复杂声学环境下的准确性
方言与口音: 处理地域差异

伦理风险

深度伪造: 语音克隆技术被滥用
版权问题: 使用他人声音的合法性
隐私泄露: 语音数据的收集与使用
身份冒充: 通过语音验证系统的攻击

Synthesis

语音 AI 正在从"辅助功能"进化为"核心交互方式"。GPT-4o 的实时语音对话能力标志着这一转折点——AI 不再只是文本工具，而是能够通过自然语言与人类交互的智能体。ElevenLabs 等产品的成功也证明了消费者对高质量语音的强烈需求。

Multimodal Models — 多模态模型
AI Agents — AI Agent 架构
Cursor — AI 编程 IDE
Watermarking / AI Detection — AI 内容水印与检测

Sources

ElevenLabs 技术文档
OpenAI GPT-4o 发布会
Whisper 论文 (OpenAI, 2022)
Fish Audio 开源项目

Speech AI (TTS / STT) ​

技术分类 ​

TTS (Text-to-Speech) 文本到语音 ​

STT (Speech-to-Text) 语音到文本 ​

主流产品与平台 ​

TTS 平台 ​

STT 平台 ​

端到端语音交互 ​

技术进展 ​

语音克隆 (Voice Cloning) ​

实时对话 ​

多语言支持 ​

应用场景 ​

挑战与风险 ​

技术挑战 ​

伦理风险 ​

Synthesis ​

Related Pages ​

Sources ​

Speech AI (TTS / STT)

技术分类

TTS (Text-to-Speech) 文本到语音

STT (Speech-to-Text) 语音到文本

主流产品与平台

TTS 平台

STT 平台

端到端语音交互

技术进展

语音克隆 (Voice Cloning)

实时对话

多语言支持

应用场景

挑战与风险

技术挑战

伦理风险

Synthesis

Related Pages

Sources