ByteDance AI (豆包 / Seed)

字节跳动（ByteDance）是中国互联网巨头中 AI 投入最激进的公司之一。以 "豆包"（Doubao）C 端应用和 "Seed" 研究团队为核心，字节在基座模型、多模态生成、音乐/视频 AI 和 Agent 平台等领域全面布局。豆包是国内日活（DAU）最高的 AI 助手应用之一。

Overview

字节跳动的 AI 布局分为三层：

C 端产品层：豆包 App（通用 AI 助手）、猫箱（AI 角色扮演）、星绘（AI 绘画）、即梦 Dreamina（AI 视频）、海绵音乐（AI 音乐）
B 端平台层：火山引擎（Volcano Engine）——字节的企业云服务平台，提供模型 API、推理服务和行业解决方案
研究层：Seed 研究团队——字节的前沿 AI 研究部门，负责基座模型和多模态技术研发

与其他中国 AI 公司不同，字节的核心优势在于 算法推荐基因 + 全球化产品能力 + 超级应用流量入口。TikTok/抖音的推荐算法积累直接转化为 LLM 训练的数据理解和分发能力。

Seed Team & 基座模型

字节跳动的基座模型由 Seed 研究团队开发：

模型	时间	规模	特点
云雀/Skylark	2023	未公开	初代内部模型，服务抖音/头条等业务
Doubao-pro / Doubao-lite	2024	未公开	对外商用主力模型，Pro 版对标 GPT-4，Lite 版轻量高速
Doubao-vision	2024	未公开	多模态模型，图像理解和生成
Doubao-research / Deep Research	2025	未公开	深度研究/推理模型，对标 DeepSeek-R1
Seed-TTS	2024	未公开	文本到语音，情感表达和音色克隆
Seed-Music	2024	未公开	音乐生成模型
	Seaweed / 即梦视频模型	2024-2025	未公开
	Seedance	2025-2026	未公开
	Seedream	2025-2026	未公开

Doubao-pro 技术特点

MoE 架构：采用稀疏专家混合架构，激活参数量远低于总参数量，推理成本可控
长上下文：支持 256K tokens 上下文窗口，可处理长文档和视频序列
中文优化：在中文理解、网络梗、社交媒体语境上的适配显著优于国际模型
多模态原生：文本、图像、视频、音频统一训练，而非后期拼接

产品矩阵

豆包（Doubao）App

定位：通用 AI 助手，类似 ChatGPT / 文心一言 / Kimi
用户规模：截至 2025 年底，月活（MAU）超过 7000 万，国内 AI 应用第一梯队
差异化功能：
- 语音对话（基于 Seed-TTS，情感丰富）
- AI 智能体广场（用户可创建和分享 Agent）
- 与抖音生态深度整合（视频摘要、直播辅助）
- 英语学习、写作辅助、代码生成等垂直场景

即梦（Dreamina）/ Seedance

定位：AI 视频生成平台
技术底座：Seedance (ByteDance) — 字节自研视频生成模型，最新版本 Seedance 2.0
能力：文本/图像生成视频、视频编辑、风格迁移、多模态视频生成
竞争：对标 OpenAI Sora、快手 Kling、Runway Gen-3
优势：与抖音内容生态直接打通，创作者可一键发布到抖音

详见独立实体页：Seedance (ByteDance)

火山引擎（Volcano Engine）

字节的企业 AI 服务平台：

服务	说明
大模型 API	Doubao-pro / Doubao-lite / 视觉模型等
推理服务	高并发、低延迟的模型推理托管
精调平台	支持 LoRA / 全量微调
AI 应用开发	低代码 Agent 和工作流构建

Benchmark 表现

基准	Doubao-pro	Doubao-lite	GPT-4o	DeepSeek-V3
MMLU	83.0%	75.0%	88.7%	87.1%
CMMLU (中文)	85.5%	78.0%	76.0%	82.0%
HumanEval	78.0%	65.0%	90.2%	92.0%
GSM8K	82.0%	70.0%	95.3%	90.0%

注：字节跳动官方公布的基准数据相对有限，以上部分为第三方评测估算。

API Pricing（截至 2026 年 4 月）

模型	输入 (元/1M tokens)	输出 (元/1M tokens)	备注
Doubao-pro	20	60	主力模型
Doubao-lite	5	15	轻量高速
Doubao-vision	30	90	多模态
Doubao-research	50	150	深度推理

注：字节的价格策略极具侵略性，是国内最低价的大模型 API 之一，体现了其 "用流量换市场" 的典型互联网打法。

生态与竞争

与其他中国 AI 公司的关系

vs 百度文心一言：百度先发优势但产品体验落后，豆包凭借更优的交互和抖音流量快速追赶
vs 阿里通义千问（Qwen）：阿里 B 端更强，字节 C 端更强；Qwen 开源生态更成熟
vs 月之暗面（Kimi）：Kimi 以长上下文为差异化，豆包以多模态和流量为优势
vs DeepSeek（DeepSeek）：DeepSeek 技术口碑更强，但字节产品化和商业化能力远超

全球化挑战

字节跳动的 AI 产品面临与 TikTok 类似的地缘政治挑战：

美国市场对 Doubao / 火山引擎的接受度有限
欧盟 AI Act 和数据主权要求构成合规壁垒
相比之下，模型层（通过开源或 API）出海比应用层更容易

Relationships

相关公司：OpenAI、DeepSeek、Qwen、Zhipu AI、Google DeepMind
相关概念：Multimodal Models、AI Agents、Mixture of Experts、Model Inference & Deployment、Retrieval Augmented Generation

Why It Matters

中国最大的 AI 应用流量入口：豆包的 DAU 数据使其成为观察中国 AI 消费级市场渗透率的最佳窗口
多模态工程化标杆：字节在视频生成（Seaweed）、音乐生成（Seed-Music）、语音合成（Seed-TTS）上的产品化速度全球领先
价格战的推动者：字节的大模型 API 定价策略直接压低了国内市场价格，加速了 AI 应用的商业化落地
超级 App + AI 的范式验证：抖音/ TikTok 的算法积累如何转化为 LLM 训练优势，是研究 "数据飞轮" 效应的关键案例

Open Questions

豆包的高 DAU 是否转化为高用户留存和付费转化？还是停留在 "免费工具" 阶段？
字节能否在基座模型技术上追赶 OpenAI / DeepSeek，还是将长期依赖工程优化和产品化弥补差距？
地缘政治是否会导致字节 AI 业务出海完全受阻？
多模态生成（视频/音乐）的版权和监管风险如何影响字节 AI 产品的长期发展？
Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程

ByteDance AI (豆包 / Seed) ​

Overview ​

Seed Team & 基座模型 ​

Doubao-pro 技术特点 ​

产品矩阵 ​

豆包（Doubao）App ​

即梦（Dreamina）/ Seedance ​

火山引擎（Volcano Engine） ​

Benchmark 表现 ​

API Pricing（截至 2026 年 4 月） ​

生态与竞争 ​

与其他中国 AI 公司的关系 ​

全球化挑战 ​

Relationships ​

Why It Matters ​

Open Questions ​