Skip to content

ByteDance AI (豆包 / Seed)

字节跳动(ByteDance)是中国互联网巨头中 AI 投入最激进的公司之一。以 "豆包"(Doubao)C 端应用和 "Seed" 研究团队为核心,字节在基座模型、多模态生成、音乐/视频 AI 和 Agent 平台等领域全面布局。豆包是国内日活(DAU)最高的 AI 助手应用之一。

Overview

字节跳动的 AI 布局分为三层:

  1. C 端产品层:豆包 App(通用 AI 助手)、猫箱(AI 角色扮演)、星绘(AI 绘画)、即梦 Dreamina(AI 视频)、海绵音乐(AI 音乐)
  2. B 端平台层:火山引擎(Volcano Engine)——字节的企业云服务平台,提供模型 API、推理服务和行业解决方案
  3. 研究层:Seed 研究团队——字节的前沿 AI 研究部门,负责基座模型和多模态技术研发

与其他中国 AI 公司不同,字节的核心优势在于 算法推荐基因 + 全球化产品能力 + 超级应用流量入口。TikTok/抖音的推荐算法积累直接转化为 LLM 训练的数据理解和分发能力。

Seed Team & 基座模型

字节跳动的基座模型由 Seed 研究团队开发:

模型时间规模特点
云雀/Skylark2023未公开初代内部模型,服务抖音/头条等业务
Doubao-pro / Doubao-lite2024未公开对外商用主力模型,Pro 版对标 GPT-4,Lite 版轻量高速
Doubao-vision2024未公开多模态模型,图像理解和生成
Doubao-research / Deep Research2025未公开深度研究/推理模型,对标 DeepSeek-R1
Seed-TTS2024未公开文本到语音,情感表达和音色克隆
Seed-Music2024未公开音乐生成模型
Seaweed / 即梦视频模型2024-2025未公开视频生成,对标 Sora/Kling

Doubao-pro 技术特点

  • MoE 架构:采用稀疏专家混合架构,激活参数量远低于总参数量,推理成本可控
  • 长上下文:支持 256K tokens 上下文窗口,可处理长文档和视频序列
  • 中文优化:在中文理解、网络梗、社交媒体语境上的适配显著优于国际模型
  • 多模态原生:文本、图像、视频、音频统一训练,而非后期拼接

产品矩阵

豆包(Doubao)App

  • 定位:通用 AI 助手,类似 ChatGPT / 文心一言 / Kimi
  • 用户规模:截至 2025 年底,月活(MAU)超过 7000 万,国内 AI 应用第一梯队
  • 差异化功能
    • 语音对话(基于 Seed-TTS,情感丰富)
    • AI 智能体广场(用户可创建和分享 Agent)
    • 与抖音生态深度整合(视频摘要、直播辅助)
    • 英语学习、写作辅助、代码生成等垂直场景

即梦(Dreamina)/ Seaweed

  • 定位:AI 视频生成平台
  • 能力:文本/图像生成视频、视频编辑、风格迁移
  • 竞争:对标 OpenAI Sora、快手 Kling、Runway Gen-3
  • 优势:与抖音内容生态直接打通,创作者可一键发布到抖音

火山引擎(Volcano Engine)

字节的企业 AI 服务平台:

服务说明
大模型 APIDoubao-pro / Doubao-lite / 视觉模型等
推理服务高并发、低延迟的模型推理托管
精调平台支持 LoRA / 全量微调
AI 应用开发低代码 Agent 和工作流构建

Benchmark 表现

基准Doubao-proDoubao-liteGPT-4oDeepSeek-V3
MMLU83.0%75.0%88.7%87.1%
CMMLU (中文)85.5%78.0%76.0%82.0%
HumanEval78.0%65.0%90.2%92.0%
GSM8K82.0%70.0%95.3%90.0%

注:字节跳动官方公布的基准数据相对有限,以上部分为第三方评测估算。

API Pricing(截至 2026 年 4 月)

模型输入 (元/1M tokens)输出 (元/1M tokens)备注
Doubao-pro2060主力模型
Doubao-lite515轻量高速
Doubao-vision3090多模态
Doubao-research50150深度推理

注:字节的价格策略极具侵略性,是国内最低价的大模型 API 之一,体现了其 "用流量换市场" 的典型互联网打法。

生态与竞争

与其他中国 AI 公司的关系

  • vs 百度文心一言:百度先发优势但产品体验落后,豆包凭借更优的交互和抖音流量快速追赶
  • vs 阿里通义千问(Qwen:阿里 B 端更强,字节 C 端更强;Qwen 开源生态更成熟
  • vs 月之暗面(Kimi):Kimi 以长上下文为差异化,豆包以多模态和流量为优势
  • vs DeepSeek(DeepSeek:DeepSeek 技术口碑更强,但字节产品化和商业化能力远超

全球化挑战

字节跳动的 AI 产品面临与 TikTok 类似的地缘政治挑战:

  • 美国市场对 Doubao / 火山引擎的接受度有限
  • 欧盟 AI Act 和数据主权要求构成合规壁垒
  • 相比之下,模型层(通过开源或 API)出海比应用层更容易

Relationships

Why It Matters

  • 中国最大的 AI 应用流量入口:豆包的 DAU 数据使其成为观察中国 AI 消费级市场渗透率的最佳窗口
  • 多模态工程化标杆:字节在视频生成(Seaweed)、音乐生成(Seed-Music)、语音合成(Seed-TTS)上的产品化速度全球领先
  • 价格战的推动者:字节的大模型 API 定价策略直接压低了国内市场价格,加速了 AI 应用的商业化落地
  • 超级 App + AI 的范式验证:抖音/ TikTok 的算法积累如何转化为 LLM 训练优势,是研究 "数据飞轮" 效应的关键案例

Open Questions

  • 豆包的高 DAU 是否转化为高用户留存和付费转化?还是停留在 "免费工具" 阶段?
  • 字节能否在基座模型技术上追赶 OpenAI / DeepSeek,还是将长期依赖工程优化和产品化弥补差距?
  • 地缘政治是否会导致字节 AI 业务出海完全受阻?
  • 多模态生成(视频/音乐)的版权和监管风险如何影响字节 AI 产品的长期发展?

AI Knowledge Base — 持续积累