Skip to content

Watermarking / AI Detection

随着 AI 生成内容的爆发式增长,如何识别内容是否由 AI 生成、确保内容可溯源,成为了技术、伦理和政策的交叉领域。本页覆盖文本水印、图像水印、音频水印、Deepfake 检测和相关政策框架。

技术分类

文本水印

在 AI 生成的文本中嵌入不可见的标识:

方法原理优点缺点
词汇水印偏好特定词汇简单、无需模型修改易被翻译破坏
语义水印调整 token 概率分布难以检测、保持质量需模型支持
统计水印利用 LLM 的生成偏好高检测率对非水印模型无效

代表技术

  • SynthID Text (Google): 调整 token 采样概率
  • ** watermarking** (OpenAI): 内部研发,未公开细节
  • 开源方案: 基于词频统计的检测方法

图像水印

在 AI 生成的图像中嵌入不可见标识:

方法原理应用
频域水印修改频域系数Stable Diffusion
空域水印修改像素值DALL·E, Midjourney
抗压缩耐压缩处理广泛应用

代表技术

  • SynthID Image (Google): 基于波形变换的水印
  • Truepic: 专业图像验证平台
  • C2PA: 内容来源和出处标准

音频水印

  • 流式水印: 实时嵌入到生成的音频中
  • 声纹特征: 识别 AI 生成音频的特定模式
  • 代表: SynthID Audio (Google)

Deepfake 检测

检测方法

方法原理适用场景
生物特征分析检测不自然的面部表情、眼睛闪烁视频 Deepfake
频谱分析检测音频中的不自然模式语音克隆
元数据验证验证内容来源和修改历史通用
AI 分类器训练模型区分真实与 AI 内容通用

主流检测工具

工具类型能力
Hive ModerationAPI图像/视频 Deepfake 检测
Truepic Vision平台图像验证和检测
Resemble DetectAPI音频 Deepfake 检测
GPTZero工具文本 AI 检测
Originality.AI平台文本 AI 检测

政策与标准

主要政策框架

政策/标准发起者内容
C2PAAdobe、Microsoft 等内容出处和真实性标准
EU AI Act欧盟AI 生成内容必须标注
中国深度合成规定中国政府深度合成内容必须标识
美国总统法令白宫联邦政府 AI 内容标注

平台自规

平台措施
OpenAIDALL·E 输出带 C2PA 元数据
GoogleSynthID 水印集成到多个产品
Meta对 AI 生成内容添加标签
TikTokAI 生成内容自动标识

技术挑战

水印的局限性

  1. 对抗攻击: 水印可能被压缩、裁剪、翻译破坏
  2. 跨模型问题: 为一个模型设计的水印对其他模型无效
  3. 质量损失: 水印可能影响生成内容的质量
  4. 隐私问题: 水印可能用于追踪用户

检测的困难

  1. 假阳性率: AI 检测器对人类内容误判
  2. 对抗进化: 生成模型与检测器的军备竞赛
  3. 跨领域: 文本、图像、视频、音频的检测方法差异很大
  4. 新模型适配: 检测器需要不断更新以跟上新模型

Synthesis

水印和 AI 检测是 AI 安全生态的重要组成部分,但它们不是"银弹"。技术上,水印容易被破解,检测存在假阳性问题。政策上,各国正在建立标注要求,但执行和监管仍有挑战。最有效的方案可能是技术 + 政策 + 教育的组合:技术提供工具,政策提供框架,教育提升公众辨别能力。

Sources

  • C2PA 技术标准文档

  • Google SynthID 技术白皮书

  • EU AI Act 正式文本

  • 学术论文: "A Watermark for Large Language Models" (Kirchenbauer et al., 2023)

  • Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程

AI Knowledge Base — 持续积累