用最通俗的语言,解释 SAM 2、MatAnyone、VideoMaMa 三个核心模型的工作原理、核心差异和协作方式
在深入每个模型之前,你需要理解视频抠图里最核心的两个概念:分割 (Segmentation) 和 抠图 (Matting),它们虽然都是"把目标从背景中分离出来",但精度天差地别。
分割就像你用铅笔画出一个人的轮廓线 —— 线里面是人,线外面是背景,但这条线是硬邦邦的。
抠图则像美发师用推子推出渐变发际线 —— 不仅知道哪里是头发,还知道每一根发丝有多"实"多"透",让最终的合成图看起来天然、不突兀。
三剑客的分工:SAM 2 做分割(找到目标、画出轮廓),MatAnyone 和 VideoMaMa 做抠图(把粗轮廓变成精细 alpha)。
Segment Anything Model 2(Meta,2024)。它的任务是:你告诉它"你要哪个东西",它就在视频的每一帧中把这个东西精确地标出来。
SAM 2 就像一个超级眼力的追踪者:你在第一帧指给它看"跟踪这个人",它就能在后续每一帧中死死盯住这个人,即使人被遮挡、转身、变小。
基于 Hiera 架构(一种层次化的 Vision Transformer)。它的任务是把一张图片"理解"成一组数字特征。
就像你看到一张照片,你的大脑不会逐像素处理,而是会自动提取出"有个人站在树旁边"这样的高级理解。Image Encoder 做的就是这个——把像素变成"理解"。
这是 SAM 2 与 SAM 1 最大的区别。SAM 1 只能处理单张图片,SAM 2 通过记忆注意力机制实现了视频追踪。
原理是 Cross-Attention(交叉注意力):当前帧的特征当做"问题",记忆库里的历史帧特征当做"参考答案",模型通过注意力机制找出当前帧中哪些区域与历史帧中被标记的目标最相似。
你在人群中找一个朋友。你的"记忆"里存着他穿蓝色外套、身高 180、戴眼镜。你扫视人群时,你的大脑会自动把每个人和记忆中的特征做对比。Memory Attention 做的就是这件事——拿记忆去比对当前画面。
把上面得到的"理解"和"记忆对比结果"转换成一个具体的 二值 mask(每个像素是 0 或 1)。
SAM 2 可以同时输出多个候选 mask 并给出置信度评分,让你选择最准确的那个。
CVPR 2025 最佳论文之一。专门解决一个问题:给一个粗糙的首帧 mask,自动输出全视频的高质量人体 alpha matte。
MatAnyone 就像一个顶级美发修图师:你只需在第一帧大致圈出一个人,它就能自动追踪这个人并在每一帧中精确到每一根发丝地抠出来,而且帧与帧之间不闪烁、不跳动。
在 MatAnyone 之前,视频抠图的核心痛点是:
痛点 1:需要每一帧都提供 mask。 如果视频有 900 帧(30 秒 × 30fps),你得准备 900 个 mask。即使用 SAM 2 自动生成,也经常有帧不准确。
痛点 2:帧间闪烁。 如果逐帧独立处理抠图,每帧的 alpha 边缘细节可能不一致,播放时看起来边缘"闪烁抖动"(temporal flickering)。
痛点 3:mask 质量敏感。 传统抠图方法(如需要 trimap 的方法)对输入 mask 的精度要求很高,稍有偏差结果就崩。
想象你在给一张人物照片做精细抠图:
身体中心(绿区)→ 不用犹豫,直接 alpha=255,肯定是前景。你甚至可以闭着眼做。
发丝和边缘(黄区)→ 需要你拿放大镜仔细看每一根发丝,一丝不苟地决定每个像素的透明度。这部分最耗精力。
远离人体的背景(蓝区)→ 不用看,直接 alpha=0。
MatAnyone 的聪明之处就是:不同区域用不同策略。核心区域靠记忆保稳定,边缘区域靠当前帧的像素保精度,背景区域直接跳过。
MatAnyone 有一个特别的"预热"(warmup)阶段:它会先用一个图像抠图模型(如 ViTMatte)对首帧做一次高质量的单帧抠图,把这个精细 alpha 作为"第 0 帧记忆"注入记忆库。
这样,记忆库从一开始就有一个高质量的参考,后续帧的传播质量更高。就像你追踪一个人之前先仔细看清他的样子——比远远扫一眼就开始追要靠谱得多。
Adobe Research + KAIST 2025 年发布。它的核心思路完全不同:用视频生成模型(扩散模型)的能力来做抠图。
VideoMaMa 就像一个学过百万张照片的画家:你给它一张粗糙的涂色稿(mask),它凭自己对世界万物边缘的"艺术直觉"(生成先验),画出每个像素应有的精确透明度。它不需要专门针对人体训练——猫、狗、玻璃杯、烟雾都能抠。
这是 VideoMaMa 最反直觉的设计。传统思路是"训练一个分割/抠图模型",但 VideoMaMa 说:不,我们用一个已经学会"画视频"的生成模型来做抠图。
VideoMaMa 基于 Stable Video Diffusion (SVD)——一个被训练来"从噪声中生成视频"的模型。SVD 在训练过程中看过几百万段视频,因此它对"自然界中物体边缘应该长什么样"有非常深刻的理解。
VideoMaMa 的核心洞察是:这种"理解"可以被复用来做抠图。 一个知道"猫毛应该是什么样子"的模型,自然也知道"猫毛的 alpha 边缘应该是什么样子"。
扩散模型的训练方式是:给一张清晰图片加噪声使其模糊,然后训练模型学会"从模糊恢复清晰"。经过海量训练后,模型就学会了"世界应该长什么样"。
想象一个美术生,练了三年素描。你给他一个模糊的轮廓,他能凭经验"脑补"出精确的线条和阴影。VideoMaMa 就是让这个"美术生"来画 alpha 通道。
传统的扩散模型生成图片需要几十步迭代(从纯噪声开始,一步步去噪)。但 VideoMaMa 做了一个关键优化:它不从纯噪声开始,而是从输入的粗 mask 出发,只需要一步就能预测出精细 alpha。
这是因为粗 mask 已经提供了"大致位置"的信息,模型只需要做"精修"而不是"从零开始画"。
VideoMaMa 训练时只用了合成数据(把前景图片贴到不同背景上生成的训练对)。但神奇的是,它在真实视频上的表现也非常好。
这归功于 SVD 的"世界知识":SVD 在预训练时见过各种各样的自然边缘——毛发、树叶、烟雾、水花、玻璃反射。这些知识被 VideoMaMa "继承"了,所以即使没在真实抠图数据上训练过,也能处理各种场景。
与 MatAnyone 不同,VideoMaMa 不做追踪。它是一个纯粹的 mask-to-matte 转换器:你给它每帧的 RGB 图像 + 每帧的粗 mask,它输出每帧的精细 alpha。
这意味着你需要先用 SAM 2 / SAM 3 把视频中每一帧的 mask 都生成好,然后把它们批量喂给 VideoMaMa。
MatAnyone = 又能追踪又能抠图的"全能选手"。给它一帧的 mask 就能搞定全视频。
VideoMaMa = 纯粹的"抠图专家"。它不管追踪,只管"把粗 mask 变成精细 alpha"。追踪的活需要 SAM 2 来干。
但 VideoMaMa 的优势是它不限于人体——玻璃杯、烟雾、毛绒玩具、树叶,什么都能抠,因为它有扩散模型的"世界知识"。
把三个模型放在一起看,它们的分工、能力和适用场景一目了然。
| 对比维度 | SAM 2 | MatAnyone | VideoMaMa |
|---|---|---|---|
| 任务 | 目标分割 + 追踪 | 人体视频抠图 | 通用视频抠图 |
| 输出类型 | 二值 mask (0/1) | Alpha matte (0~255) | Alpha matte (0~255) |
| 需要的输入 | 视频 + 首帧提示 | 视频 + 首帧 mask | 帧序列 + 每帧 mask |
| 是否自带追踪? | ✅ 核心能力 | ✅ 内置 (Cutie) | ❌ 需要外部追踪 |
| 适用对象 | 万物(任何东西) | 人体为主 | 万物(任何东西) |
| 边缘精度 | 粗糙(锯齿边缘) | 极精细(发丝级) | 极精细(半透明支持) |
| 半透明处理 | ❌ 无法表达 | ⚠️ 一般 | ✅ 擅长(烟雾/玻璃) |
| 处理速度 | 快(数秒/帧) | 中等(~8GB VRAM) | 慢(~16-24GB VRAM) |
| 核心技术 | Vision Transformer + 记忆 | Cutie + 区域自适应融合 | Stable Video Diffusion |
| 来源 | Meta (2024) | NTU (CVPR 2025) | Adobe + KAIST (2025) |
因为 MatAnyone 自带追踪能力(基于 Cutie),不需要 SAM 2 先把每一帧都追踪一遍。SAM 2 只负责"指出目标是谁"(出一帧 mask),后面的追踪 + 抠图全部由 MatAnyone 完成。但代价是 MatAnyone 主要针对人体优化,非人体效果可能不如 VideoMaMa。
两个原因:① SAM 2 需要追踪全帧生成 mask 序列(MatAnyone 路径不需要这步),② VideoMaMa 基于 SVD 扩散模型,模型体积大、推理慢。但它的优势是不限于人体——玻璃、烟雾、毛绒玩具等半透明/复杂边缘物体效果远优于 MatAnyone。
你可能会问:能不能只用一个模型搞定所有事?答案是不能,原因很本质。
想象一个视频制作团队:
SAM 2 = 场记:负责在画面中指出"这个人就是主角",并在每个镜头中追踪他的位置。它不做任何精修工作,只是标记。
MatAnyone = 人像修图师:专门修人像,速度快,效果惊艳。但只会修人,你让他修一个玻璃杯他就露馅了。
VideoMaMa = 特效大师:什么都能修,烟雾、火焰、透明物体都不在话下。但他比较慢,设备也贵,不是每个活都值得请他。
在 SplazMatte 中,场记 (SAM 2) 是必须的,修图师和特效大师二选一,取决于你要抠什么。
这些概念在上文中反复出现,这里统一做个通俗解释。