【VGGT】统一3D重建：单网络同时预测相机位姿、深度图、点云与3D轨迹的前馈Transformer架构深度解析

发布时间：2026/6/9 3:18:04

摘要VGGTVisual Geometry Grounded Transformer是Meta Research提出的1.2B参数前馈Transformer能在1秒内从1~100张图像中同时推断相机参数、点云图、深度图和3D点轨迹。通过Alternating Attention机制帧内与全局自注意力交替替代传统Cross-Attention在相机估计、多视图深度、稠密重建和3D跟踪四项任务上均达到SOTA且无需迭代优化。论文发表于CVPR 2025。论文VGGT: Visual Geometry Grounded Transformer代码facebookresearch/vggt一、问题背景传统3D重建管线SfM/MVS依赖多阶段流水线特征匹配→ \rightarrow→相机标定→ \rightarrow→稠密重建→ \rightarrow→后处理。每个阶段独立优化误差层层累积。近期DUSt3R/MASt3R等方法虽用神经网络替代部分模块但仍需后端全局对齐BA且无法同时输出跟踪信息。VGGT的核心动机能否用一个前馈网络一次性输出所有3D几何属性关键挑战相机位姿需要全局一致性跨帧信息深度/点云需要局部精细度帧内信息3D跟踪需要时序对应关系这三类输出的supervision信号来源不同联合训练可能冲突二、核心方法2.1 整体框架图 1VGGT系统架构。重点看中间的Alternating Attention模块红色高亮——帧内与全局自注意力交替24层不使用Cross-Attention。来源重绘自 design skill输入N张RGB图像经DINOv2 Patchification编码为token序列后送入24层Alternating Attention Block提取特征最终由三个并行预测头分别输出相机参数、稠密几何和3D轨迹。N RGB ImagesDINOv2 Patchify24x AA BlocksCamera HeadDPT Dense HeadTracking Module9D PoseDepth Points3D Tracks2.2 Alternating AttentionAA机制AA是VGGT区别于DUSt3R系列的核心设计。每一层交替执行Frame-wise Self-Attention每帧token独立做自注意力建立帧内空间关系Global Self-Attention所有帧的token拼在一起做自注意力建立跨帧对应关系Layer 2 k : X SA frame ( X ) (帧内) \text{Layer}_{2k}: \quad \mathbf{X} \text{SA}_{\text{frame}}(\mathbf{X}) \quad \text{(帧内)}Layer2k:XSAframe(X)(帧内)Layer 2 k 1 : X SA global ( X ) (全局) \text{Layer}_{2k1}: \quad \mathbf{X} \text{SA}_{\text{global}}(\mathbf{X}) \quad \text{(全局)}Layer2k1:XSAglobal(X)(全局)网络配置1024维特征、16个注意力头、24层。为什么不用Cross-Attention消融实验ETH3D Overall ErrorAlternating Attention:0.709Global SA only: 0.827Cross-Attention: 1.061AA的优势在于帧内层维护局部精度深度细节全局层建立对应关系相机一致性两者交替互补。Cross-Attention则在帧对过多时计算量爆炸且缺乏帧内自身结构建模。2.3 预测头设计Camera Head在AA输出上追加4层自注意力线性层输出9D参数g i [ q i ∈ R 4 , t i ∈ R 3 , f i ∈ R 2 ] \mathbf{g}_i \left[\mathbf{q}_i \in \mathbb{R}^4,\; \mathbf{t}_i \in \mathbb{R}^3,\; \mathbf{f}_i \in \mathbb{R}^2\right]gi[qi∈R4,ti∈R3,fi∈R2]其中q \mathbf{q}q为四元数旋转、t \mathbf{t}t为平移、f \mathbf{f}f为2D焦距。第一帧强制为单位变换世界坐标系参考。DPT Dense HeadDPT上采样将patch-level token恢复到像素级分辨率3x3卷积输出深度图D i D_iDi、点云图P i ∈ R 3 × H × W P_i \in \mathbb{R}^{3 \times H \times W}Pi∈R3×H×W世界坐标系、跟踪特征T i T_iTi。Tracking Module基于CoTracker2架构以跟踪特征T i T_iTi为输入预测稠密3D点轨迹。2.4 多任务联合训练图 2多任务训练策略。重点看消融结果——camera loss对点云估计贡献最大去掉后error从0.709升到0.834。来源重绘自 design skill总LossL L camera L depth L pmap 0.05 ⋅ L track \mathcal{L} \mathcal{L}_{\text{camera}} \mathcal{L}_{\text{depth}} \mathcal{L}_{\text{pmap}} 0.05 \cdot \mathcal{L}_{\text{track}}LLcameraLdepthLpmap0.05⋅Ltrack各分项L camera \mathcal{L}_{\text{camera}}LcameraHuber范数预测与GT相机参数距离L depth \mathcal{L}_{\text{depth}}Ldepth不确定性加权差异梯度平滑项L pmap \mathcal{L}_{\text{pmap}}Lpmap类似depth的不确定性损失作用于3D点坐标L track \mathcal{L}_{\text{track}}LtrackL2对应距离可见性BCEOver-complete Supervision的哲学深度相机位姿数学上已能推导点云但同时监督三者反而提升所有输出质量。这打破了去掉冗余supervision的直觉。训练配置160K迭代、64张A100、9天、bfloat16精度、梯度裁剪阈值1.0。三、实验分析3.1 相机位姿估计方法Re10K AUC30CO3Dv2 AUC30时间DUSt3R67.776.7~9sMASt3R76.481.8~7sVGGSfM78.983.4~10sVGGT (FF)85.388.2~0.2sVGGT BA93.591.8~1.8s前馈VGGT无需BA已超越所有需要后端优化的方法加BA后进一步拉开差距。3.2 多视图深度估计DTU方法Chamfer距离相机来源GeoMVSNet0.295GT camerasDUSt3R1.741自估计VGGT0.382自估计VGGT用自估计相机即接近使用GT相机的传统MVS方法。3.3 点云重建ETH3D方法Overall Error时间DUSt3R1.005~9sMASt3R0.826~7sVGGT0.677~0.2s3.4 3D点跟踪TAP-Vid作为特征骨干VGGT提取的tracking features显著提升CoTracker基线骨干Kinetics AJDAVIS OACoTracker baseline49.688.3CoTracker VGGT57.291.43.5 运行时性能帧数推理时间显存100.14s3.63GB501.08s10.90GB1003.12s21.15GB2008.75s40.63GB四、关键设计决策分析4.1 为什么选择Alternating Attention而非Cross-AttentionCross-Attention的问题计算复杂度O ( N 2 ⋅ L 2 ) O(N^2 \cdot L^2)O(N2⋅L2)N帧、L token/帧帧数多时爆炸需要显式定义query来源隐含假设帧间关系方向无法同时建模帧内空间结构AA的设计哲学让网络自己学习何时关注局部、何时关注全局。帧内层O ( N ⋅ L 2 ) O(N \cdot L^2)O(N⋅L2)全局层O ( ( N L ) 2 ) O((NL)^2)O((NL)2)但可通过flash attention优化。4.2 数据归一化策略GT点云按平均欧氏距离归一化后再监督。模型学习预测归一化后的坐标推理时需要尺度恢复。这避免了不同场景尺度差异导致的梯度不平衡。4.3 Permutation Equivariance除第一帧参考帧外架构对其余帧排列等变。这意味着打乱输入帧顺序不影响输出除了点云坐标系定义。小结VGGT的核心贡献是证明了单个前馈网络可以同时高质量解决多个3D视觉任务且速度比优化方法快1~2个数量级。创新点Alternating Attention替代Cross-Attention兼顾帧内精度和跨帧一致性Over-complete supervision——冗余监督反而提升所有输出统一架构处理1~100帧无需区分双视图和多视图场景局限性不支持鱼眼/全景相机极端旋转90度性能下降大幅非刚性形变场景失效显存随帧数线性增长200帧需40GB个人判断VGGT代表了3D视觉从流水线组合向端到端统一的范式转变。AA机制的成功暗示Cross-Attention在多视图几何中可能被高估——简单的看自己→看全部交替就足够。但40GB200帧的显存需求限制了实际部署工程化落地仍需蒸馏或分块推理。对VIO系统的启示VGGT的tracking feature可直接作为前端特征提取器其跨帧attention可能替代传统光流匹配。