NVIDIA 实验室再次震撼了 AI 视频生成领域。SANA-WM——一个仅 2.6B 参数的开源世界模型,能够生成长达 1 分钟的 720p 可控视频,并支持完整的 6 自由度(6-DoF)相机轨迹控制。这篇来自 ICLR 2026 Oral 录用的论文,在 HN 上引发了广泛讨论。
世界模型的技术突破
SANA-WM 的核心创新在于将”世界模型”概念带入了高效可用的范畴。传统世界模型需要数十分钟才能生成几秒的低分辨率视频,而 SANA-WM 通过多项技术创新实现了质的飞跃:
混合线性扩散 Transformer:将 DiT 中的标准注意力替换为线性注意力机制,在高分辨率下大幅降低计算复杂度。
DC-AE 压缩:采用 32 倍图像压缩(传统仅为 8 倍),显著减少潜在空间 token 数量,让长视频生成成为可能。
解码器专用文本编码器:使用现代 decoder-only LLM 进行上下文学习,替代传统 CLIP 编码器,实现更好的文本-视频对齐。
Block Causal Linear Attention + Causal Mix-FFN:针对长视频场景优化的注意力和前馈网络设计。
Flow-DPM-Solver + sCM Distillation:减少采样步骤,支持一步或几步生成。
6-DoF 相机控制:从生成到模拟
SANA-WM 最引人注目的能力是其 6 自由度相机控制——你可以像操控虚拟摄像机一样在生成的世界中平移、旋转、缩放。这意味着它不再只是一个”视频生成器”,而是一个真正的世界模拟器——给定一个起始帧和相机轨迹,模型就能持续生成一致的环境内容。
这项能力对具身 AI(Embodied AI)、机器人仿真和游戏开发具有深远意义。想象一下:机器人可以在 AI 生成的世界中训练导航,游戏引擎可以实时生成玩家视野中的环境细节。
社区的期待与质疑
尽管技术令人振奋,HN 社区反应却带有相当的谨慎。最热门的评论指出:“模型权重’即将’发布”等于当前的 vaporware。在真正开源之前,”开源世界模型”的标签需要打上问号。
游戏开发者提出了更深层的质疑:”我钟爱的游戏(如 FromSoftware 的作品)中,每一个物体的摆放都是有意图的。AI 生成的世界往往缺乏这种’目的性’——你会遇到破坏沉浸感的体验。”当前生成视频的视觉效果也更接近游戏画面(据信训练数据使用了 Unreal Engine 合成数据),而非真实世界。
但也有乐观者认为:”这是 AI 视频生成最差的时刻,也是最好的起点。”一位评论者提醒大家注意带宽:”打开那个演示页面后,我的下载速度飙到了 350Mbps——那些自动播放的视频非常大。”
SANA-WM 的模型许可已明确标注商业可用(NVIDIA Open Model License),代码采用 Apache 2.0。如果权重如期开放,这将是视频生成领域的一个重要里程碑。
📎 原文:SANA-WM Project Page · 论文:arXiv 2605.15178 · HN讨论:118条评论