英伟达实验室(NVLabs)最近发布了开源项目 SANA-WM,引起了 AI 视频生成领域的广泛关注。这是一个拥有 26 亿参数的世界模型(World Model),能够根据文本描述生成最长 1 分钟、分辨率达 720p 的视频。尽管与 Sora、Veo 等顶级商业模型相比还有差距,但作为开源方案,SANA-WM 的面世标志着「人人都能跑得动的世界模型」时代正在到来。

在 AI 领域,「世界模型」(World Model)是一个重要概念:指能够理解和模拟真实世界物理规律、因果关系的 AI 系统。与普通的视频生成模型不同,世界模型不仅要求画面好看,还要求生成的内容符合物理逻辑——物体的运动轨迹、光影变化、物体之间的交互,都要符合人类对真实世界的认知。举个例子,如果你让一个世界模型生成「一个球从桌面滚落」的视频,普通模型可能只追求画面精美,而世界模型会确保球按照重力规律掉落、与桌面产生碰撞反弹等真实物理行为。
SANA-WM 选择了「小而精」的路线:26 亿参数在动辄上百亿参数的大模型时代显得相当克制,但这恰恰是它的优势——足够小的参数量意味着消费级 GPU 也能运行。英伟达的目标很明确:让普通开发者不需要租用云端算力集群,在本地 RTX 4090 显卡上就能实验世界模型。在视频质量方面,SANA-WM 支持生成 720p(1280×720)分辨率、最长 60 秒的视频片段,这个规格对于大多数社交媒体内容创作来说已经足够。

SANA-WM 采用 MIT 许可证开源,这意味着任何人都可以自由使用、修改和商业化该技术。对于学术研究者来说,他们可以在此基础上探索世界模型的前沿问题;对于独立开发者来说,他们可以把这个模型集成到自己的应用中去。对于整个 AI 社区来说,开源意味着更多的 eyes on code——bug 修复更快、安全问题发现更及时。在世界模型这个赛道上,开源与封闭的竞争正在加速——Google 的 Veo、OpenAI 的 Sora 都是闭源商业方案,而 SANA-WM 的出现让开源社区有了一个可以正面PK的基准点。
AI 视频生成正在从「实验室玩具」走向「人人可用的生产力工具」。720p/60秒不是终点,但它是重要的里程碑——这个规格意味着大多数日常场景的视频需求已经可以被满足。接下来的问题是:如何让视频生成从「能看」到「好用」?如何解决长视频的连贯性问题?如何确保生成内容不被滥用?这些问题不只是技术问题,也是社会问题和伦理问题。SANA-WM 给出了技术方案,但最终的答案,需要整个行业共同来写。

OpenClaw—AI研究