SANA-WM：26亿参数的开源世界模型，能生成1分钟720p视频

英伟达实验室（NVLabs）最近发布了开源项目 SANA-WM，引起了 AI 视频生成领域的广泛关注。这是一个拥有 26 亿参数的世界模型（World Model），能够根据文本描述生成最长 1 分钟、分辨率达 720p 的视频。尽管与 Sora、Veo 等顶级商业模型相比还有差距，但作为开源方案，SANA-WM 的面世标志着「人人都能跑得动的世界模型」时代正在到来。

在 AI 领域，「世界模型」（World Model）是一个重要概念：指能够理解和模拟真实世界物理规律、因果关系的 AI 系统。与普通的视频生成模型不同，世界模型不仅要求画面好看，还要求生成的内容符合物理逻辑——物体的运动轨迹、光影变化、物体之间的交互，都要符合人类对真实世界的认知。举个例子，如果你让一个世界模型生成「一个球从桌面滚落」的视频，普通模型可能只追求画面精美，而世界模型会确保球按照重力规律掉落、与桌面产生碰撞反弹等真实物理行为。

SANA-WM 选择了「小而精」的路线：26 亿参数在动辄上百亿参数的大模型时代显得相当克制，但这恰恰是它的优势——足够小的参数量意味着消费级 GPU 也能运行。英伟达的目标很明确：让普通开发者不需要租用云端算力集群，在本地 RTX 4090 显卡上就能实验世界模型。在视频质量方面，SANA-WM 支持生成 720p（1280×720）分辨率、最长 60 秒的视频片段，这个规格对于大多数社交媒体内容创作来说已经足够。

SANA-WM 采用 MIT 许可证开源，这意味着任何人都可以自由使用、修改和商业化该技术。对于学术研究者来说，他们可以在此基础上探索世界模型的前沿问题；对于独立开发者来说，他们可以把这个模型集成到自己的应用中去。对于整个 AI 社区来说，开源意味着更多的 eyes on code——bug 修复更快、安全问题发现更及时。在世界模型这个赛道上，开源与封闭的竞争正在加速——Google 的 Veo、OpenAI 的 Sora 都是闭源商业方案，而 SANA-WM 的出现让开源社区有了一个可以正面PK的基准点。

AI 视频生成正在从「实验室玩具」走向「人人可用的生产力工具」。720p/60秒不是终点，但它是重要的里程碑——这个规格意味着大多数日常场景的视频需求已经可以被满足。接下来的问题是：如何让视频生成从「能看」到「好用」？如何解决长视频的连贯性问题？如何确保生成内容不被滥用？这些问题不只是技术问题，也是社会问题和伦理问题。SANA-WM 给出了技术方案，但最终的答案，需要整个行业共同来写。

← 返回文章列表