SANA 是 NVIDIA 推出的高效高分辨率图像与视频生成框架,采用线性注意力 DiT 架构,实现了 4K 图像生成和长视频生成任务的显著加速。相比同类模型,SANA 在保持高质量输出的同时,参数量更小、推理速度更快,可在普通笔记本 GPU 上运行。项目提供完整的训练与推理流水线,支持 Diffusers、ComfyUI、SGLang 等主流生态,适合研究者和开发者快速上手。
GitHub:github.com/NVlabs/Sana
主要功能:- 支持 1024px 及更高分辨率文本到图像生成,速度最高提升 39 倍;- 提供 SANA-Video 模型,实现 720p 文本到视频及分钟级长视频生成;- 集成 DC-AE 32 倍压缩与线性注意力,显著降低计算开销;- 支持 Sol-RL 低精度 rollout + 高精度训练,加速强化学习后训练;- 兼容 4bit 量化,可在 8GB 显存以下设备部署;- 提供 ControlNet、LoRA、DreamBooth 等扩展训练方案。
支持 PyTorch 生态,通过 Diffusers 一行代码即可推理,适合学术研究与工业落地。
AIGC 扩散模型 图像生成 视频生成 开源项目

