SANA 是 NVIDIA 推出的高效高分辨率图像与视频生成框架，采用线性注意力

SANA 是 NVIDIA 推出的高效高分辨率图像与视频生成框架，采用线性注意力 DiT 架构，实现了 4K 图像生成和长视频生成任务的显著加速。相比同类模型，SANA 在保持高质量输出的同时，参数量更小、推理速度更快，可在普通笔记本 GPU 上运行。项目提供完整的训练与推理流水线，支持 Diffusers、ComfyUI、SGLang 等主流生态，适合研究者和开发者快速上手。

GitHub：github.com/NVlabs/Sana

主要功能：- 支持 1024px 及更高分辨率文本到图像生成，速度最高提升 39 倍；- 提供 SANA-Video 模型，实现 720p 文本到视频及分钟级长视频生成；- 集成 DC-AE 32 倍压缩与线性注意力，显著降低计算开销；- 支持 Sol-RL 低精度 rollout + 高精度训练，加速强化学习后训练；- 兼容 4bit 量化，可在 8GB 显存以下设备部署；- 提供 ControlNet、LoRA、DreamBooth 等扩展训练方案。

支持 PyTorch 生态，通过 Diffusers 一行代码即可推理，适合学术研究与工业落地。

AIGC 扩散模型图像生成视频生成开源项目

塔斯娱乐资讯网

SANA 是 NVIDIA 推出的高效高分辨率图像与视频生成框架，采用线性注意力

热门分类