Sana：高分辨率图像和视频生成框架

SANA是NVIDIA实验室开发的高效开源框架，用于高分辨率图像和视频生成，包含完整训练与推理管线。该系列涵盖SANA（4K图像生成）、SANA-1.5（推理扩展）、SANA-Sprint（单步生成）、SANA-Video/LongSANA（视频生成）、Sol-RL（强化学习后训练）及SANA-WM（世界模型）。核心创新包括线性注意力、32×压缩的DC-AE、解码器文本编码器等技术，可在8GB显存笔记本上运行，性能远超FLUX等主流模型。

项目定位与版本演进: SANA是面向效率的图像/视频生成代码库，提供完整训练和推理流程；系列包含6个子项目，从基础图像生成扩展到世界模型，多篇论文被ICLR/ICML/ICCV等顶会接收。
核心技术架构: 采用线性注意力替代标准DiT注意力、DC-AE实现32×图像压缩、解码器-only LLM文本编码器；视频方向采用块因果线性注意力和因果Mix-FFN；采样优化包括Flow-DPM-Solver和sCM蒸馏。
性能优势: Sana-0.6B图像生成速度达FLUX-dev的39.5倍（0.9秒 vs 23秒），FID更低；SANA-Video-2B在720p视频生成延迟仅36秒，远超Wan-2.1系列（400-1897秒），VBench总分更高。
部署与生态: 支持4-bit/8-bit量化，可在<<8GB显存笔记本运行；集成Diffusers、ComfyUI、SGLang（OpenAI兼容API）；提供模型仓库、训练脚本及Docker支持。
最新进展: 2026年5月发布SANA-WM（26亿参数可控世界模型，支持720p/1分钟视频与6自由度相机控制）；Sol-RL采用NVFP4推理+BF16训练，收敛速度提升4.64倍。

Sana：高分辨率图像和视频生成框架

内容

评论

摘要