Sana:高分辨率图像和视频生成框架

2
分类开源项目
作者NVIDIA
来源跳转
发表时间

内容

SANA是NVIDIA实验室开发的高效开源框架,用于高分辨率图像和视频生成,包含完整训练与推理管线。该系列涵盖SANA(4K图像生成)、SANA-1.5(推理扩展)、SANA-Sprint(单步生成)、SANA-Video/LongSANA(视频生成)、Sol-RL(强化学习后训练)及SANA-WM(世界模型)。核心创新包括线性注意力、32×压缩的DC-AE、解码器文本编码器等技术,可在8GB显存笔记本上运行,性能远超FLUX等主流模型。

  • 项目定位与版本演进: SANA是面向效率的图像/视频生成代码库,提供完整训练和推理流程;系列包含6个子项目,从基础图像生成扩展到世界模型,多篇论文被ICLR/ICML/ICCV等顶会接收。
  • 核心技术架构: 采用线性注意力替代标准DiT注意力、DC-AE实现32×图像压缩、解码器-only LLM文本编码器;视频方向采用块因果线性注意力和因果Mix-FFN;采样优化包括Flow-DPM-Solver和sCM蒸馏。
  • 性能优势: Sana-0.6B图像生成速度达FLUX-dev的39.5倍(0.9秒 vs 23秒),FID更低;SANA-Video-2B在720p视频生成延迟仅36秒,远超Wan-2.1系列(400-1897秒),VBench总分更高。
  • 部署与生态: 支持4-bit/8-bit量化,可在<<8GB显存笔记本运行;集成Diffusers、ComfyUI、SGLang(OpenAI兼容API);提供模型仓库、训练脚本及Docker支持。
  • 最新进展: 2026年5月发布SANA-WM(26亿参数可控世界模型,支持720p/1分钟视频与6自由度相机控制);Sol-RL采用NVFP4推理+BF16训练,收敛速度提升4.64倍。

评论

(0)
未配置登录方式
暂无评论