中文22
Sana:高分辨率图像和视频生成框架
开源项目
SANA世界模型+3
作者: NVIDIA
发表时间:
SANA是NVIDIA实验室开源的高效图像与视频生成框架,提供训练、推理、量化和生态集成,覆盖4K图像、单步生成、视频、强化学习后训练与世界模型;通过线性注意力、32×压缩DC-AE、LLM文本编码器等降低算力需求,可在8GB级显存运行,生成速度、延迟和质量指标显著优于FLUX、Wan等主流模型。
浏览 开源项目 分类下的公开文章、摘要与延伸阅读。肖恩子的知识花园
中文SANA是NVIDIA实验室开源的高效图像与视频生成框架,提供训练、推理、量化和生态集成,覆盖4K图像、单步生成、视频、强化学习后训练与世界模型;通过线性注意力、32×压缩DC-AE、LLM文本编码器等降低算力需求,可在8GB级显存运行,生成速度、延迟和质量指标显著优于FLUX、Wan等主流模型。
英文NVIDIA推出Nemotron 3 Nano Omni,将Nemotron扩展为统一处理文本、图像、视频和音频的多模态理解模型,面向长文档分析、语音识别、长音视频理解、GUI代理和通用推理,在文档、视频、音频多项基准上领先,并以混合Mamba-Transformer-MoE架构和分阶段训练实现更长上下文、更高精度及最高9倍吞吐提升。
中文NVIDIA发布开源参考栈NemoClaw,用于安全运行OpenClaw智能体,集成OpenShell运行时、Nemotron模型、沙箱容器与云推理网关,通过声明式策略和四层防护统一限制网络、文件系统、进程及模型调用,为自主AI代理提供隔离执行环境;当前属Alpha预览,接口可能变更。