英文1
推出 NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频智能体的长上下文多模态智能
开源项目
GUI代理全模态+3
作者: NVIDIA
发表时间:
NVIDIA推出Nemotron 3 Nano Omni,将Nemotron扩展为统一处理文本、图像、视频和音频的多模态理解模型,面向长文档分析、语音识别、长音视频理解、GUI代理和通用推理,在文档、视频、音频多项基准上领先,并以混合Mamba-Transformer-MoE架构和分阶段训练实现更长上下文、更高精度及最高9倍吞吐提升。
