▶ 视频
MiniCPM-o是一个强大的开源多模态大型语言模型系列,最新版本MiniCPM-o 4.5拥有9B参数,支持图像、视频、文本和音频输入,并能以端到端的方式提供高质量的文本和语音输出。它在视觉、语音和全双工多模态直播方面接近Gemini 2.5 Flash水平,具备强大的OCR能力和多语言支持。该模型系列易于使用,支持多种框架和部署方式,包括本地设备和服务器端应用。此外,MiniCPM-V 4.0也是一个高效的模型,适合在手机等设备上部署,具有出色的视觉理解和效率。
MiniCPM-o 4.5核心特性
- 领先的视觉能力:在OpenCompass评估中平均得分为77.6,超越了多个知名模型,支持指令和思考模式。
- 强大的语音能力:支持双语实时语音对话,具备自然、富有表现力和稳定的语音对话能力,还支持语音克隆和角色扮演。
- 全双工和主动多模态直播能力:能够同时处理实时视频和音频输入流,同时生成文本和语音输出流,实现真正的全双工多模态交互。
- 强大的OCR能力和效率:能够处理高分辨率图像和高帧率视频,支持多语言,在OmniDocBench上表现优异。
- 易于使用:支持多种部署方式,包括llama.cpp、Ollama、vLLM、SGLang等,还提供了WebRTC Demo。
MiniCPM-V 4.0核心特性
- 领先的视觉能力:在OpenCompass评估中平均得分为69.0,超越了GPT-4.1-mini-20250414等模型,适合多图像和视频理解。
- 卓越的效率:专为设备端部署设计,在iPhone 16 Pro Max上表现出色,延迟低,吞吐量高。
- 易于使用:支持多种部署方式,包括llama.cpp、Ollama、vLLM、SGLang等,还提供了iOS应用。
模型架构
- 端到端全模态架构:模态编码器/解码器和LLM通过隐藏状态紧密连接,实现更好的信息流和控制。
- 全双工全模态直播机制:将离线模态编码器/解码器转变为在线全双工,支持全双工语音生成和多模态流处理。
- 主动交互机制:LLM以1Hz的频率监控输入流,决定是否发言,实现主动交互。
- 可配置的语音建模设计:支持通过音频提示克隆新声音和角色扮演。
使用方式
- 模型初始化:提供了详细的模型初始化代码,支持多种框架。
- 全双工全模态模式:支持实时或录制视频对话的全双工流式推理。
- 单工全模态模式:提供聊天和流式推理两种模式。
- 语音对话模式:支持实时语音对话,可作为AI语音助手使用。
- 视觉理解:支持单图像、多图像和视频输入的聊天功能。
- 结构化内容输入:支持结构化内容输入,适用于多种应用场景。
支持的框架
- FlagOS:由北京智源人工智能研究院等机构共同发起,旨在构建统一的开源系统软件栈,支持多种AI芯片。
- vLLM、SGLang、llama.cpp、Ollama:支持这些框架进行推理。
- LLaMA-Factory、SWIFT:支持使用这些框架进行微调。
限制
- 基础能力:全双工全模态直播能力的基础能力仍有待提高。
- 全双工全模态模式下的语音输出不稳定:在全双工全模态直播模式下,语音合成可能会出现字符发音错误。
- 混合语言:在语音和全模态模式下,模型有时会用混合英语和中文回应。
- Web演示高延迟:使用海外服务器托管的Web演示时,用户可能会遇到异常高延迟,甚至错过部分模型输出片段。