主页信息流回顾

信息流回顾

MiniCPM-o：强大的开源多模态LLM

10

分类：开源项目

作者：OpenBMB

来源：跳转

发表时间：2026/2/15

内容

MiniCPM-o是一个强大的开源多模态大型语言模型系列，最新版本MiniCPM-o 4.5拥有9B参数，支持图像、视频、文本和音频输入，并能以端到端的方式提供高质量的文本和语音输出。它在视觉、语音和全双工多模态直播方面接近Gemini 2.5 Flash水平，具备强大的OCR能力和多语言支持。该模型系列易于使用，支持多种框架和部署方式，包括本地设备和服务器端应用。此外，MiniCPM-V 4.0也是一个高效的模型，适合在手机等设备上部署，具有出色的视觉理解和效率。

MiniCPM-o 4.5核心特性

领先的视觉能力：在OpenCompass评估中平均得分为77.6，超越了多个知名模型，支持指令和思考模式。
强大的语音能力：支持双语实时语音对话，具备自然、富有表现力和稳定的语音对话能力，还支持语音克隆和角色扮演。
全双工和主动多模态直播能力：能够同时处理实时视频和音频输入流，同时生成文本和语音输出流，实现真正的全双工多模态交互。
强大的OCR能力和效率：能够处理高分辨率图像和高帧率视频，支持多语言，在OmniDocBench上表现优异。
易于使用：支持多种部署方式，包括llama.cpp、Ollama、vLLM、SGLang等，还提供了WebRTC Demo。

MiniCPM-V 4.0核心特性

领先的视觉能力：在OpenCompass评估中平均得分为69.0，超越了GPT-4.1-mini-20250414等模型，适合多图像和视频理解。
卓越的效率：专为设备端部署设计，在iPhone 16 Pro Max上表现出色，延迟低，吞吐量高。
易于使用：支持多种部署方式，包括llama.cpp、Ollama、vLLM、SGLang等，还提供了iOS应用。

模型架构

端到端全模态架构：模态编码器/解码器和LLM通过隐藏状态紧密连接，实现更好的信息流和控制。
全双工全模态直播机制：将离线模态编码器/解码器转变为在线全双工，支持全双工语音生成和多模态流处理。
主动交互机制：LLM以1Hz的频率监控输入流，决定是否发言，实现主动交互。
可配置的语音建模设计：支持通过音频提示克隆新声音和角色扮演。

使用方式

模型初始化：提供了详细的模型初始化代码，支持多种框架。
全双工全模态模式：支持实时或录制视频对话的全双工流式推理。
单工全模态模式：提供聊天和流式推理两种模式。
语音对话模式：支持实时语音对话，可作为AI语音助手使用。
视觉理解：支持单图像、多图像和视频输入的聊天功能。
结构化内容输入：支持结构化内容输入，适用于多种应用场景。

支持的框架

FlagOS：由北京智源人工智能研究院等机构共同发起，旨在构建统一的开源系统软件栈，支持多种AI芯片。
vLLM、SGLang、llama.cpp、Ollama：支持这些框架进行推理。
LLaMA-Factory、SWIFT：支持使用这些框架进行微调。

限制

基础能力：全双工全模态直播能力的基础能力仍有待提高。
全双工全模态模式下的语音输出不稳定：在全双工全模态直播模式下，语音合成可能会出现字符发音错误。
混合语言：在语音和全模态模式下，模型有时会用混合英语和中文回应。
Web演示高延迟：使用海外服务器托管的Web演示时，用户可能会遇到异常高延迟，甚至错过部分模型输出片段。

评论

(0)

未配置登录方式

暂无评论