行业首个：8B参数面壁小钢炮MiniCPM-V4.5开源，号称“最强端侧多模态模型”-AI下载站

8月27日消息，面壁智能8月26日宣布开源8B参数的面壁小钢炮MiniCPM-V4.5多模态旗舰模型，成为行业首个具备“高刷”视频理解能力的多模态模型。

MiniCPM-V4.5号称高刷视频理解、长视频理解、OCR、文档解析能力同级SOTA，且性能超过Qwen2.5-VL72B，号称“最强端侧多模态模型”。

面壁智能介绍称，此前主流的多模态模型在处理视频理解任务中，因为平衡算力、功耗等因素，通常采取1fps抽帧，即每秒只能截取1帧画面进行识别和理解。虽然一定程度上保证了模型推理效率，但也因此缺失了绝大部分视觉信息，降低了多模态大模型对动态世界「精细化」的理解。

MiniCPM-V4.5是行业首个具备高刷视频理解能力的多模态模型，通过将模型结构从2D-Resampler拓展为3D-Resampler，进行三维视频片段的高密度压缩，在同等视觉Token量开销下的情况下，最大可接收6倍视频帧数量，达到96倍视觉压缩率，是同类模型的12-24倍。

MiniCPM-V4.5通过显著增加抽帧频次，从看「PPT」变成理解「动态画面」，面对一闪而过的画面，MiniCPM-V4.5要比Gemini-2.5-Pro、GPT-5、GPT-4o等代表性云端模型看得更准、更细。

在MotionBench、FavorBench两项体现高刷视频理解能力的榜单中，MiniCPM-V4.5达到同尺寸SOTA，且超过Qwen2.5-VL72B，实现越级领先水平。

MiniCPM-V4.5凭借8B参数，在图片理解、视频理解、复杂文档识别等多模态能力上再次刷新能力上限。

图片理解性能上，MiniCPM-V4.5在OpenCompass测评中，领先GPT-4o、GPT-4.1、Gemini-2.0-Pro等众多闭源模型，甚至超过Qwen2.5-VL72B，实现越级领先。

视频理解性能上，MiniCPM-V4.5在LVBench、MLVU、Video-MME、LongVideoBench等榜单中，均达到同级最佳水平。

在复杂文档识别任务中，MiniCPM-V4.5在OmniDocBench榜单的OverallEdit、TextEdit、TableEdit三项指标上，均取得了通用多模态模型同级别的SOTA表现。

此外，MiniCPM-V4.5同时支持常规模式和深度思考模式，实现了性能与响应速度的平衡，常规模式在绝大部分场景下提供出色的多模态理解能力，深度思考模式则专注于应对复杂与复合型推理任务。

在视频理解榜单VideoMME、以及单图OpenCompass测试中，MiniCPM-V4.5达到同级SOTA水平，显存占用、平均推理时间等方面实现领先。

其中，在覆盖短、中、长三种类型的视频理解评测集Video-MME上，MiniCPM-V4.5采用3帧打包策略进行推理，时间开销（未计算模型抽帧时间）仅为同级模型的1/10。

附模型开源链接：

Github：https://github.com/OpenBMB/MiniCPM-o

HuggingFace：https://huggingface.co/openbmb/MiniCPM-V-4_5

ModelScope：https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5

行业首个：8B参数面壁小钢炮MiniCPM-V4.5开源，号称“最强端侧多模态模型”