AI下载站

行业首个:8B参数面壁小钢炮MiniCPM-V4.5开源,号称“最强端侧多模态模型”

  • 时间:2025-08-31 09:01:32
  • 来源:AI下载站
  • 作者:admin
  • 您的位置:首页 > AI教程资讯 > 行业首个:8B参数面壁小钢炮MiniCPM-V4.5开源,号称“最强端侧多模态模型”

    8月27日消息,面壁智能8月26日宣布开源8B参数的面壁小钢炮MiniCPM-V4.5多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型。

    MiniCPM-V4.5号称高刷视频理解、长视频理解、OCR、文档解析能力同级SOTA,且性能超过Qwen2.5-VL72B,号称“最强端侧多模态模型”。

    面壁智能介绍称,此前主流的多模态模型在处理视频理解任务中,因为平衡算力、功耗等因素,通常采取1fps抽帧,即每秒只能截取1帧画面进行识别和理解。虽然一定程度上保证了模型推理效率,但也因此缺失了绝大部分视觉信息,降低了多模态大模型对动态世界「精细化」的理解。

    MiniCPM-V4.5是行业首个具备高刷视频理解能力的多模态模型,通过将模型结构从2D-Resampler拓展为3D-Resampler,进行三维视频片段的高密度压缩,在同等视觉Token量开销下的情况下,最大可接收6倍视频帧数量,达到96倍视觉压缩率,是同类模型的12-24倍。

    MiniCPM-V4.5通过显著增加抽帧频次,从看「PPT」变成理解「动态画面」,面对一闪而过的画面,MiniCPM-V4.5要比Gemini-2.5-Pro、GPT-5、GPT-4o等代表性云端模型看得更准、更细。

    在MotionBench、FavorBench两项体现高刷视频理解能力的榜单中,MiniCPM-V4.5达到同尺寸SOTA,且超过Qwen2.5-VL72B,实现越级领先水平。

    MiniCPM-V4.5凭借8B参数,在图片理解、视频理解、复杂文档识别等多模态能力上再次刷新能力上限。

    图片理解性能上,MiniCPM-V4.5在OpenCompass测评中,领先GPT-4o、GPT-4.1、Gemini-2.0-Pro等众多闭源模型,甚至超过Qwen2.5-VL72B,实现越级领先。

    视频理解性能上,MiniCPM-V4.5在LVBench、MLVU、Video-MME、LongVideoBench等榜单中,均达到同级最佳水平。

    在复杂文档识别任务中,MiniCPM-V4.5在OmniDocBench榜单的OverallEdit、TextEdit、TableEdit三项指标上,均取得了通用多模态模型同级别的SOTA表现。

    此外,MiniCPM-V4.5同时支持常规模式和深度思考模式,实现了性能与响应速度的平衡,常规模式在绝大部分场景下提供出色的多模态理解能力,深度思考模式则专注于应对复杂与复合型推理任务。

    在视频理解榜单VideoMME、以及单图OpenCompass测试中,MiniCPM-V4.5达到同级SOTA水平,显存占用、平均推理时间等方面实现领先。

    其中,在覆盖短、中、长三种类型的视频理解评测集Video-MME上,MiniCPM-V4.5采用3帧打包策略进行推理,时间开销(未计算模型抽帧时间)仅为同级模型的1/10。

    附模型开源链接:

    Github:https://github.com/OpenBMB/MiniCPM-o

    HuggingFace:https://huggingface.co/openbmb/MiniCPM-V-4_5

    ModelScope:https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5

    点击排行榜

    近期热点

    本类最新

    本站所有软件文章图片来源于网友上传,如果侵权请联系[AI下载站],我们24小时内撤销

    Copyright©2025 2025 All rights reserved. 版权所有 AI下载站 网站地图