面壁小钢炮 MiniCPM-V 2.6 模型重磅上新，端侧多模态能力超越 GPT-4V-本尊科技

综合

面壁小钢炮 MiniCPM-V 2.6 模型重磅上新，端侧多模态能力超越 GPT-4V

字号+作者：踞炉炭上网来源：休闲2025-11-08 17:44:51我要评论(0)

模型采用int4量化，面壁V模模态后端配备6G内存，小钢型重新端端侧推理速度高达/s，磅上相比上一代模型提升33%，侧多超一发布就支持llama.cpp，面壁V模模态vllm推理，小钢型重新端和平精英科技助手支持多种语言。磅上实时视频理解、侧多超多图联合理解、面壁V模模态多图ICL视觉类比学习、小钢型重新端多图OCR等功能首次被放到端侧多模态模型中，磅上让模型能够更充分发挥端侧AI传感器丰富、侧多超贴近用户的面壁V模模态优势，能够理解拍摄视频时摄像头捕捉到的小钢型重新端文字、从多张收据照片中快速识别票面金额并计算总金额、磅上读取单张或多张表情包。-V 2.6的单个token编码像素密度（token）是GPT-4o的两倍，得益于视觉token相对于上一代减少了30%，和平精英辅助器下载比同类模型减少了75%。地址：地址：llama.cpp、vllm部署教程地址：系列开源地址：1. 单图像、多图像和视频理解 SOTA，以及与 GPT-4V 相当的设备上多模态性新一代-V 2.6在仅8B参数的情况下，实现了与GPT-4V相当的综合性能，单图、多图、视频理解三大多模态核心能力全面超越GPT-4V，并在20B参数以下均实现了SOTA模型性能。在知识压缩率方面，-V 2.6实现了最高的多模态大模型像素密度（Token）是GPT-4o的两倍。Token=编码像素数/视觉Token数，指的是单个Token所携带的像素密度，也就是图像信息密度，直接决定了多模态模型的实际运行效率，数值越大，和平精英辅助器软件模型运行效率越高。▲通过API收费法对闭源模型的token进行估算，结果显示-V 2.6是所有多峰模型中token最高的。1）单图：在权威综合评测平台上，单图理解能力超越1.5 Pro和GPT-4o mini。2）多图像：在权威多图像评测平台Eval list上，-V 2.6的多图像联合理解能力达到SOTA开源模型，超越GPT-4V。3）视频：根据权威视频评测平台Video-MME榜单显示，-V 2.6的视频理解能力已经达到端侧SOTA，超越GPT-4V。此外，在手机上，小米10 Pro 2.6的OCR性能实现开源+闭源模型SOTA，延续并强化了小米10 Pro系列最强端侧OCR能力的传统优势。在幻觉测评榜上，-V 2.6的和平精英辅助器(免费)多功能下载幻觉水平（幻觉率越低越好）已经优于GPT-4o、GPT-4V 3.5等多款商用型号。2.首次实现实时视频理解，快速概括视频中密集的文字信息手机、PC、AR、机器人、智能汽车等端侧设备上的摄像头，具备天然的多模态输入能力，因此相较于云端，端侧视频理解有其自身的优势，更贴近用户、链路更短、效率更高、隐私安全性更强。-V 2.6首次让实时视频理解功能在终端上运行，在实时拍摄过程中能够精准识别摄像头捕捉到的场景中的文字。该模型还能快速概括长视频中的和平精英辅助器app关键信息，例如其视频OCR功能可以在不听到任何语音的情况下识别48秒天气预报视频中密集的文字，并给出不同视频片段中不同城市的详细天气描述。▲代码环境中复现结果3.首次实现多张图片合并，可用于计算小额收据、读取表情包最新发布的-V 2.6首次将多图像联合理解、多图像ICL（ few-shot ）功能融入端侧模型，实现流畅的多图像多轮理解。比如遇到日常记账或者报销，拍下多张收据交给-V 2.6，基于强大的OCR能力+CoT（思路链），不仅可以识别每张收据的金额，还能算出总金额。客户端的多模态复杂推理能力也被刷新，比如我们在官方的GPT-4V演示中就遇到了这个经典命题：调整自行车座。这个问题对于人类来说很简单，但对于模型来说却非常困难，非常考验多模态模型的和平精英辅助器推荐复杂推理能力和对物理常识的掌握能力。-V 2.6可以通过多图片、与模型多轮对话的方式，清晰的告诉你放下自行车座垫的每一个详细步骤，还能根据说明书和工具箱帮你找到合适的工具。-V 2.6的多图复杂推理能力同样出色，不仅能联合识别多张图片的表面信息，还能“读懂”表情包背后的弊端。比如，让模型讲解下面两张图片背后的故事。-V 2.6 可以将多图联合理解与 OCR 能力相结合，通过 OCR 精准识别出两张图片上的文字：“WFH 8:59 AM”和“WFH 9:00 AM”，并推断出“WFH”的居家办公状态。然后根据两张图片的视觉信息，联合推断出居家办公的“疯狂”状态：“在家办公时，8 点 59 分还在床上睡觉，9 点就立刻出现在视频会议中”。单张图片是和平精英辅助QQ群没有问题的。-V 2.6可以轻松“读懂”模因图片中隐藏的很多潜台词。4.多图ICL首次上线终端！大模特学会猜想和模仿很多场景无法单用语言解释清楚，需要视觉信息来辅助理解，这时候多图像ICL（In-）小样本学习功能就非常有必要，可以让模型无需微调就能快速适应特定领域和任务，显著提升模型输出的稳定性。比如，给出两组戏剧性的转场，并用文字描述画面中的“梗”：一个厨师戴着手套，讲究卫生，但下一秒却用戴着手套的手直接拿起了脏兮兮的钞票；一个看似热衷环保的人，打开塑料瓶装水，放入环保水壶里……-V 2.6能从前面两组图文关系中自动揣摩出提问者的意图，并自动学习“答案模板”，给出类似“魔术转折”的答案：一个人持有大量加密数字货币，但你猜怎么着，和平精英辅助器免费开挂2024他出去购物，但商店只收现金。5、统一高清可视化架构，实现高效的能力传递与知识共享-V 2.6的单图、多图、视频理解核心能力完全可以媲美GPT-4V，这除了得益于Qwen2-7B基础模型的性能提升，也得益于采用了统一的高清视觉架构。其将-V单图场景的“180万高清图像分析”的能力迁移和知识共享，无缝拓展到多图场景和视频场景，并将这三大视觉理解场景形式化为图文交替的语义建模问题，共享底层的视觉表征机制，并实现视觉token数量相比同类模型节省75%以上。-V 2.6在OCR信息提取的基础上，可以进一步对表格信息进行类似于CoT（思路链）的复杂推理。例如，和平精英辅助购买网站如果要求模型计算2008年奥运会金牌数最多的三个国家所获金牌数的总数，则CoT的流程为：首先利用OCR功能识别并提取奖牌表中金牌数排名前三的国家，然后将前三个国家所获金牌数的总数相加。还有8.2%的超低幻读率，以及增强的复杂推理能力和通用领域多图联合理解能力，这得益于RLAIF-V的高效对齐技术。多模态复杂推理能力对齐方面，-V 2.6通过复杂问题CoT解数据构建高效对齐种子数据，并通过模型自迭代完成数据净化和知识学习。多图联合理解方面，-V 2.6结合文本线索从通用领域自然网页中挖掘多图关联语义，实现多图联合理解数据的高效构建。结论：下载量突破百万，客户端模式屡创新标杆在边缘最强多模态的路上，小钢炮-V系列已经成为国产边缘侧模型典范之一，自2024年2月1日首创边缘侧多模态部署以来，仅用半年时间就完成了边缘侧模型从单一到全面对标GPT-4V的自瞄透视辅助器突破，小钢炮系列下载量突破百万。边缘侧模型系列是棉比长期坚持的“大模型科学化”路线的实践，一方面通过科学改进训练方法和数据质量，不断提升大模型的“知识密度”，获得同等参数、性能更强、成本更低的高效模型；另一方面深耕OCR、多图像与视频理解等核心多模态能力创新技术，持续突破边缘侧的能耗与内存限制。本站简单学堂，主要教新手怎么在网上开店，分享网店运营知识，全力为学员打造一个电商学习的综合平台，欢迎您的关注。

模型采用int4量化，面壁V模模态后端配备6G内存，小钢型重新端端侧推理速度高达/s，磅上相比上一代模型提升33%，侧多超一发布就支持llama.cpp，面壁V模模态vllm推理，小钢型重新端和平精英科技助手支持多种语言。磅上

实时视频理解、侧多超多图联合理解、面壁V模模态多图ICL视觉类比学习、小钢型重新端多图OCR等功能首次被放到端侧多模态模型中，磅上让模型能够更充分发挥端侧AI传感器丰富、侧多超贴近用户的面壁V模模态优势，能够理解拍摄视频时摄像头捕捉到的小钢型重新端文字、从多张收据照片中快速识别票面金额并计算总金额、磅上读取单张或多张表情包。

面壁小钢炮 MiniCPM-V 2.6 模型重磅上新，端侧多模态能力超越 GPT-4V

-V 2.6的单个token编码像素密度（token）是GPT-4o的两倍，得益于视觉token相对于上一代减少了30%，和平精英辅助器下载比同类模型减少了75%。

地址：

llama.cpp、vllm部署教程地址：

系列开源地址：

1. 单图像、多图像和视频理解 SOTA，以及与 GPT-4V 相当的设备上多模态性

新一代-V 2.6在仅8B参数的情况下，实现了与GPT-4V相当的综合性能，单图、多图、视频理解三大多模态核心能力全面超越GPT-4V，并在20B参数以下均实现了SOTA模型性能。

在知识压缩率方面，-V 2.6实现了最高的多模态大模型像素密度（Token）是GPT-4o的两倍。Token=编码像素数/视觉Token数，指的是单个Token所携带的像素密度，也就是图像信息密度，直接决定了多模态模型的实际运行效率，数值越大，和平精英辅助器软件模型运行效率越高。

▲通过API收费法对闭源模型的token进行估算，结果显示-V 2.6是所有多峰模型中token最高的。

1）单图：在权威综合评测平台上，单图理解能力超越1.5 Pro和GPT-4o mini。

2）多图像：在权威多图像评测平台Eval list上，-V 2.6的多图像联合理解能力达到SOTA开源模型，超越GPT-4V。

3）视频：根据权威视频评测平台Video-MME榜单显示，-V 2.6的视频理解能力已经达到端侧SOTA ，超越GPT-4V。

此外，在手机上，小米10 Pro 2.6的OCR性能实现开源+闭源模型SOTA ，延续并强化了小米10 Pro系列最强端侧OCR能力的传统优势。

在幻觉测评榜上，本尊科技-V 2.6的和平精英辅助器(免费)多功能下载幻觉水平（幻觉率越低越好）已经优于GPT-4o、GPT-4V 3.5等多款商用型号。

2.首次实现实时视频理解，快速概括视频中密集的文字信息

手机、PC 、AR、机器人、智能汽车等端侧设备上的摄像头，具备天然的多模态输入能力，因此相较于云端，端侧视频理解有其自身的优势，更贴近用户、链路更短、效率更高、隐私安全性更强。

-V 2.6首次让实时视频理解功能在终端上运行，在实时拍摄过程中能够精准识别摄像头捕捉到的场景中的文字。

该模型还能快速概括长视频中的和平精英辅助器app关键信息，例如其视频OCR功能可以在不听到任何语音的情况下识别48秒天气预报视频中密集的文字，并给出不同视频片段中不同城市的详细天气描述。

▲代码环境中复现结果

3.首次实现多张图片合并，可用于计算小额收据、读取表情包

最新发布的-V 2.6首次将多图像联合理解、多图像ICL（ few-shot ）功能融入端侧模型，实现流畅的多图像多轮理解。

比如遇到日常记账或者报销，拍下多张收据交给-V 2.6 ，基于强大的OCR能力+CoT（思路链），不仅可以识别每张收据的金额，还能算出总金额。

客户端的多模态复杂推理能力也被刷新，比如我们在官方的GPT-4V演示中就遇到了这个经典命题：调整自行车座。这个问题对于人类来说很简单，但对于模型来说却非常困难，非常考验多模态模型的和平精英辅助器推荐复杂推理能力和对物理常识的掌握能力。

-V 2.6可以通过多图片、与模型多轮对话的方式，清晰的告诉你放下自行车座垫的每一个详细步骤，还能根据说明书和工具箱帮你找到合适的工具。

-V 2.6的多图复杂推理能力同样出色，不仅能联合识别多张图片的表面信息，还能“读懂”表情包背后的弊端。

比如，让模型讲解下面两张图片背后的故事。-V 2.6 可以将多图联合理解与 OCR 能力相结合，通过 OCR 精准识别出两张图片上的文字：“WFH 8:59 AM”和“WFH 9:00 AM”，并推断出“WFH”的居家办公状态。然后根据两张图片的视觉信息，联合推断出居家办公的“疯狂”状态：“在家办公时，8 点 59 分还在床上睡觉，9 点就立刻出现在视频会议中”。

单张图片是和平精英辅助QQ群没有问题的。-V 2.6可以轻松“读懂”模因图片中隐藏的很多潜台词。

4.多图ICL首次上线终端！大模特学会猜想和模仿

很多场景无法单用语言解释清楚，需要视觉信息来辅助理解，这时候多图像ICL（In-）小样本学习功能就非常有必要，可以让模型无需微调就能快速适应特定领域和任务，显著提升模型输出的稳定性。

比如，给出两组戏剧性的转场，并用文字描述画面中的“梗”：一个厨师戴着手套，讲究卫生，但下一秒却用戴着手套的手直接拿起了脏兮兮的钞票；一个看似热衷环保的人，打开塑料瓶装水，放入环保水壶里……

-V 2.6能从前面两组图文关系中自动揣摩出提问者的意图，并自动学习“答案模板”，给出类似“魔术转折”的答案：一个人持有大量加密数字货币，但你猜怎么着，和平精英辅助器免费开挂2024他出去购物，但商店只收现金。

5 、统一高清可视化架构，实现高效的能力传递与知识共享

-V 2.6的单图、多图、视频理解核心能力完全可以媲美GPT-4V ，这除了得益于Qwen2-7B基础模型的性能提升，也得益于采用了统一的高清视觉架构。

其将-V单图场景的“180万高清图像分析”的能力迁移和知识共享，无缝拓展到多图场景和视频场景，并将这三大视觉理解场景形式化为图文交替的语义建模问题，共享底层的视觉表征机制，并实现视觉token数量相比同类模型节省75%以上。

-V 2.6在OCR信息提取的基础上，可以进一步对表格信息进行类似于CoT（思路链）的复杂推理。

例如，和平精英辅助购买网站如果要求模型计算2008年奥运会金牌数最多的三个国家所获金牌数的总数，则CoT的流程为：首先利用OCR功能识别并提取奖牌表中金牌数排名前三的国家，然后将前三个国家所获金牌数的总数相加。

还有8.2%的超低幻读率，以及增强的复杂推理能力和通用领域多图联合理解能力，这得益于RLAIF-V的高效对齐技术。

多模态复杂推理能力对齐方面，-V 2.6通过复杂问题CoT解数据构建高效对齐种子数据，并通过模型自迭代完成数据净化和知识学习。

多图联合理解方面，-V 2.6结合文本线索从通用领域自然网页中挖掘多图关联语义，实现多图联合理解数据的高效构建。

结论：下载量突破百万，客户端模式屡创新标杆

在边缘最强多模态的路上，小钢炮-V系列已经成为国产边缘侧模型典范之一，自2024年2月1日首创边缘侧多模态部署以来，仅用半年时间就完成了边缘侧模型从单一到全面对标GPT-4V的自瞄透视辅助器突破，小钢炮系列下载量突破百万。

边缘侧模型系列是棉比长期坚持的“大模型科学化”路线的实践，一方面通过科学改进训练方法和数据质量，不断提升大模型的“知识密度”，获得同等参数、性能更强、成本更低的高效模型；另一方面深耕OCR 、多图像与视频理解等核心多模态能力创新技术，持续突破边缘侧的能耗与内存限制。

本站简单学堂，主要教新手怎么在网上开店，分享网店运营知识，全力为学员打造一个电商学习的综合平台，欢迎您的关注。

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。

带前后端H5即时通讯聊天系统源码
2025-11-08 17:09
和平精英九世内核-和平内核插件
2025-11-08 15:46
小熊猫的冰淇淋纯净汉化版
2025-11-08 15:36
勇者深渊完整官方版
2025-11-08 15:14

网友点评

精彩导读

PHP游戏辅助吃鸡辅助推广网站源码

和平精英乔伊辅助真的平安吗？免费内核版实测揭秘(深度解析3D绘制/自瞄透视等12项功能，这份避坑指南请收好)

穿越火线最强ai爆破-穿越火线电脑端自瞄多功能工具

三角洲行动手游制胜法宝，落尘辅助插件深度解析(3D透视/自瞄黑科技加持，近战对决实现战术碾压 )

2023最新防红短链接在线生成源码内置接口无广告

热门资讯

关注我们

关注微信公众号，了解最新精彩内容

面壁小钢炮 MiniCPM-V 2.6 模型重磅上新，端侧多模态能力超越 GPT-4V

面壁小钢炮 MiniCPM-V 2.6 模型重磅上新，端侧多模态能力超越 GPT-4V