0

0

2B参数性能超Mistral-7B:面壁智能多模态端侧模型开源

王林

王林

发布时间:2024-02-02 19:33:32

|

1412人浏览过

|

来源于机器之心

转载

千元机也能本地运行。

近期,人们在优化和部署方面取得了成果,伴随着大模型向大体量方向发展。

2月1日,面壁智能联合清华NLP实验室在北京正式发布了旗舰端侧大模型「面壁MiniCPM」。这一新一代大模型被誉为「性能小钢炮」,不仅能够直接在终端部署,还具备同等水平最强的多模态能力。这将为用户提供更快速、更高效的智能应用体验。

面壁智能最新推出的 MiniCPM 2B 模型具有仅有 20 亿的参数量,并通过使用 1T token 的精选数据进行训练。与 2018 年发布的 BERT 模型相比,这个模型在参数量上相当,但面壁智能在性能优化和成本控制方面进行了极致的努力,使得该模型能够在性能上实现了「越级打怪」的效果。

面壁智能联合创始人、CEO 李大海将新模型与业内知名开源大模型 Mistral-7B 进行了对比,MiniCPM 2B 在多个主流评测榜单上性能全面超越了后者。

2B参数性能超Mistral-7B:面壁智能多模态端侧模型开源

与微软近期提出的「小模型」Phi-2 相比,MiniCPM 也有很大优势。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

2B参数性能超Mistral-7B:面壁智能多模态端侧模型开源

李大海指出,面壁智能的新模型在能力方面具备了越级实现的潜力,可以实现13B、30B甚至40B模型的能力。使用最接近用户体验的评测榜单MT-Bench进行评测时,MiniCPM获得了7分的成绩(相比之下,GPT-4-Turbo获得了9分)。

2B参数性能超Mistral-7B:面壁智能多模态端侧模型开源

在现场,面壁智能还展示了 MiniCPM 的实际应用效果。尽管参数量较小,但该模型具备大模型应有的文本翻译、角色扮演等多种能力,并且拥有丰富的知识。即使是难度较高的代码解释任务,该模型也能应对自如。

2B参数性能超Mistral-7B:面壁智能多模态端侧模型开源

因为能够部署在端侧,在面临一些突发事件时,MiniCPM 也可以给人们提供及时帮助:

2B参数性能超Mistral-7B:面壁智能多模态端侧模型开源

最近,各家手机厂商纷纷提出了端侧大模型,在把大语言模型压缩到较小体量之后,我们就能用它连接更多场景,在算力、内存受限的情况下获得更高程度的智能。相比之下,面壁智能提出的新技术更加轻便,可适用于更低配置,或较早期型号的手机。

据面壁智能介绍,MiniCPM 端侧模型经历了 Int4 量化后压缩了 75% 体量,只占用 2G 内存,与此同时性能几乎没有损失,因此已在各类常见型号的手机上实现了跑通。

2B参数性能超Mistral-7B:面壁智能多模态端侧模型开源

因为支持移动端 CPU 的推理,MiniCPM 可以很大程度上节约使用成本。面壁智能为我们算了一笔账:一台搭载骁龙 855 的手机使用 MiniCPM,一块钱电费可处理 170 万 token,这个价格仅为云端运行的 Mistral-Medium 的 1%。

除了端侧模型,面壁智能还展示了其在多模态大模型方面的探索,并开源了 12B 参数量的 OmniLMM。在发布会上,面壁智能演示了 Gemini 发布时同款的石头剪刀布 demo。用英文向 AI 提问:我正在玩什么游戏?大模型会回答:石头剪子布。

2B参数性能超Mistral-7B:面壁智能多模态端侧模型开源

蛙蛙写作——超级AI智能写作助手
蛙蛙写作——超级AI智能写作助手

蛙蛙写作辅助AI写文,帮助获取创意灵感,提供拆书、小说转剧本、视频生成等功能,是一款功能全面的AI智能写作工具。

下载

与此同时,OmniLMM 也可以认出人类的手势,还能告诉你如果要赢应该出什么。

OmniLMM 还可以理解很多图片中的信息并进行推理,如地标建筑、电视台的台标、人们组织的活动等内容。

2B参数性能超Mistral-7B:面壁智能多模态端侧模型开源

看来,我们距离真正多模态的大模型,以及新形态的应用已经不远了。

面壁智能大模型极致性能的背后,源于该公司长期以来的技术积累。自 2021 年,面壁智能就构建了高效的技术栈,集中在 Infra、算法和数据方法论三个方向。其中,自研的 BMTrain 高效训练框架至关重要。

2B参数性能超Mistral-7B:面壁智能多模态端侧模型开源

在算法层面上,面壁智能也积累了模型沙盒体系,把大模型从炼丹提升到了实验科学的程度,在理论上不断寻找超参数和规模的最优解,如最优的 batch size、所有尺寸模型通用的超参数配置。

目前,面壁智能已积累了大量高质量的数据。在昨天的发布后,面壁智能开源了自身的新一代大模型系列(包含 MiniCPM-SFT / DPOMiniCPM-V & MiniCPM-SFT / DPO-int4),以及训练 MiniCPM 两个阶段的数据配方以供行业参考。

开源地址(含技术报告):

MiniCPM GitHub:https://github.com/OpenBMB/MiniCPM

OmniLMM GitHub:https://github.com/OpenBMB/OmniLMM

面壁智能源于清华 NLP 实验室,是在国内较早开展大模型研究的团队之一,其在 2018 年发布了全球首个基于知识指导的预训练模型 ERNIE。2022 年 8 月开始公司化运作的面壁智能,去年经历了两轮融资,其推出的应用「面壁露卡」也拿到了网信办第二批大模型备案。

目前,面壁智能已经组建起 100 余人的科研团队,其中 80% 人员来自清北,平均年龄 28 岁。

2B参数性能超Mistral-7B:面壁智能多模态端侧模型开源

面壁智能正在构建大模型 + Agent 的双引擎战略,希望能构建出更小规模、更快速度、更低成本的解决方案。

今年,面壁智能还将加快速度迭代新技术。「我们会在春节之后不断发布 MiniCPM 的新版本,性能还会进一步提升。我们要给大家春节的休息时间,」刘知远表示。

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6096

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

806

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1062

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1253

2024.03.01

堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

392

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

572

2023.08.10

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

403

2023.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1989

2024.08.16

PHP WebSocket 实时通信开发
PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践,涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例,帮助开发者掌握 使用 PHP 构建实时通信与推送服务的完整开发流程,适用于即时消息与高互动性应用场景。

2

2026.01.19

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号