3377体育

起源:专家本月  ,作者: 分享心得  ,:

美军动用十余艘舰艇、数十架飞机、上万士兵关闭伊朗港口

人民日报钟声:滑向“打劫性霸权”  ,美国正“以倒退的方式步入未来”

一个 8B 参数的大模型  ,通常必要约 16GB 显存。参数越多  ,越吃显存  ,这就是为什么  ,内存价值一天比一天高。此刻  ,有一种步骤  ,能够省下 6 倍显存  ,却险些不损耗模型机能。从前两年  ,萦绕这个看似极端的思路  ,一条全球性的技术较量在成型。而就在这条赛路上  ,一个齐全基于国产算力的规划  ,刚刚给出了自己的第一个回覆。模型被压到了不到 3B  ,同时  ,能力却能够保留 97%  ,甚至更进一步  ,若是结合 MoE 架构  ,未来能够直接在一部 8GB 内存的手机  ,运行 600 亿参数的大模型。听上去匪夷所思  ,怎么做到的? 三个值  ,能跑大模型吗传统大模型用极度精确的数字存储  ,意味着每个权沉能够取几万种分歧的数值  ,精度很高  ,但也很占内存。三值量化是一个极端的反向操作:直接把可选的数值从几万种砍到三种。技术上  ,这被称为 1.58-bit  ,由于编码三个值刚好必要约 1.58 个二进造位。这个压缩有多极端?打个譬喻:若是传统大模型的权沉是一幅全彩照片  ,三值量化就是把它压成只有黑、白、灰三色的极简图形。直觉上你会感触这必然损失惨沉。但从前两年的钻研反复证明  ,模型权沉里存在大量冗余信息。三个值  ,若是分配切当  ,足以承载绝大部门的模型能力。这不是一个新概想。2024 年  ,微软钻研院颁布了 BitNet b1.58  ,第一次系统论证了三值大模型能够逼近全精度模型的机能。微软随后在去年进一步颁布了 BitNet b1.58 2B4T  ,一个 20 亿参数、4 万亿 token 训练的开源三值模型。上个月  ,美国公司 PrismML 颁布了 Ternary Bonsai 系列  ,宣称是首批贸易可用的 1.58-bit 模型。▲上:Llama FP16 架构  ,下:微软钻研院开发的 BitNet 架构学术界也同样在跟进:Tequila 提出相识决三值量化钟赘死权沉陷阱」的新步骤  ,TernaryLM 索求了从零起头的原生三值训练。一条全球赛路在成型。但有一个关键问题始终没有被回覆:三值大模型训练  ,能在国产算力上跑通吗? 昇腾上的第一次这一次  ,在华为鲲鹏昇腾开发者大会(KADC 2026)上  ,面壁智能给出了答案。BitCPM-CANN 是面壁智能结合清华大学、OpenBMB 开源社区颁布的三值大模型系列。它的意思不仅在于「又发了一个三值模型」。在全球赛路上  ,BitCPM-CANN 做到了三个此前没有人做到的事件。第一次  ,在华为昇腾上端到端实现三值大模型训练。此前所有公开的三值模型训练都在 NVIDIA GPU 上实现。国产芯片堡垒第一次占有了自己的三值训练能力。第一次  ,一次性把规模推到 8B。此前昇腾上的低比特训练停顿在较幼规模的验证阶段。BitCPM-CANN 直接颁布了 0.5B、1B、3B、8B 四个档位  ,覆盖从手机到 PC 的齐全端侧场景。第一次  ,实现了与全精度模型的齐全对照评测。11 项工作、四大类评测(学问、阅读理解、学科知识、数学推理)  ,1B 到 8B 档位的能力保留率在 95.7% 到 97.2% 之间。97.2% 的能力保留率意味着什么?在 ARC、CMMLU、GSM8K 等主流评测中  ,BitCPM-CANN 三值模型与同尺寸 MiniCPM4 全精度模型的差距  ,已经幼于很多全精度模型之间的差距。其中  ,3B 档位的保留率最高  ,达到 97.2%。并且  ,这不只是论文里的数字  ,是能真正能够「拿来就用」的成就。BitCPM-CANN 的全数尺寸版本已经开源  ,0.5B 到 8B 四个档位都能够直接下载复现。对于熟悉面壁智能 MiniCPM 系列的开发者来说  ,BitCPM-CANN 就是 MiniCPM 家族的三值版本  ,还是一套生态。在统一个 GitHub 社区  ,家族前辈堆集了 3 万颗星、Hugging Face 总下载量超 3000 万的「家产」  ,此刻成长出来了新的方向。 6 倍显存  ,从服务器得手机都「吃到盈利」相比 BF16 全精度模型  ,BitCPM-CANN 节俭约 6 倍显存  ,这个数字开发者最能直接感知:一个 8B 参数的全精度模型必要约 16GB 显存  ,BitCPM-CANN 三值版本不到 3GB  ,能够流畅运行在一部手机上  ,共同 MoE 与激活领域约束  ,60B 规模的模型有望装入终端设备。硬件端也已经筹备好了。高通最新的旗舰芯片 8850 和 8397 支持 2-bit 原生推理  ,BitCPM-CANN 提供的刚好是能够直接喂进去的低比特权沉。芯片厂商等供给  ,模型厂商等芯片  ,此刻双方同时到位了  ,怎么不是一种「双向奔赴」。手机厂商对端侧大模型的投入一向在加快。上周 Google I/O 上  ,Gemini Intelligence 全面收受 Android 设备  ,从手机得腕表到车机 ;苹果也将在 6 月 WWDC 上展示下一代 Apple Intelligence 的沉大升级。两大手机操作系统同时发力  ,共同指向一个现实:手机端侧要跑越来越强的 AI  ,内存就是最硬的瓶颈。谁能用更少的内存跑更强的模型  ,谁就把握了下一轮竞争的自动权。现实上  ,若是结合整个 AI 产业在经历的阵痛  ,价值又会更上一层楼:4 月时  ,高盛把整年 DRAM 价值涨幅预期上调到 280%  ,美银预估全球 HBM 市场将达到 546 亿美元。AI 基础设施最紧缺的资源就是内存  ,6 倍显存盈利意味着不增长物理内存  ,就能把模型能力提升数倍。在内存持续涨价的情况下  ,这不是优化  ,是刚需。三值量化不是「用精度换内存」的妥协。当 97% 的能力被保留下来时  ,注明传统 16 位模型里大量的精度可能是冗余的。三个值  ,足以承载一个大模型的绝大部门知识。低比特不再是工程上的节俭伎俩  ,而是一种新的权沉知识承载方式。 为什么是面壁智能  ,为什么是此刻当 AI 从云端走向终端  ,端侧模型在成为幼我智能设备的主题能力。手机、电脑、车机  ,每一个切近用户的终端都在等一个足够幼、足够强、足够省内存的模型。这条赛路的输赢手  ,不会是那些只会把模型做大的团队  ,而是能把模型做幼、做轻、做到真正能跑起来的玩家。为什么是面壁智能  ,能在端侧大模型这条路上  ,一向走在前沿?这个问题的答案不在 BitCPM-CANN 自身  ,而在这家公司从前几年  ,一向在做的一件看起来有些「不合群」的事。面壁智能从成立之初就押注效能  ,在国内大无数团队追赶更大模型的时辰  ,他们花了大量功夫做底层训练框架 BM-Train  ,解决「怎么用更少的资源  ,训出足够好的模型」  ,这套基础设施堆集是后来所有的起点。在 1.58-bit 方向上  ,面壁智能的判断早于行业共识。许无数团队还在犹豫极低比特是否可行时  ,面壁智能就选定了这条路线  ,先在 GPU 上跑通了齐全的训练流程和步骤论  ,再整体迁徙到昇腾平台上D芄凰  ,BitCPM-CANN 不是把一个模型移植到了国产芯片上  ,而是把一整套经过验证的训练步骤、效能路线和工程系统  ,搬进了国产算力的底座。在模型层面  ,面壁智能的端侧模型 MiniCPM 系列在 GitHub 上堆集了超过 3 万颗星  ,Hugging Face 开源总下载量超过 3000 万  ,是端侧大模型领域最受欢迎的中国开源模型家族。BitCPM-CANN 正是 MiniCPM 家族向三值量化的延长  ,远不止一个展示性的「PPT 模型」  ,是一个真正可复用的工程地基。它背后的训练链路已经被沉淀为昇腾低比特训练的基础设施  ,后续所有想在昇腾上做低比特训练的团队  ,都能够在统一套底座上起步。值得一提的是  ,BitCPM-CANN 还在华为昇腾上实现了端到端的三值训练  ,训练效能达到通例基线的 95%。这证了然这套步骤论不依赖特定硬件平台  ,国产算力同样能够跑通。不是蹬撞件变得足够壮大来适应模型  ,要让模型变得足够聪明来适应硬件。从训练端的华为昇腾  ,到推理端的终端芯片  ,再到开源的模型和训练剧本  ,这是一条齐全的国产关环  ,框架国产  ,芯片国产  ,模型国产  ,步骤论自主。面壁智能的下一步已经明确:进一步提升模型的能力保留率  ,用 MoE 架构扩大更大规模模型的容量  ,把 6 倍显存盈利齐全开释到部署中。更长远的指标  ,是覆盖从预训练到对齐的全流程低比特化。从底层训练框架 BM-Train  ,到端侧模型家族 MiniCPM  ,再到 BitCPM-CANN  ,面壁智能用几年功夫搭建了一套齐全的端侧大模型技术系统。在全球赛路上  ,面对微软、PrismML  ,面壁智能展示出了怪异的分歧优势之处在于:从框架、步骤论、模型到芯片适配  ,构建了一条齐全的端侧技术路线。当 AI 竞争从「谁的模型更大」转向「谁能让智能真正跑在每一台设备上」时  ,把握端侧技术话语权的人  ,才站在了最有利的地位。

热点排行

【网站地图】