美国防部正式申请改名为“战争部”
4 月 20 日,月之暗面颁布了新模型 Kimi K2.6,并同步开源。从官方展示来看,这次更新沉点有三块:长周期 coding、网页设计天生,以及更大规模的 Agent Swarm。把三项能力放在一路看,会发现 Kimi 想强化的,已经不只是模型自身,而是模型调度 agent、收受工作流程的能力。它要做的就是一个能最终成为 Agent 的 OS 的模型。长周期 Coding 能力K2.6 在内部基准 Kimi Code Bench 上较 K2.5 有显著提升,覆盖 Rust、Go、Python 等多说话,以及前端、DevOps、机能优化等场景。官方给出两个 demo:一是用 Zig 说话在 Mac 上优化 Qwen3.5-0.8B 的本地推理,陆续执行 12 幼时、4000 余次工具挪用,推理吞吐量从 15 tokens/s 提升至 193 tokens/s。二是自主沉构开源金融撮合引擎 exchange-core,历时 13 幼时、1000 余次工具挪用,中值吞吐提升 185%,峰值吞吐提升 133%。两个案例指向统一个问题,在超出通例训练散布的工作里,冷门说话、靠近机能上限的存量项目,模型能否长功夫不变执行而不漂移。长周期不变性是目前行业普遍在攻的方向,改进蹊径重要集中在三个层面:谬误复原能力、长程靠得住性,以及工具挪用逻辑。各家的解法有所分歧,Anthropic 近几个月公开强调的沉点,是 harness 与 context engineering,而不只是单纯拉模型分数。Google 的思路是用超长高低文窗口来匹敌长程漂移,Gemini 提供最高 100 万 token 的高低文窗口。K2.6 的应对方式是将靠得住性直接压在模型层,据 CodeBuddy 内测数据,工具挪用成功率达 96.60%,factory.ai 的独立评估显示,K2.6 整体较 K2.5 提升约 15%。网页设计天生能力Kimi 成立了内部基准 Kimi Design Bench,从视觉输入、落地页天生、全栈利用、创意编程四个维杜纂 Google AI Studio 进行对比,K2.6 阐发更优。具体能力蕴含:从单条 prompt 天生带头效的前端界面、挪用图片 / 视频天生工具输出视觉素材,以及覆盖登录、数据库等基础全栈职能。视觉转代码这个方向,行业竞争格局相对清澈。Gemini 凭借原生多模态架构在视觉理解上拥有结构性优势,Google AI Studio 也是目前最主流的前端天生测试平台之一。K2.5 颁布时就有评测将其定位为 " 中国首个在前端设计和视觉理解上与 Gemini 2.5 Pro 形成真实竞争的模型 ",K2.6 是在此基础上的一连。Agent Swarm 扩容相比 K2.5,Agent Swarm 的规模从 100 个子 agent、1500 步,扩大至 300 个子 agent、4000 步并行执行,K2.6 掌管调杜纂工作失败后的自动沉分配。官方 demo 展示了 100 个子 agent 同时天生 100 份定造简历,以及批量为 30 家无官网零售店天生落地页等场景。Kimi 内部也已选取这套系统,内容团队通过 Claw Groups 跑颁布流程,Demo 造作、基准测试、社媒颁布各有专属 agent 分工。多 agent 合作是目前各家竞争最强烈的方向之一,但路线吩扃显著。OpenAI 的方向是在产品层做深度集成,将 agent 能力封装进 ChatGPT 的工作流。Kimi 的差距化在于盛开性,Claw Groups 不绑定自家模型,允许接入肆意第三方 agent,这一设计更靠近 agent OS 的定位,而非封关的产品生态。Benchmark 环节K2.6 在基准测试中最凸起的方向是 agent 搜索和现实工程 coding。DeepSearchQA f1-score 达到 92.5,当先 GPT-5.4 的 78.6 超过 13 分;SWE-Bench Pro 以 58.6 排在四家第一。但在同类工具挪用测试中,Toolathlon 和 MCPMark 别离以 50.0 和 55.9 落后于 GPT-5.4 的 54.6 和 62.5,注明 K2.6 在信息检索类 agent 工作上有优势,在第三方工具挪用质量上仍有差距。coding 方向整体处于第一梯队,但未能全面当先:Terminal-Bench 2.0 落后于 Gemini,SWE-Bench Verified 三家险些打平。推理和数学是显著短板:HLE-Full 不带工具仅得 34.7,比 Gemini 低近 10 分;AIME 2026、GPQA-Diamond 均落后 2 — 4 分。视觉方向与 Gemini 根基吃旖,但整体落后于 GPT-4.5。实测 K2.6编程能力4 月 14 日,K2.6 Preview 上线后,我把它接进 Claude Code,拿来做一个社区官网项目。项目内容不算单一,寂仔文章迁徙、汗青图片处置,也有全栈开发。整个过程断断续续跑了 6 天,最长一次工作跑了 3 幼时,前后分成 6 个彼此独立的会话。这轮测试里,K2.6 有两个阐发尤其值得记下来。先说长周期靠得住性。此刻好多 AI 编程副手都有一个很显著的问题:会话一断,高低文就像被清空了一遍,下次沉新打开,往往还得重新对齐布景、技术栈和代码规范。但这次测试中,我在每次新会话起头时都没有额表交代项目布景,K2.6 依然能一连第一天确定下来的技术选型和设计规范,6 天里产出的代码风格也根基维持一致。对于一个持续推动、不休迭代的真实项目来说,这种不变性比单次输出的惊艳更沉要。再说指令遵循。我给它的指令其实很单一,只有一句:" 优化 CMS UI。" 但 K2.6 没有停在表层执行,而是先回看已有设计规范,确认技术约束,再自己拆打算、往下推动,整个过程险些没有额表追问。在处置业务约束时,它也不是机械照做。好比迁徙剧本会自动保留原始 URL,并在 README 里补上潜在风险注明。这注明它理解的不是一句号令自身,而是号令背后的寓意。网页编程能力测试 1:动效交互promtps:为一家叫 PW 的 AI 写作工具设计一个产品落地页,要有科技感。必要蕴含:首屏 hero 区块、职能介绍区、用户评价区。滚动到分歧区块时有入场动画,hero 区有视差成效,CTA 按钮有 hover 动效。K2.6 天生的整体水准很高。配色用了 oklch 色彩空间,间距和字体用 clamp ( ) 响应式缩放,设计 token 抽得很系统,注明不是顺手填的。动效有档次,视差用鼠标地位 + 滚动双驱动加 lerp 插值,GSAP 入场用了 stagger 错开时序,feature card hover 做了跟手光效,这些细节大无数输出不会自动加。弱的处所是内容层,三张职能卡片的图标都是通用 SVG,用户评价头像只用了汉字首字,视觉上偏模板化。结构和动效的实现度高,内容设计的差距化不及。测试 2:视觉输入那些目眩缭乱的特效,很难用说话描述出来,这时辰,多模态视频就是一个很好的输入方式。我们录屏了 lusion.co 网页的交互,滚动特效相当复杂,我们让 K2.6 凭据视频写一个网页。(在 Claude Code 环境中)prompts:凭据视频,做一个特效一样的网页。我们先看一下原网站。第一次天生时,K2.6 只看了 17 帧的视频,做出来的成效并不好,经过第二轮对话,K2.6 页看到了更多细节。我们能够看一下 K2.6 仅仅通过视频天生的网页,固然和原网页的动效还有差距,但网页的元素结构,尤其是宇航员滑动成效根基都有模有样。分析一下操作流程,能够发现,在 ClaudeCode 环境下,K2.6 只能靠抽帧图片来进建视频,若是 harness 搭建的越发美满,K2.6 可能能够更好还原。Agent 集群这一项能力在 Kimi 官网进行测试,选取 K2.6 Agent 集群分析 K2.6 自身的能力。Kimi 首先对工作做整体判断,分析涉及哪些环节,这一步不联网,因而将 K2.6 鉴别为 2025 年颁布的模型。初步规划实现后,K2.6 加载相应技术,进入初步钻研阶段,并将钻研工作拆解成多个维度。前两步由 K2.6 单一模型执行,第三步则凭据拆解出的维度,每个维度派出一个 agent 并行发展钻研。例如," 陆钻研员 " 掌管钻研 K2.6 的推理能力," 陈钻研员 " 掌管钻研长文本能力。每个 agent 可独立挪用分歧技术、联网搜索,并以 plan 模式天生 todo 推动工作,最后将了局汇总共享;阕芎,Kimi 会对各 agent 产出的内容进行交叉验证,以纠正类似 "K2.6 颁布于 2025 年 " 这类谬误。进入汇报撰写阶段后,同样派出多个汇报撰写员 agent,并行实现各部门内容。这套流程在工程上有一个值妥贴心的设计决策,交叉验证不是甩给用户的,而是内嵌在流程里自动实现的。单个 agent 在独立运行时不成预防线会产生幻觉,Kimi 的应对方式不是试图扑灭这个问题,而是在架构层接受它的存在,用并行造作冗余,再用验证层消化误差。这与人类团队的合作逻辑高度类似,分头调延注汇总对齐、分工执笔。更沉要的是,这套流程对用户来说是全程通明的,每个 agent 在做什么、发现了什么、被纠正了什么,都能够追忆。这在当前多 agent 产品普遍是黑箱的布景下,是一个现实的差距点。DeepSeek 没来,K2.6 先来了最近一段功夫,AI 圈都在等 DeepSeek 的下一张牌。上一次它抬高了国内模型竞争的基准线,这一次,所有人也都默认,下一个热潮还会从 " 谁的模型更强 " 起头。但 K2.6 有意思的处所,刚好在于它没有只回覆这个问题。长周期 coding、网页天生、Agent Swarm,看上去是三项能力,其实月之暗面已经不满足于把模型做得更聪明,而是想让模型去组织更多 agent、收受更长流程、吞下更齐全的工作链条。参数规模、benchmark 排名、单轮对话质量,当然还沉要,但它们起头退到第二层。真正被推到台前的,是调度、合作、验证和交付等。若是说从前的大模型竞争,比的是谁更像一个更强的大脑,那么 K2.6 想证明的,是另一个方向:未来真正有分量的产品,也许不只是一个模型,而是一群 agent,表加一个会指挥它们的中枢。这个方向最后能不能跑通,此刻还不能下结论。但至少,月之暗面已经先把问题改写了。