AI手机智能体实测得益单出炉：中兴领跑商用赛谈，端侧小模子集体遇阻

发布日期：2026-06-26 13:30 点击次数：76

　　【CNMO科技音书】当智高手机硬件改造过问瓶颈期，GUI 智能体正成为手机厂商新一轮角逐的中枢赛场。从传统语音助手到具备自主酌量、视觉感知、跨专揽全链路实行才能的智能体，端侧 AI 的落地才能，已然成为差别产物竞争力的中枢标尺。近日，SuperCLUE 发布AgentCLUE-Mobile 6 月手机助手 GUI 智能体测评榜单，6 款主流手机智能体同台竞技，最终得益呈现出 “一家领跑、三家胶著、两家追逐” 的了了神色。测评数据直指当下行业真相：参数并非决定性能的惟一要领，模子架构、任务适配度、单步决议质地，才是 AI 手机迈向商用的要害。

一、榜单全景：三大梯队口角分明，结束断层开首

　　本次测评聚焦具备完整智能体架构与专属模子的 6 款产物，协调在 ADB 手机交互 + 纯视觉输入的要领化环境中开展测试，从意图认识、视觉感知、长链路实行三大中枢维度量化才能，最终总得益排行如下：

　　纠合分数与玄虚才能，6 款产物被差别为三大梯队，差距十分显贵：

　　1. 第一梯队（90 分以上，商用级）：仅中兴 GUI 手机智能体入围。91.29 分的总得益遥遥开首，亦然全场惟一玄虚才能接近生意落地要领的产物。其在浮浅、中等、艰难全难度任务中进展隆重，7 大细分维度得分均龙套 85 分，端到端任务完成率高达 93%，基本解脱了端侧智能体 “教导交融偏差、操作冗余、长链路中断” 的通病。

　　2. 第二梯队（65-75 分，成长型）：智谱 AI Open-AutoGLM、阿里两款产物变成中游阵营，三款产物分差不足 8 分，处于胶著气象。该梯队产物具备基础的意图认识与 GUI 感知才能，但跨专揽长链路实行成为广泛短板，任务完成率采集在 56%-60%，距离界限化商用仍有彰着差距。

　　3. 第三梯队（60 分以下，探索型）：阶跃星辰 GELab-Zero、字节跨越 UI-TARS 处于追逐阶段。其中 UI-TARS 以 30.19 分垫底，与榜首差距超 60 分，纯视觉小模子在复杂手机交互场景中的才能短板水落石出；GELab-Zero 虽优于 UI-TARS，但举座才能薄弱，全维度得分均低于 62 分，任务完成率仅 35%。

　　从调用模式来看，API 调用类产物举座进展优于腹地部署产物。榜单前四名中三款均接管云表 API 调用，而四款腹地部署产物包揽后三名。这也印证了现时行业近况：受限于手机端算力、内存、功耗，纯端侧腹地运行的小模子，暂时难以承载复杂 GUI 自动化任务，端云协同仍是现阶段最优解。

二、深度拆解五大中枢论断：云表如故腹地大模子？这是一个问题。

　　本次测评并非浮浅的分数排行，而是通过难度分层、要道拆解、多维度打分，挖掘端侧 GUI 智能体的期间瓶颈与行业趋势，五大中枢论断精确勾画出现时赛谈的期间全貌。

1. 难度进展分化：部分产物 “倒错配”，中等任务成最大磨真金不怕火

　　测评题目接管倒金字塔难度结构，艰难题目占比最高，要点磨真金不怕火智能体的长链路实行、多意图并行、异常收复才能。各产物在不同难度任务中的进展，颠覆了 “难度越高、得分越低” 的成例认识：

　　中兴结束全难度通吃：浮浅任务得分 96.99 分，艰难任务仍保捏 85 分以上，不管短教导如故多要道复杂任务，决议领略性拉满。

　　第二梯队两款产物出现难度逆序征象：Open-AutoGLM 艰难任务得分 76.71 分、中等任务 68.68 分；Mobile-Agent-3.5 艰难任务 73.09 分、中等任务 58.17 分。艰难任务得分反超中等任务，中枢原因是中等任务包含无数隐式教导、多意图并行判断，对模子的酌量领略性要求更高，反而比线性长链路的艰难任务更难搪塞。

　　第三梯队全线拉胯：MAI-UI、GELab-Zero 校服得分随难度递加递减的规章，但举座分值偏低；UI-TARS 更为顶点，浮浅、中等、艰难三类任务得分均徬徨在 30 分把握，属于 “全难度失效”，无法胜任基础手机自动化操作。

2. 实行截止：完成率与操作步数强绑定，冗余操作是体验硬伤

　　测评从任务完成率和平均操作步数两大维度，掂量智能体的实行截止，这亦然平直影响用户体验的中枢标的：

　　中兴：93% 的超高完成率，平均每题仅 10.83 步。单步决议精确，竟然无冗余点击、回退操作，实行截止、准确率双优，饱和适配闲居用户使用场景。

　　第二梯队：完成率采集在 56%-60%，步数相反彰着。Mobile-Agent-3.5（59%/12.15 步）截止相对平衡；MAI-UI 完成率 56%，平均步数高达 17.23 步，存在无数无效操作，呈现 “操作多、正确率低” 的问题。

　　第三梯队：堕入 “步数越多、舛讹越多” 的恶性轮回。GELab-Zero 完成率 35%，平均 16.75 步；UI-TARS 完成率仅 18%，平均步数达到 20.62 步，在线观看国产精品福利91终点于每实行 11 步才能见效一次，实用性极低。

　　行业规章在此获得考证：智能体的实用化瓶颈，不啻是 “能否完成任务”，更是 “用些许要道完成任务”。压缩无效操作、素养单步决议质地，远比单纯素养举座正确率更能优化用户体验。

3. 云表模子断层领跑，腹地小模子 “参数越大或然越强”

　　模子架构与场景适配度，优先级远高于参数目：

　　27B 参数的中兴 Nebula-Pilot V1.0 一骑绝尘，相较第二名 9B 参数的 Open-AutoGLM 拉开 18 分的庞杂差距，大参数模子在复杂认识、长链路酌量上的上风充分认识。

　　7B 模子进展不足 4B 模子：字节 UI-TARS（7B）得分 30.19 分，大幅逾期于阶跃星辰 GELab-Zero（4B，54.26 分）。这阐扬脱离场景适配的参数堆叠毫无敬爱敬爱，针敌手机 GUI 交互优化的小模子，才能不错卓著通用型 7B 模子。

　　4B-9B 参数区间出现角落效应递减：该区间内模子参数目素养带来的才能增益十分有限，厂商单纯依靠 “堆参数” 素养产物竞争力的道路仍是走欠亨。

4. 才能短板：跨专揽实行成为行业通用瓶颈，短板决定上限

　　测评建造 7 大细分才能维度，热力求数据了了展现各产物的才能矩阵，同期揭示了全行业的共性短板：

　　中兴：才能全面平衡，六大中枢维度（浮浅 / 中等 / 艰难任务、意图拆解、GUI 感知、跨专揽实行）得分一齐龙套 85 分，无彰着短板，这亦然其高完成率的中枢相沿。

　　第二梯队：认识、感知才能尚可，但跨专揽全链路实行集体拉胯。Open-AutoGLM、Mobile-Agent-3.5 该维度得分分别为 65.69 分、67.10 分，多专揽切换、数据迁徙、奉告栏联动等复杂场景解决才能不足；MAI-UI 分化严重，意图拆解得分 76.72 分，但跨专揽实行仅 50.79 分，“认识强、实行弱” 的问题凸起。

　　第三梯队：全面逾期。GELab-Zero 全维度低于 62 分；UI-TARS 仅 GUI 感知维度达到 46.06 分，其余维度均低于 31 分，纯视觉模子难以兼顾认识、酌量、实行全经过。

　　追念来看：智能体的端到端见效用，由最弱维度决定。当下多数产物卡在 “跨专揽实行” 要道，这亦然从 “玩物级 AI” 走向 “器具级 AI” 必须攻克的中枢关卡。

5. 场景实战：典型任务落地对比，差距直不雅可见

　　本次测评比取多意图并行 + 跨专揽实行的高频复杂任务手脚典型案例：“高德搜索海底捞并导航至最近门店，翻开微信在产物推敲群发送位置分享”，完整还原用户真确使用场景，两款梯队代表产物的进展差距一目了然。

　　1. 中兴 GUI 手机智能体（满分 100 分）

　　全程 15 步操作，每一步逻辑连贯、动作精确。秩序完成翻开高德、搜索要害词、按距离排序选拔最近门店、启动导航、复返桌面、翻开微信、过问群聊、开启及时位置分享，无一步冗余、无一次误操作，精确交融 “最近门店”“位置分享（及时分享）” 两大中枢教导，完满匹配用户真确诉求。裁判判定系数要道灵验，是全场惟一满分完成该复杂任务的产物。

　　2. GELab-Zero（得分 53.85 分）

　　蓄意 13 步操作，出现两处中枢舛讹：第一，搜索海底捞后，未选拔距离最近的门店，违反 “导航至最近一家” 的教导；第二，污染微信 “发送静态位置” 与 “分享及时位置” 功能，误选静态位置发送，偏离 “位置分享” 的中枢要求。两大略害非常平直导致任务失败，无数操作沦为无效动作，亦然中低端智能体的典型问题：教导交融浮于名义，无法区分相似功能、隐性敛迹条目。

　　该案例也直不雅解释了分数差距背后的用户体验相反：优秀的 GUI 智能体不错像东谈主相通交融复杂当然讲话、区分细节教导；而逾期产物仅能完成基础点击，遇到多意图、隐性礼貌便容易出错。

三、追念：GUI 智能体，再行界说下一代手机的中枢体验

　　智高手机硬件改造仍是触顶，录像头、芯片、快充的同质化内卷难以再撬动换机需求，具备自主实行才能的 GUI 智能体，成为行业龙套增长瓶颈的新变量。

　　本次 AgentCLUE-Mobile 测评交出了一份澄澈的得益单：当下国内手机智能体赛谈梯队已然固化，中兴凭借自研 27B 大模子与深度场景优化，率先站在商用门槛之上；智谱、阿里等玩家处于成长阶段，仍需补皆长链路实行短板；而纯视觉小模子道路遭受彰着瓶颈。

　　关于系数这个词行业而言，这场测评敲响了警钟：AI 手机的竞争，早已不是 “有莫得大模子” 的倡导之争，而是 “模子能不可用、用得好不好” 的落地之争。参数仅仅数字，架构、适配、工程才能、场景打磨，才是决定产物最终体验的中枢。

　　站在行业拐点之上，AI 手机大战才刚刚运转。短期来看，端云协同仍是主流，全面商用的产物将率先收割市集；长期来看，跟着端侧算力捏续升级、模子期间不停迭代，腹地部署的轻量化高性能智能体，或将成为最终阵势。

上一篇：龙华区合同变更讼师推选
下一篇：深圳湾天空线更新！388米招行新总部7月初启用

AI手机智能体实测得益单出炉：中兴领跑商用赛谈，端侧小模子集体遇阻

热点资讯