AI手机智能体实测得益单出炉:中兴领跑商用赛谈,端侧小模子集体遇阻

发布日期:2026-06-26 13:30    点击次数:76

AI手机智能体实测得益单出炉:中兴领跑商用赛谈,端侧小模子集体遇阻

  【CNMO科技音书】当智高手机硬件改造过问瓶颈期,GUI 智能体正成为手机厂商新一轮角逐的中枢赛场。从传统语音助手到具备自主酌量、视觉感知、跨专揽全链路实行才能的智能体,端侧 AI 的落地才能,已然成为差别产物竞争力的中枢标尺。近日,SuperCLUE 发布AgentCLUE-Mobile 6 月手机助手 GUI 智能体测评榜单,6 款主流手机智能体同台竞技,最终得益呈现出 “一家领跑、三家胶著、两家追逐” 的了了神色。测评数据直指当下行业真相:参数并非决定性能的惟一要领,模子架构、任务适配度、单步决议质地,才是 AI 手机迈向商用的要害。

一、榜单全景:三大梯队口角分明,结束断层开首

  本次测评聚焦具备完整智能体架构与专属模子的 6 款产物,协调在 ADB 手机交互 + 纯视觉输入的要领化环境中开展测试,从意图认识、视觉感知、长链路实行三大中枢维度量化才能,最终总得益排行如下:

  纠合分数与玄虚才能,6 款产物被差别为三大梯队,差距十分显贵:

  1. 第一梯队(90 分以上,商用级):仅中兴 GUI 手机智能体入围。91.29 分的总得益遥遥开首,亦然全场惟一玄虚才能接近生意落地要领的产物。其在浮浅、中等、艰难全难度任务中进展隆重,7 大细分维度得分均龙套 85 分,端到端任务完成率高达 93%,基本解脱了端侧智能体 “教导交融偏差、操作冗余、长链路中断” 的通病。

  2. 第二梯队(65-75 分,成长型):智谱 AI Open-AutoGLM、阿里两款产物变成中游阵营,三款产物分差不足 8 分,处于胶著气象。该梯队产物具备基础的意图认识与 GUI 感知才能,但跨专揽长链路实行成为广泛短板,任务完成率采集在 56%-60%,距离界限化商用仍有彰着差距。

  3. 第三梯队(60 分以下,探索型):阶跃星辰 GELab-Zero、字节跨越 UI-TARS 处于追逐阶段。其中 UI-TARS 以 30.19 分垫底,与榜首差距超 60 分,纯视觉小模子在复杂手机交互场景中的才能短板水落石出;GELab-Zero 虽优于 UI-TARS,但举座才能薄弱,全维度得分均低于 62 分,任务完成率仅 35%。

  从调用模式来看,API 调用类产物举座进展优于腹地部署产物。榜单前四名中三款均接管云表 API 调用,而四款腹地部署产物包揽后三名。这也印证了现时行业近况:受限于手机端算力、内存、功耗,纯端侧腹地运行的小模子,暂时难以承载复杂 GUI 自动化任务,端云协同仍是现阶段最优解。

二、深度拆解五大中枢论断:云表如故腹地大模子?这是一个问题。

  本次测评并非浮浅的分数排行,而是通过难度分层、要道拆解、多维度打分,挖掘端侧 GUI 智能体的期间瓶颈与行业趋势,五大中枢论断精确勾画出现时赛谈的期间全貌。

1. 难度进展分化:部分产物 “倒错配”,中等任务成最大磨真金不怕火

  测评题目接管倒金字塔难度结构,艰难题目占比最高,要点磨真金不怕火智能体的长链路实行、多意图并行、异常收复才能。各产物在不同难度任务中的进展,颠覆了 “难度越高、得分越低” 的成例认识:

  中兴结束全难度通吃:浮浅任务得分 96.99 分,艰难任务仍保捏 85 分以上,不管短教导如故多要道复杂任务,决议领略性拉满。

  第二梯队两款产物出现难度逆序征象:Open-AutoGLM 艰难任务得分 76.71 分、中等任务 68.68 分;Mobile-Agent-3.5 艰难任务 73.09 分、中等任务 58.17 分。艰难任务得分反超中等任务,中枢原因是中等任务包含无数隐式教导、多意图并行判断,对模子的酌量领略性要求更高,反而比线性长链路的艰难任务更难搪塞。

  第三梯队全线拉胯:MAI-UI、GELab-Zero 校服得分随难度递加递减的规章,但举座分值偏低;UI-TARS 更为顶点,浮浅、中等、艰难三类任务得分均徬徨在 30 分把握,属于 “全难度失效”,无法胜任基础手机自动化操作。

2. 实行截止:完成率与操作步数强绑定,冗余操作是体验硬伤

  测评从任务完成率和平均操作步数两大维度,掂量智能体的实行截止,这亦然平直影响用户体验的中枢标的:

  中兴:93% 的超高完成率,平均每题仅 10.83 步。单步决议精确,竟然无冗余点击、回退操作,实行截止、准确率双优,饱和适配闲居用户使用场景。

  第二梯队:完成率采集在 56%-60%,步数相反彰着。Mobile-Agent-3.5(59%/12.15 步)截止相对平衡;MAI-UI 完成率 56%,平均步数高达 17.23 步,存在无数无效操作,呈现 “操作多、正确率低” 的问题。

  第三梯队:堕入 “步数越多、舛讹越多” 的恶性轮回。GELab-Zero 完成率 35%,平均 16.75 步;UI-TARS 完成率仅 18%,平均步数达到 20.62 步,在线观看国产精品福利91终点于每实行 11 步才能见效一次,实用性极低。

  行业规章在此获得考证:智能体的实用化瓶颈,不啻是 “能否完成任务”,更是 “用些许要道完成任务”。压缩无效操作、素养单步决议质地,远比单纯素养举座正确率更能优化用户体验。

3. 云表模子断层领跑,腹地小模子 “参数越大或然越强”

  模子架构与场景适配度,优先级远高于参数目:

  27B 参数的中兴 Nebula-Pilot V1.0 一骑绝尘,相较第二名 9B 参数的 Open-AutoGLM 拉开 18 分的庞杂差距,大参数模子在复杂认识、长链路酌量上的上风充分认识。

  7B 模子进展不足 4B 模子:字节 UI-TARS(7B)得分 30.19 分,大幅逾期于阶跃星辰 GELab-Zero(4B,54.26 分)。这阐扬脱离场景适配的参数堆叠毫无敬爱敬爱,针敌手机 GUI 交互优化的小模子,才能不错卓著通用型 7B 模子。

  4B-9B 参数区间出现角落效应递减:该区间内模子参数目素养带来的才能增益十分有限,厂商单纯依靠 “堆参数” 素养产物竞争力的道路仍是走欠亨。

4. 才能短板:跨专揽实行成为行业通用瓶颈,短板决定上限

  测评建造 7 大细分才能维度,热力求数据了了展现各产物的才能矩阵,同期揭示了全行业的共性短板:

  中兴:才能全面平衡,六大中枢维度(浮浅 / 中等 / 艰难任务、意图拆解、GUI 感知、跨专揽实行)得分一齐龙套 85 分,无彰着短板,这亦然其高完成率的中枢相沿。

  第二梯队:认识、感知才能尚可,但跨专揽全链路实行集体拉胯。Open-AutoGLM、Mobile-Agent-3.5 该维度得分分别为 65.69 分、67.10 分,多专揽切换、数据迁徙、奉告栏联动等复杂场景解决才能不足;MAI-UI 分化严重,意图拆解得分 76.72 分,但跨专揽实行仅 50.79 分,“认识强、实行弱” 的问题凸起。

  第三梯队:全面逾期。GELab-Zero 全维度低于 62 分;UI-TARS 仅 GUI 感知维度达到 46.06 分,其余维度均低于 31 分,纯视觉模子难以兼顾认识、酌量、实行全经过。

  追念来看:智能体的端到端见效用,由最弱维度决定。当下多数产物卡在 “跨专揽实行” 要道,这亦然从 “玩物级 AI” 走向 “器具级 AI” 必须攻克的中枢关卡。

5. 场景实战:典型任务落地对比,差距直不雅可见

  本次测评比取多意图并行 + 跨专揽实行的高频复杂任务手脚典型案例:“高德搜索海底捞并导航至最近门店,翻开微信在产物推敲群发送位置分享”,完整还原用户真确使用场景,两款梯队代表产物的进展差距一目了然。

  1. 中兴 GUI 手机智能体(满分 100 分)

  全程 15 步操作,每一步逻辑连贯、动作精确。秩序完成翻开高德、搜索要害词、按距离排序选拔最近门店、启动导航、复返桌面、翻开微信、过问群聊、开启及时位置分享,无一步冗余、无一次误操作,精确交融 “最近门店”“位置分享(及时分享)” 两大中枢教导,完满匹配用户真确诉求。裁判判定系数要道灵验,是全场惟一满分完成该复杂任务的产物。

  2. GELab-Zero(得分 53.85 分)

  蓄意 13 步操作,出现两处中枢舛讹:第一,搜索海底捞后,未选拔距离最近的门店,违反 “导航至最近一家” 的教导;第二,污染微信 “发送静态位置” 与 “分享及时位置” 功能,误选静态位置发送,偏离 “位置分享” 的中枢要求。两大略害非常平直导致任务失败,无数操作沦为无效动作,亦然中低端智能体的典型问题:教导交融浮于名义,无法区分相似功能、隐性敛迹条目。

  该案例也直不雅解释了分数差距背后的用户体验相反:优秀的 GUI 智能体不错像东谈主相通交融复杂当然讲话、区分细节教导;而逾期产物仅能完成基础点击,遇到多意图、隐性礼貌便容易出错。

三、追念:GUI 智能体,再行界说下一代手机的中枢体验

  智高手机硬件改造仍是触顶,录像头、芯片、快充的同质化内卷难以再撬动换机需求,具备自主实行才能的 GUI 智能体,成为行业龙套增长瓶颈的新变量。

  本次 AgentCLUE-Mobile 测评交出了一份澄澈的得益单:当下国内手机智能体赛谈梯队已然固化,中兴凭借自研 27B 大模子与深度场景优化,率先站在商用门槛之上;智谱、阿里等玩家处于成长阶段,仍需补皆长链路实行短板;而纯视觉小模子道路遭受彰着瓶颈。

  关于系数这个词行业而言,这场测评敲响了警钟:AI 手机的竞争,早已不是 “有莫得大模子” 的倡导之争,而是 “模子能不可用、用得好不好” 的落地之争。参数仅仅数字,架构、适配、工程才能、场景打磨,才是决定产物最终体验的中枢。

  站在行业拐点之上,AI 手机大战才刚刚运转。短期来看,端云协同仍是主流,全面商用的产物将率先收割市集;长期来看,跟着端侧算力捏续升级、模子期间不停迭代,腹地部署的轻量化高性能智能体,或将成为最终阵势。