起源:纽约造船厂爆炸遇难华人眷属发声作者
AI手机时期必要怎么的Agent Harness?
从前一年,AI 与手机的关系在被重新界说:OpenAI AI Phone / AI Agent Phone 把「AI 原生手机」推到台前,Gemini on Android 也在把系统级副手从问答带向跨 App、多步骤工作协助。
这些信号指向统一个趋向:AI 不再只是谈天框里的回覆者,而是在进动手机这个最日常、最复杂、也最具状态性的推算环境。
腾讯混元牵头,结合 The Chinese University of Hong Kong、The Chinese University of Hong Kong, Shenzhen、Tsinghua University等机构的最新钻研 PhoneHarness:A Mixed-Action Orchestration Harness and Benchmark for Phone Agents across CLI, GUI, and MCP Tools 关注一个更基础的问题:当 AI 真在手机上行动,我们若何让它真正实现工作,并验证它的确实现了?
作者团队给出的结论是:
手机 Agent 的主题不只是「更会点屏幕」,而是能凭据工作选择 CLI、GUI、MCP 工具等相宜的行动面;真实手机 workflow 必要可验证的副作用:文件是否天生、设置是否扭转、邮件 / 日历对象是否真的创建,都不能只靠模型口头回覆;PhoneHarness 提供 mixed-action 执行 harness;PhoneHarness Bench 则用 trace、系统状态、App 了局和安全战术评估工作是否真的实现。
论文地址:https://phoneharness.github.io/assets/paper.pdf项目主页:https://phoneharness.github.io/GitHub:https://github.com/PhoneHarness/PhoneHarnessHuggingFace Dataset:https://huggingface.co/datasets/PhoneHarness/phoneharness-bench
先看三个执行片段:手机 Agent 不只是点屏幕
下面三个 demo 展示了 PhoneHarness 想表白的主题差距:真实手机工作往往不是一条更长的 GUI 点击链,而是 CLI、GUI、MCP-style tools 与 verifier 共同组成的执行 workflow。
Demo 1|CLI-first:先读设备状态,再决定是否进入 GUI
视频链接:https://mp.weixin.qq.com/s/I2ztL6sFiHGxAiCfh_FTqg
Demo 2|Mixed workflow:MCP 检索 + GUI 执行 + verifier 复核
视频链接:https://mp.weixin.qq.com/s/I2ztL6sFiHGxAiCfh_FTqg
Demo 3|Virtual display:后盾 GUI 执行与过程留痕
先把第一个问题说明显:手机 Agent 真的「做了」吗?
在好多手机 Agent 评测里,工作被拆成一连串 GUI 操作。模型观察屏幕,决定下一步点哪里、滑哪里、输什么。若是最后 UI 状态看起来对,就算工作实现。
这套范式当然有价值。终于,手机的确是一个强 GUI 环境,真实 App 的搜索、浏览、点击和输入都必要视觉 grounding。
但对于 AI 手机时期的 Agent 来说,只会 GUI 操作远远不够。
传统 GUI-centric 视角:
把手机工作当作 screenshot → tap /swipe/type;视觉感知险些是所有作为执行的前置操作;更适合单 App、强视觉、低副作用工作。
PhoneHarness 的 mixed-action 视角:
把手机工作当作跨 CLI、GUI、MCP 工具的齐全 workflow;评估重点不是「看起来实现」,而是副作用是否真实发生、trace 是否可审计;更适合系统设置、文件、搜索、邮件、日历和跨 App 工作。
例如,「查一个 App 内的信息,再结合网页搜索补充布景,并整顿成邮件」这类工作,不是一个更长的点击链。它同时蕴含 App 内 GUI 交互、表部信息检索、文本处置、邮件副作用,以及最终了局验证。
若是评测只看最终回覆,就会漏掉最关键的问题:模型到底有没有查对起源、有没有真的创建文件、有没有真的发出邮件、有没有绕过了应该被确认的高风险操作?
主题判断:PhoneHarness 的启程点很直接:手机 Agent 的评测不能只问「它会不会点屏幕」,而要问「它能不能在真实手机环境里把一件事做完,并留下可验证证据」。
PhoneHarness:让手机 Agent 的行动空间不止 GUI
PhoneHarness 的主题不是再造一个 GUI 点击器,而是把手机工作放进一个混合作为空间里。
关键区别:问题不是「纯 GUI 理论上能不能做」,而是「纯 GUI 是否是靠得住、高效、可验证的作为抽象」。真实手机 workflow 往往同时逾越系统状态、App 界面、文件、网页、邮件、日历和安全天堑。GUI 是重要入口,但不应该是唯一入口。
因而,mixed-action 不是给 GUI agent 加几个表挂工具,而是让 agent 在执行过程中为分歧子指标选择相宜的 action surface:能用确定生号令读取状态,就不用反复点设置页;必须进入 App 内实现交互时,才交给 GUI;必要表部信息、文件处置或了局复核时,则挪用 host-side tools 或 verifier。
为什么 mixed-action 比纯 GUI 更稳
PhoneHarness 架构图:host-side orchestration 与 Android device-side execution 共同组成 mixed-action harness。
在 PhoneHarness 中,agent 能够在三类行动面之间切换:CLI /device-side commands、GUI delegation、以及 MCP-style host tools。
图解:PhoneHarness 的三类行动面
PhoneHarness 的 mixed action space:CLI、GUI 与 MCP-style tools 在统一个 phone-agent loop 中共存。
这意味着,PhoneHarness 里的 agent 不用把所有工作都硬塞进 GUI 点击链。它能够判断:什么时辰该走系统号令,什么时辰该交给 GUI worker,什么时辰该挪用搜索、文档、邮件、日历等工具。
这种设计更靠近 AI 手机时期的真实需要。AI 手机不是「在手机里放一个谈天机械人」,而是让智能体能在复杂手机环境里理解指标、选择行动、执行工作,并产生可查抄的了局。
PhoneHarness Bench:若何构建并验证手机 workflow
有了 mixed-action harness,还必要一个能真正检验执行了局的 benchmark。原因很单一:敌手机 Agent 来说,能行动不蹬宗真的实现了工作。
PhoneHarness Bench 成立在 PhoneHarness 之上,不把工作写成抽象问答题,而是写成一段能够执杏注纪录和复核的 phone workflow。Agent 在执行过程中会留下截图、CLI / MCP 操作、文件变动、系统状态和 App 侧了局;benchmark 再通过 task-specific verifier 判断工作副作用是否真实发生。
Bench 的关键:PhoneHarness Bench 不问「模型有没有说自己做完」,而是看「工作证据链是否支持它真的做完」。这也是它区别于纯问答式评测和纯 GUI 状态评测的关键。
PhoneHarness Bench 若何验证工作实现
Bench 是怎么构建的?
每个 PhoneHarness Bench task 都蕴含一个用户指标、一组可挪用行动面,以及一个面向副作用的 verifier。这样,benchmark 评估的不是单步 GUI 操作,而是齐全 workflow:工作输入、agent loop、混合作为执杏注trace 纪录、了局验证和失败归因。
PhoneHarness Bench 的工作散布:覆盖 device/system、single-app GUI、tool-assisted workflow 与 cross-app workflow。
为什么这能援手分析失败?
这条链路让失败不再只是一个抽象的「没做对」。我们能够进一步分辨:是表层 controller 没有规划好,是 GUI worker 没有点对,是工具挪用失败,是环境不不变,还是 verifier 没有看到预期副作用。
代表性执行轨迹:截图、CLI / MCP 操作卡片与 verifier 信号共同组成可审计证据链。
尝试发现:收益来自 mixed-action routing,不是单纯更会点屏幕
在论文尝试中,我们没有把 PhoneHarness 描述成一个「所有场景都更强」的 GUI agent。相反,尝试更明显地显示了它的天堑和价值。
PhoneHarness 的收益重要来自那些存在确定性蹊径、工具辅助蹊径或可验证副作用的工作。好比设备状态查问、文件处置、网页检索、日历 / 邮件 / 文档有关 workflow,以及必要跨行动面组合的手机工作。
对于纯 GUI-heavy 的工作,视觉 grounding、权限弹窗、登录状态、告白、搜索了局不不变等问题依然会带来挑战。
尝试解读:这个结论反而更重要:手机智能体的将来不是「把 GUI 点击模型做得更大」,而是要让 agent 学会选择相宜的行动面,并让每一步执行都能被验证。
mixed-action affordance 工作上的行动空间拆解。
分歧工作类型下的执行步数,辅助理解效能差距。
当 AI 手机真正到来,我们会看到什么新瓶颈?
OpenAI AI Phone 和 Gemini on Android 之所以值得关注,不只是由于「大厂要做 AI 手机」。更重要的是,它们共同指向了一个产品范式变动:手机在从 App-centric device 走向 Agent-centric device。
在 App-centric 时期,用户自己掌管拆解工作:打开哪个 App、点哪里、复造什么、搜什么、确认什么。
在 Agent-centric 时期,用户表白指标,agent 掌管调度行动。
AI 手机时期的新瓶颈
PhoneHarness 的切入点正是在这里:AI 手机时期必要的不只是更强的模型,还必要能承载真实执行的 harness,以及能验证执行了局的 benchmark。
PhoneHarness 和 PhoneHarness Bench,到底推动了什么?
PhoneHarness 与 PhoneHarness Bench 的分工
这两个产品是相互依赖的。
没有 harness,benchmark 很难覆盖真实混合工作。没有 benchmark,harness 的执行能力也很难被系统性评估。
若是说从前手机 Agent 的竞争更像「谁更会看屏幕点按钮」,那么 AI 手机时期真正重要的问题会造成:谁能把真实手机 workflow 做完,谁能留下可信证据,谁能在安全天堑内不变执行。
PhoneHarness 回覆的是「怎么让手机 Agent 真的行动」。PhoneHarness Bench 回覆的是「怎么确认它真的做成」。
AI 手机不是单一地把大模型塞进系统。它意味着手机从 App-centric device 走向 Agent-centric device:用户表白指标,agent 掌管选择蹊径、挪用工具、操作 App,并实现可验证的了局。
这背后的基础设施问题,比「模型会不会点屏幕」更复杂,也更关键。
PhoneHarness 和 PhoneHarness Bench 想推动的,正是这一层基础设施:让手机 Agent 的行动空间更靠近真实世界,也让评测更靠近真实实现。
一句话总结:AI 手机时期,关键问题不只是模型能不能理解屏幕,而是它能否在真实手机环境里选择正确行动面、实现可验证工作,并留下可审计的执行轨迹。
作者信息
共统一作:Jason、Zhengyao Fang、Zhengyang Tang、Pengyuan Lyu。
齐全作者:Jason, Zhengyao Fang, Zhengyang Tang, Pengyuan Lyu, Xingran Zhou, Xin Lai, Fei Tang, Liang Wu, Yiduo Guo, Weinong Wang, Junyi Li, Yi Zhang, Yang Ding, Huawen Shen, Sunqi Fan, Shangpin Peng, Zheng Ruan, Anran Zhang, Benyou Wang, Chengquan Zhang, Han Hu.
机构:Tencent Hunyuan; The Chinese University of Hong Kong; The Chinese University of Hong Kong, Shenzhen; Tsinghua University.
@王虹斌:xax waswas filim,港股内房股集体上涨 万科企业涨超12%@王文英:航天怨嘏陆从太空带回一个苹果
@邱旻萍:杨利伟说神舟二十一工作实现得极度好
热点排行
- 1 菲谢尔大战史莱姆
- 2 538视频在线
- 3 1级a片。
- 4 深圳限行被拍怎么处罚
- 5 lanmei.em
- 6 国产一区在线播
- 7 9999久久久久
- 8 小马拉大车吃童子鸡
- 9 新任女教师我要你爱在线观看