歸藏(guizang.ai) avatar

歸藏(guizang.ai)

@op7418

8/20/2025, 11:04:28 AM

前几天参加了一下智谱 AutoGLM 2.0的闭门会,同时试用了一下,发现这次的手机 Agent 可用性已经相当好了

- 应该是世界上首个手机通用 Agent
- 操作全在云手机&云电脑上运行
- 全平台覆盖的客户端
- 可以实现跨应用自动操作

👇下面是详细的测试和分析: https://t.co/Wk4KHIjJ4V
日常一个事情我觉得用手机的时候是非常低效的。

在约朋友的时候经常不知道去哪吃,而且在北京通勤时间巨长,40 分钟路程都算短的,找餐厅要在大众点评,看通勤时间要在高德还得转发给朋友一起挑餐厅,非常浪费时间,现在 AutoGLM 可以一次搞定了。
这个任务非常复杂,Agent 需要跨两个 APP 进行多次点击和搜索操作,没想到 AutoGLM 执行的很好。

首先他需要打开大众点评,然后切换城市到北京-搜索798 艺术区-筛选人均消费价格,挨个点击搜索结果记录信息。
只是在这一个APP 上就需要起码点 20 次。 https://t.co/9eOASifsiv
然后他需要打开高德地图,找到灰的几乎看不到的开屏广告跳过按钮,开始分别查询望京到 798 和回龙观到 798 的路线和时间,最后还得查询 798 到三里屯的时间。

在高德的操作看起来会比在大众点评的更加复杂,首先是点击次数更多,然后就是高德的界面内容真的又多又杂非常考验模型的多模态内容识别能力。
再经过几十次的点击和七八次的文本输入后 AutoGLM 非常快速而且准确的完成了任务,给出了餐厅的选择以及不同时间段和地点的通勤时间。

这里有个给智谱的小建议,GLM 的回复有点杂了,感觉他需要更加细致的整理信息,比如先把最为确定的餐厅信息和通勤时间告诉我,然后再说他推测的出行安排,事实和推理分开这样比较好。
男生日常购买一些必需品和商品的时候跟女生差别比较大,又需要比价,不然亏,但是又懒得去购物软件上不断的挑选和对比。、

这个时候就可以让 AutoGLM 出马了。

我直接让他执行了一个我日常购买电子设备的常见流程,搜索京东和拼多多关于大疆无人机的价格信息然后汇总。

智谱 Auto GLM 智能体手机的使用过程科幻感非常强,你只需要语音输入或者打字之后,他就会直接启动云端的手机开始执行任务。

首次启动会让你登录账号,后面就不需要了,然后你就看着他非常快的输入内容-查看搜索结果-分析详情页内容并且汇总,而且可以跨多个应用执行任务。

它默认会读取平台的前三个或者 5 个搜索结果,如果你觉得少的话可以在提示词要求他读取更多信息。

AutoGLM 给出了详细的结果京东的优惠和拼多多的价格都有,还有大致的评价。
除了我们正常人这种需要跨多个 APP 进行信息整理和决策的任务以外,我还有一个场景就是帮爸妈设置手机。

比如,我妈想看某个剧集的话,光是找到这个剧,然后点到对应的集数都要越过很多的障碍,有了 AutoGLM 我们完全可以直接把这些加到收藏或者已经观看那里让他继续看就行。 https://t.co/PciiIOH4Y7
AutoGLM 在检索信息的时候有非常强的搜索冲动,所以在需要动用筛选功能的模糊任务需要跟他强调用筛选工具而非搜索,不然他可能会直接搜热门现实题材电视剧,这种搜索词够呛能搜到符合要求的内容。

在我跟他强调了使用搜索之后,AutoGLM 就是开始通过搜索来完成信息检索的任务了,最后挑了长安的荔枝加入了收藏。
在测试的时候,AutoGLM 做正常人的操作是没啥问题的,但是由于国内几大巨头的反爬机制非常强大。

AutoGLM 最需要克服的反而是各种无限弹出的验证码和强制下线等操作。

手机 Agent 化目前来看从模型能力和用户需求上都是不可避免的发展方向,模型能力现在完全可以胜任了,剩下就是生态建设了。

希望国内的 AI 公司和几个互联网巨头早日磨合出一个安全又稳定的手机 Agent 运行环境,毕竟不只是人可以创造价值,Agent 也可以,而且 Agent 的时间是无限的。
详细的分析和更多测试可以在这里看:

https://t.co/QKGMi2cf5w
Share
Explore

TwitterXDownload

v1.2.1

The fastest and most reliable Twitter video downloader. Free to use, no registration required.

© 2024 TwitterXDownload All rights reserved.