AutoGLM开源:每台手机,都可以成为AI手机

每日快讯 2025-12-09

image.png

我们想做的

到底是一件什么事


image.png


过去的很长时间,我们一直在回答同一个问题:


如果 AI 真的是“助手”,它能不能像人一样,自己把手机拿起来,把一件事从头做到尾?


在我们的想象里,AI 不该只停留在聊天框里,而是可以走进用户每天真正要点的那些 App 里:


  • 帮你在外卖 App 里完成从选择到下单;
  • 帮你在云手机里,批量处理通知、点赞评论;
  • 帮你在销售、客服、出勤等场景里,自动做完一堆“你自己也不想点的重复动作”。


AutoGLM 想做的,就是这件事:让 AI 真正学会“使用手机”



32个月

我们具体做到了什么?


image.png


用一句简单的话来说:


我们希望 AutoGLM,不仅能“说”,还能“做”。


为了这一句话,我们从 2023 年 4 月——一个大多数人还不知道大模型是什么的时候,完全从零去探索每一个细节,到今天,已经 32 个月了。


1.“乱点” -> “可控”

在最开始的版本里,基于大模型所构建的系统只知道“点”、“滑”等操作,偶尔能完成一个很短的流程,更多时候会迷失在不知所谓的操作中,甚至陷入死循环。


为了解决这类问题,我们花了近一年的时间,去梳理每一个可能的问题,尝试把这些“乱点的手”变成一只“可控的手


  • 建了一整套 Phone Use 能力框架
  • 把点击、滑动、输入、截图、界面理解这些最基础的动作抽象出来;
  • 让模型学会把一句自然语言拆解为一系列稳定、可回放的操作步骤;
  • 处理掉各种真实世界的“脏信息”:网络波动、弹窗打断、广告遮挡……


2024 年 10 月 25 日,我们发布了第一个能够在真机上稳定完成一条完整操作链路的 AutoGLM,


它被业内视为全球首个具备 Phone Use 能力的 AI Agent

2.第一个由 AI 发出的红包

2024 年 11 月,AutoGLM 发出了人类历史上第一个由 AI 完成的手机红包:不是脚本录制,不是内嵌 API 调用,而是通过在屏幕上“看见”界面、“理解”含义,一步一步完成点击。


对我们来说,这是一个信号:


从此以后,手机上的很多交互,第一次可以完全由 AI 接手

image.png

3.走向云手机:把能力放到一个更安全的空间

2025 年,我们发布了 AutoGLM 2.0,验证了强化学习的规模扩展定律,提出了 MobileRL、ComputerRL 和 AgentRL 算法,让 AutoGLM 在上千个虚拟设备环境里同时强化学习,极大扩展了 Agent 的准确性和泛化能力。


更关键的是,我们不希望 Agent 直接在用户真实手机、真实微信上肆意操作,于是选择把它放进一台和用户真实世界脱离的虚拟手机里:


  • 这台手机跑在云端;
  • 每一个动作都可以回放、审计、干预;
  • 真正敏感的数据可以严格隔离。


这套设计背后的直觉很简单:


让 AI 会用手机之前,我们要先保证,它不会在不该点的地方胡乱伸手


除了云手机的选择,我们主动放弃了操作微信等这些离用户隐私较近的 APP。



为什么要开源?

我们真正在意的是什么?

image.png


从产品的角度,AutoGLM 已经可以支撑起很多真实场景;从工程的角度,AutoGLM的积累足够写成一大摞技术报告。


那为什么,在这个时间点,我们选择把它开源?


我们想清楚的,大概有三件事。


1.这件事只在一家公司做,是不够的

AI 手机已经是趋势,但如果“会用手机的 AI 能力”只掌握在极少数厂商手里,那意味着:


  • 开发者的创新空间,要看平台愿不愿意开放接口;
  • 用户日常生活中最重要的那台设备,越来越像“别人家的入口”。


AutoGLM 开源的第一层初衷,是把这一层能力变成整个行业可以共同拥有、共同打磨的公共底座


你可以把它当成一块积木,放进你自己的系统里,也可以把它拆开、重写、改造,那一刻起,它就不再只是“智谱的 AutoGLM”,而是你和你的团队做出来的东西的一部分。


2.让隐私和控制权,真正留在使用方这一侧

我们也很清楚,Phone Use 能力,一旦做大,天然会碰到最敏感的那一部分世界:个人微信、支付、聊天记录、照片相册、企业内部系统。


我们不希望也不应该,把这些东西握在自己手里。


通过开源和私有化部署,企业和开发者可以在自己的合规环境中完整掌控数据、日志和权限。


可以让手机,成为专属自己的 AI 手机。


用一句话概括就是:


技术向整个生态开放,

数据与隐私,永远留在使用方这一侧。


3.把我们走过的路,变成大家在Agent爆发时代的起跑线

AutoGLM是一条很陡的路:我们啃过的技术难题、踩过的坑、重写过的框架,

在很多场景里都可以复用,也值得被复用。


但这还不够,“一花独放不是春”。Agent 的爆发,需要所有人一起参与。


我们更乐见的是


  • 有团队基于 AutoGLM,做出真正意义上的 AI 原生手机;
  • 有研究者把其中的某个模块拆出来,变成一篇论文、一套新算法;
  • 有个人开发者把一个 Demo 改成自己的项目,在某个小众场景里真正跑起来。


我们希望开源社区


从今天开始,人人都可以拥有自己的手机 Agent。



你现在能拿到什么

image.png


我们开源的,是一整套可以「拿来就用」的能力,而不仅仅是一份概念说明。

具体包括:


  • 训练好的核心模型;
  • Phone Use 能力框架与工具链;
  • 可直接跑通的 Demo,覆盖 50+ 高频中文 App;
  • 针对 Android 的适配层与示例工程;
  • 文档、快速上手指南。


模型会以 MIT 开源许可证的形式开放,而所有代码会以 Apache-2.0 开源许可证的形式,托管在 GitHub 仓库(示例:github.com/zai-org/Open-AutoGLM)中。


你可以把它当成一套现成的基础设施,也可以单独拆用其中的某一部分,甚至可以把它改得面目全非——只要它帮助你更接近你心目中的「AI 原生手机」。



接下来

image.png

现在的 AutoGLM 不是一个完美的答案。真实世界的手机和应用,它还远远没有全部见过。未来的 AI 手机生态,也一定会有比我们今天想象得更惊喜的形态。


我们做的,只是把对“AI 会不会用手机”这个问题的一次完整回答,诚实地、原原本本地,交到你们手里。


在 2025 年尾的这个时刻,正如 Andrej Karpathy 所说,


从今天开始,人人都可以拥有自己的手机 Agent。我们面对的大概不只是“Agent 元年”,而更可能是“Agent 的十年”。


接下来,AutoGLM 团队会继续努力,让我们一起推动 Agent 开源和研究,那个梦想中的“贾维斯”,才会真的在我们人人身边出现。

image.png

©️版权声明:若无特殊声明,本站所有文章版权均归AI导航猿和数眼智能原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容。否则,我站将依法保留追究相关法律责任的权利。

相关文章