AutoGLM开源:每台手机,都可以成为AI手机

我们想做的
到底是一件什么事

过去的很长时间,我们一直在回答同一个问题:
如果 AI 真的是“助手”,它能不能像人一样,自己把手机拿起来,把一件事从头做到尾?
在我们的想象里,AI 不该只停留在聊天框里,而是可以走进用户每天真正要点的那些 App 里:
- 帮你在外卖 App 里完成从选择到下单;
- 帮你在云手机里,批量处理通知、点赞评论;
- 帮你在销售、客服、出勤等场景里,自动做完一堆“你自己也不想点的重复动作”。
AutoGLM 想做的,就是这件事:让 AI 真正学会“使用手机”。
32个月
我们具体做到了什么?

用一句简单的话来说:
我们希望 AutoGLM,不仅能“说”,还能“做”。
为了这一句话,我们从 2023 年 4 月——一个大多数人还不知道大模型是什么的时候,完全从零去探索每一个细节,到今天,已经 32 个月了。
1.“乱点” -> “可控”
在最开始的版本里,基于大模型所构建的系统只知道“点”、“滑”等操作,偶尔能完成一个很短的流程,更多时候会迷失在不知所谓的操作中,甚至陷入死循环。
为了解决这类问题,我们花了近一年的时间,去梳理每一个可能的问题,尝试把这些“乱点的手”变成一只“可控的手”:
- 建了一整套 Phone Use 能力框架;
- 把点击、滑动、输入、截图、界面理解这些最基础的动作抽象出来;
- 让模型学会把一句自然语言拆解为一系列稳定、可回放的操作步骤;
- 处理掉各种真实世界的“脏信息”:网络波动、弹窗打断、广告遮挡……
2024 年 10 月 25 日,我们发布了第一个能够在真机上稳定完成一条完整操作链路的 AutoGLM,
它被业内视为全球首个具备 Phone Use 能力的 AI Agent。
2.第一个由 AI 发出的红包
2024 年 11 月,AutoGLM 发出了人类历史上第一个由 AI 完成的手机红包:不是脚本录制,不是内嵌 API 调用,而是通过在屏幕上“看见”界面、“理解”含义,一步一步完成点击。
对我们来说,这是一个信号:
从此以后,手机上的很多交互,第一次可以完全由 AI 接手。

3.走向云手机:把能力放到一个更安全的空间
2025 年,我们发布了 AutoGLM 2.0,验证了强化学习的规模扩展定律,提出了 MobileRL、ComputerRL 和 AgentRL 算法,让 AutoGLM 在上千个虚拟设备环境里同时强化学习,极大扩展了 Agent 的准确性和泛化能力。
更关键的是,我们不希望 Agent 直接在用户真实手机、真实微信上肆意操作,于是选择把它放进一台和用户真实世界脱离的虚拟手机里:
- 这台手机跑在云端;
- 每一个动作都可以回放、审计、干预;
- 真正敏感的数据可以严格隔离。
这套设计背后的直觉很简单:
让 AI 会用手机之前,我们要先保证,它不会在不该点的地方胡乱伸手。
除了云手机的选择,我们主动放弃了操作微信等这些离用户隐私较近的 APP。
为什么要开源?
我们真正在意的是什么?

从产品的角度,AutoGLM 已经可以支撑起很多真实场景;从工程的角度,AutoGLM的积累足够写成一大摞技术报告。
那为什么,在这个时间点,我们选择把它开源?
我们想清楚的,大概有三件事。
1.这件事只在一家公司做,是不够的
AI 手机已经是趋势,但如果“会用手机的 AI 能力”只掌握在极少数厂商手里,那意味着:
- 开发者的创新空间,要看平台愿不愿意开放接口;
- 用户日常生活中最重要的那台设备,越来越像“别人家的入口”。
AutoGLM 开源的第一层初衷,是把这一层能力变成整个行业可以共同拥有、共同打磨的公共底座。
你可以把它当成一块积木,放进你自己的系统里,也可以把它拆开、重写、改造,那一刻起,它就不再只是“智谱的 AutoGLM”,而是你和你的团队做出来的东西的一部分。
2.让隐私和控制权,真正留在使用方这一侧
我们也很清楚,Phone Use 能力,一旦做大,天然会碰到最敏感的那一部分世界:个人微信、支付、聊天记录、照片相册、企业内部系统。
我们不希望也不应该,把这些东西握在自己手里。
通过开源和私有化部署,企业和开发者可以在自己的合规环境中完整掌控数据、日志和权限。
可以让手机,成为专属自己的 AI 手机。
用一句话概括就是:
技术向整个生态开放,
数据与隐私,永远留在使用方这一侧。
3.把我们走过的路,变成大家在Agent爆发时代的起跑线
在很多场景里都可以复用,也值得被复用。
但这还不够,“一花独放不是春”。Agent 的爆发,需要所有人一起参与。
我们更乐见的是:
- 有团队基于 AutoGLM,做出真正意义上的 AI 原生手机;
- 有研究者把其中的某个模块拆出来,变成一篇论文、一套新算法;
- 有个人开发者把一个 Demo 改成自己的项目,在某个小众场景里真正跑起来。
我们希望开源社区:
从今天开始,人人都可以拥有自己的手机 Agent。
你现在能拿到什么

我们开源的,是一整套可以「拿来就用」的能力,而不仅仅是一份概念说明。
具体包括:
- 训练好的核心模型;
- Phone Use 能力框架与工具链;
- 可直接跑通的 Demo,覆盖 50+ 高频中文 App;
- 针对 Android 的适配层与示例工程;
- 文档、快速上手指南。
模型会以 MIT 开源许可证的形式开放,而所有代码会以 Apache-2.0 开源许可证的形式,托管在 GitHub 仓库(示例:github.com/zai-org/Open-AutoGLM)中。
你可以把它当成一套现成的基础设施,也可以单独拆用其中的某一部分,甚至可以把它改得面目全非——只要它帮助你更接近你心目中的「AI 原生手机」。
接下来

现在的 AutoGLM 不是一个完美的答案。真实世界的手机和应用,它还远远没有全部见过。未来的 AI 手机生态,也一定会有比我们今天想象得更惊喜的形态。
我们做的,只是把对“AI 会不会用手机”这个问题的一次完整回答,诚实地、原原本本地,交到你们手里。
在 2025 年尾的这个时刻,正如 Andrej Karpathy 所说,
从今天开始,人人都可以拥有自己的手机 Agent。我们面对的大概不只是“Agent 元年”,而更可能是“Agent 的十年”。
接下来,AutoGLM 团队会继续努力,让我们一起推动 Agent 开源和研究,那个梦想中的“贾维斯”,才会真的在我们人人身边出现。

琼ICP备2025054846号-2