AutoGLM开源：每台手机，都可以成为AI手机

每日快讯 2025-12-09

AutoGLM开源：每台手机，都可以成为AI手机

每台手机，都可以成为AI手机

#AutoGLM开源

访问官网

相关链接： AutoGLM开源：每台手机，都可以成为AI手机客户端下载

我们想做的

到底是一件什么事

过去的很长时间，我们一直在回答同一个问题：

如果 AI 真的是“助手”，它能不能像人一样，自己把手机拿起来，把一件事从头做到尾？

在我们的想象里，AI 不该只停留在聊天框里，而是可以走进用户每天真正要点的那些 App 里：

帮你在外卖 App 里完成从选择到下单；
帮你在云手机里，批量处理通知、点赞评论；
帮你在销售、客服、出勤等场景里，自动做完一堆“你自己也不想点的重复动作”。

AutoGLM 想做的，就是这件事：让 AI 真正学会“使用手机”。

32个月

我们具体做到了什么？

用一句简单的话来说：

我们希望 AutoGLM，不仅能“说”，还能“做”。

为了这一句话，我们从 2023 年 4 月——一个大多数人还不知道大模型是什么的时候，完全从零去探索每一个细节，到今天，已经 32 个月了。

1.“乱点” -> “可控”

在最开始的版本里，基于大模型所构建的系统只知道“点”、“滑”等操作，偶尔能完成一个很短的流程，更多时候会迷失在不知所谓的操作中，甚至陷入死循环。

为了解决这类问题，我们花了近一年的时间，去梳理每一个可能的问题，尝试把这些“乱点的手”变成一只“可控的手”：

建了一整套 Phone Use 能力框架；
把点击、滑动、输入、截图、界面理解这些最基础的动作抽象出来；
让模型学会把一句自然语言拆解为一系列稳定、可回放的操作步骤；
处理掉各种真实世界的“脏信息”：网络波动、弹窗打断、广告遮挡……

2024 年 10 月 25 日，我们发布了第一个能够在真机上稳定完成一条完整操作链路的 AutoGLM，

它被业内视为全球首个具备 Phone Use 能力的 AI Agent。

2.第一个由 AI 发出的红包

2024 年 11 月，AutoGLM 发出了人类历史上第一个由 AI 完成的手机红包：不是脚本录制，不是内嵌 API 调用，而是通过在屏幕上“看见”界面、“理解”含义，一步一步完成点击。

对我们来说，这是一个信号：

从此以后，手机上的很多交互，第一次可以完全由 AI 接手。

3.走向云手机：把能力放到一个更安全的空间

2025 年，我们发布了 AutoGLM 2.0，验证了强化学习的规模扩展定律，提出了 MobileRL、ComputerRL 和 AgentRL 算法，让 AutoGLM 在上千个虚拟设备环境里同时强化学习，极大扩展了 Agent 的准确性和泛化能力。

更关键的是，我们不希望 Agent 直接在用户真实手机、真实微信上肆意操作，于是选择把它放进一台和用户真实世界脱离的虚拟手机里：

这台手机跑在云端；
每一个动作都可以回放、审计、干预；
真正敏感的数据可以严格隔离。

这套设计背后的直觉很简单：

让 AI 会用手机之前，我们要先保证，它不会在不该点的地方胡乱伸手。

除了云手机的选择，我们主动放弃了操作微信等这些离用户隐私较近的 APP。

为什么要开源？
我们真正在意的是什么？

从产品的角度，AutoGLM 已经可以支撑起很多真实场景；从工程的角度，AutoGLM的积累足够写成一大摞技术报告。

那为什么，在这个时间点，我们选择把它开源？

我们想清楚的，大概有三件事。

1.这件事只在一家公司做，是不够的

AI 手机已经是趋势，但如果“会用手机的 AI 能力”只掌握在极少数厂商手里，那意味着：

开发者的创新空间，要看平台愿不愿意开放接口；
用户日常生活中最重要的那台设备，越来越像“别人家的入口”。

AutoGLM 开源的第一层初衷，是把这一层能力变成整个行业可以共同拥有、共同打磨的公共底座。

你可以把它当成一块积木，放进你自己的系统里，也可以把它拆开、重写、改造，那一刻起，它就不再只是“智谱的 AutoGLM”，而是你和你的团队做出来的东西的一部分。

2.让隐私和控制权，真正留在使用方这一侧

我们也很清楚，Phone Use 能力，一旦做大，天然会碰到最敏感的那一部分世界：个人微信、支付、聊天记录、照片相册、企业内部系统。

我们不希望也不应该，把这些东西握在自己手里。

通过开源和私有化部署，企业和开发者可以在自己的合规环境中完整掌控数据、日志和权限。

可以让手机，成为专属自己的 AI 手机。

用一句话概括就是：

技术向整个生态开放，
数据与隐私，永远留在使用方这一侧。

3.把我们走过的路，变成大家在Agent爆发时代的起跑线

AutoGLM是一条很陡的路：我们啃过的技术难题、踩过的坑、重写过的框架，
在很多场景里都可以复用，也值得被复用。

但这还不够，“一花独放不是春”。Agent 的爆发，需要所有人一起参与。

我们更乐见的是：

有团队基于 AutoGLM，做出真正意义上的 AI 原生手机；
有研究者把其中的某个模块拆出来，变成一篇论文、一套新算法；
有个人开发者把一个 Demo 改成自己的项目，在某个小众场景里真正跑起来。

我们希望开源社区：

从今天开始，人人都可以拥有自己的手机 Agent。

你现在能拿到什么

我们开源的，是一整套可以「拿来就用」的能力，而不仅仅是一份概念说明。
具体包括：

训练好的核心模型；
Phone Use 能力框架与工具链；
可直接跑通的 Demo，覆盖 50+ 高频中文 App；
针对 Android 的适配层与示例工程；
文档、快速上手指南。

模型会以 MIT 开源许可证的形式开放，而所有代码会以 Apache-2.0 开源许可证的形式，托管在 GitHub 仓库（示例：github.com/zai-org/Open-AutoGLM）中。

你可以把它当成一套现成的基础设施，也可以单独拆用其中的某一部分，甚至可以把它改得面目全非——只要它帮助你更接近你心目中的「AI 原生手机」。

接下来
现在的 AutoGLM 不是一个完美的答案。真实世界的手机和应用，它还远远没有全部见过。未来的 AI 手机生态，也一定会有比我们今天想象得更惊喜的形态。

我们做的，只是把对“AI 会不会用手机”这个问题的一次完整回答，诚实地、原原本本地，交到你们手里。

在 2025 年尾的这个时刻，正如 Andrej Karpathy 所说，

从今天开始，人人都可以拥有自己的手机 Agent。我们面对的大概不只是“Agent 元年”，而更可能是“Agent 的十年”。

接下来，AutoGLM 团队会继续努力，让我们一起推动 Agent 开源和研究，那个梦想中的“贾维斯”，才会真的在我们人人身边出现。

©️版权声明：若无特殊声明，本站所有文章版权均归AI导航猿和数眼智能原创和所有，未经许可，任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容。否则，我站将依法保留追究相关法律责任的权利。

相关文章

AI导航猿收录了全球数百个不同类型最优质的AI工具和应用，免费分享AI各类教程和工作流，每日更新添加最新AI工具和技术，致力于打造全网最全AI工具集教程，持续分享AI实践干货 Ctrl + D 或 ⌘ + D 收藏本站到浏览器书签栏。

AI导航猿关于我们免责声明

Copyright © AI导航猿琼ICP备2025054846号-2

琼ICP备2025054846号-2