news 2026/5/28 15:33:48

推荐 4 个 yyds 的 AI 控制安卓手机的 GitHub 项目。

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
推荐 4 个 yyds 的 AI 控制安卓手机的 GitHub 项目。

逛逛在 11 月发了一篇文章,盘点了 GitHub 上 AI 操纵手机的开源项目。

获得了 3 万多阅读,3000 多人转发收藏:

没想到那篇文章发布 5 天后,豆包就官宣推出了 AI 手机,紧接着智谱 AI 就开源了 AutoGLM 模型。

我又搜罗了几个 AI 操作手机的开源项目,再加上我之前发的那篇。整个 GitHub 上关于 AI 控制手机的项目算是被逛逛搜刮干净了。

欢迎收藏转发👏

01

智谱开源:Open-AutoGLM

这个开源项目太顶了,不到一周就 1.3 万的 Star 了。

基于这个开源框架,就能让 AI 可以像人眼一样看手机屏幕,然后像人手一样去点击。

你给它一个任务,比如:帮我总结下长春的景点,到高德地图上收藏一下这几个景点,特别是具体看看博物馆门票价格,再去12306上订一张上午十点从北京去长春的高铁票,把相关信息整理好给我。

AutoGLM 会先把手机屏幕截个图,模型会分析截图,通过视觉定位找到当前要点击哪个按钮或者做啥操作。

并通过 ADB(Android Debug Bridge)工具,直接向手机发送点击、滑动、输入文字的指令。

最终这样一步步模拟人看手机、操纵手机的行为,完成你给的任务。

开源地址:https://github.com/zai-org/Open-AutoGLM

而且这个开源可以本地部署,而且如果你有显卡,大约需要 24GB+ 显存,你可以把这个 Agent 跑在本地。

隐私数据,比如聊天记录、支付画面啥的不上传到云端也能自动化的你的安卓手机了。

如何使用

你可以使用Claude Code,配置 GLM Coding Plan 后,输入以下提示词,快速部署本项目。

访问文档,为我安装 AutoGLM :https://raw.githubusercontent.com/zai-org/Open-AutoGLM/refs/heads/main/README.md

02

通过 MCP 控制手机:DroidMind

DroidMind 这个开源项目的的核心逻辑是不自己训练一个新模型,而是做一个超级适配器

它通过 MCP 协议,把你的Android 手机直接挂载到Claude DesktopCursor或者 ClaudeCode上。

你不需要运行一个沉重的本地模型。

你直接用最聪明的Claude 或 Gemini,通过 DroidMind 这个翻译官,直接操控你的安卓手机。

开源地址:https://github.com/hyperb1iss/DroidMind

03

微软开源:UFO

这个叫 UFO 的开源项目其实是微软开源的 AI 操作 Windows 系统的开源项目。

只不过 11 月推出的 UFO³ Galaxy 已经演变成了一个跨设备、跨平台的编排框架。

UFO³ Galaxy涉及到操纵Android 手机设备的部分是这次更新的核心亮点之一。

它也是通过引入MCP 架构来实现的,这使得 UFO 不再局限于 Windows,而是能像指挥官一样控制安卓手机。

UFO³ Galaxy是一个多设备编排系统。它的核心理念包含两个部分。

  • Galaxy (星系):整个控制中枢,负责分发任务。

  • Constellation (星座):它将一个复杂的用户指令,比如把手机上的刚拍的照片传到电脑并用 Photoshop 编辑,拆解成一个 DAG(有向无环图)。

Windows 电脑、Linux 服务器、Android 手机等都作为独立的节点接入这个网络。

开源地址:https://github.com/microsoft/UFO

04

字节开源:UI-TARS

字节跳动开源的一个基于视觉-语言模型(VLM)的 GUI 智能体(Agent)项目。

它的核心目标是让 AI 像人类一样,通过视觉识别屏幕和操作鼠标/键盘/触控,直接控制手机、计算机或网页。

安卓手机设备操纵,UI-TARS 采用了一种端到端、纯视觉驱动、基于 ADB的控制方案。

也是截取手机屏幕画面,把截图输入给视觉模型,模型结合用户的指令分析屏幕上的元素,决定下一步做什么。

最后模型输出具体的动作指令,转化为底层的 Android ADB 命令发送给手机执行。

开源地址:https://github.com/bytedance/UI-TARS

另外之前发布的另外一个盘点 AI 控制手机开源项目的链接如下,感兴趣的可以去看看:

5 个 AI 操纵手机的 GitHub 项目,牛逼了。

05

点击下方卡片,关注逛逛 GitHub

这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/28 15:43:25

挖到 4 个 Vibe Coding 的 GitHub 开源项目,速速收藏。

Andrej Karpathy 是 OpenAI 创始成员、前特斯拉 AI 总监。他年初在 X 上发布了一条推文,分享了自己使用 Cursor Claude 进行编程的体验,并首次使用了 Vibe Coding 这个词。Vibe Coding 是一种全新的、基于 AI 的编程方式。你通过对话的方式和 AI 协作&a…

作者头像 李华
网站建设 2026/5/28 5:31:10

5分钟掌握Visual Studio许可证管理的终极解决方案

想要轻松管理Visual Studio Community Edition的许可证有效期吗?今天我们将通过PowerShell模块实现VS社区版延期的自动化操作,彻底告别许可证过期的烦恼。 【免费下载链接】VSCELicense PowerShell module to get and set Visual Studio Community Editi…

作者头像 李华
网站建设 2026/5/26 4:45:32

4、深入探索GIMP:画笔、图案与选区的运用

深入探索GIMP:画笔、图案与选区的运用 1. 画笔的使用 1.1 画笔设置 在使用绘画和绘图工具(如铅笔、画笔、橡皮擦、喷枪)时,可通过“文件 - 对话框 - 画笔”打开画笔选择窗口。在该窗口左侧,有各种预装的画笔笔尖,大小和形状各异,从微小圆形笔尖到纹理笔尖,甚至由图像…

作者头像 李华
网站建设 2026/5/26 20:46:13

Cube-Studio:企业级AI模型部署平台的架构与实践

Cube-Studio:企业级AI模型部署平台的架构与实践 【免费下载链接】cube-studio cube studio开源云原生一站式机器学习/深度学习AI平台,支持sso登录,多租户/多项目组,数据资产对接,notebook在线开发,拖拉拽任…

作者头像 李华
网站建设 2026/5/28 7:43:53

10、炫酷文本效果与网页图形设计全攻略

炫酷文本效果与网页图形设计全攻略 1. 炫酷文本效果 1.1 文本效果的魅力与由来 将简单文本转化为艺术作品由来已久,最早可追溯到大约公元前 2500 年的书法艺术。这么做的目的很明确,就是为了吸引和聚焦人们对特定单词或词组的注意力。例如,设计标志或网页标题时,我们希望…

作者头像 李华
网站建设 2026/5/28 21:00:08

Whistle网络调试抓包分析终极指南:快速上手跨平台调试工具

Whistle网络调试抓包分析终极指南:快速上手跨平台调试工具 【免费下载链接】whistle-client HTTP, HTTP2, HTTPS, Websocket debugging proxy client 项目地址: https://gitcode.com/gh_mirrors/wh/whistle-client 在当今复杂的网络应用开发环境中&#xff0…

作者头像 李华