news 2026/7/4 21:37:22

从不可用到10分钟,再到10秒!我优化了AI手机操作,实现流畅运行

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从不可用到10分钟,再到10秒!我优化了AI手机操作,实现流畅运行

上回书说到(我用谷歌Antigravity部署AI手机,结果…远超CodeBuddy的智能,却败给一个开源BUG!),我们雄心勃勃地用Antigravity搭配Claude Opus 4.5,在我的RTX4070笔记本电脑上部署AutoGLM(桌面显卡RTX4070部署AnythingLLM调用vLLM搭建本地大模型知识库),试图打造类似豆包手机的AI手机,最终,天不遂人愿,因为transformers框架与GLM-4V的模型配置不兼容,折戟沉沙,Claude也只能引导我换用更大显存的GPU。

山重水复疑无路,柳暗花明又一村!就在我以为要此路不通时,奇迹竟悄然发生——时隔一日,Claude精准地给出了解决方案!

跟昨天不同,今天的Claude直接指出,是老版transformers(v4.57.3)与GLM-4V的模型配置不兼容,升级transformers到5.0.0rc0即可解决。看transformers这个版本号,怎么感觉像是新发布的呢?

不过,使用transformers 5.0.0rc0可能会导致与vLLM 0.12.0的依赖冲突,但不影响直接使用transformers加载模型。

source ~/miniconda3/bin/activate autoglmpip install 'transformers>=5.0.0rc0' --pre

查看运行方式,发现依旧是前6层在GPU,需要CPU卸载。

source ~/miniconda3/bin/activate autoglmcd /root/.gemini/antigravity/scratch/Open-AutoGLMpython main.py --base-url http://localhost:8000/v1 --model autoglm-phone-9b

不过,现在再次执行【打开设置】这个曾经遥不可及的指令,终于可以成功执行了。

但喜悦很快被速度问题冲淡,十分钟完成一个操作,这AI手机的智商未免有点太迟钝了。把问题抛给Claude,让他优化一下!

更令人惊喜的是,Claude还找到了免费的云端API方案,不错!貌似用质谱的API就能解决问题,Claude让我先去搜GLM-4-9B,我发现都是免费的。

但是,后来Claude又说这两个是对话用的,没有视觉,需要用GLM-4.6V。

可以看到,GLM-4.6V的发布时间跟宣传的Open-AutoGLM项目/AutoGLM-Phone-9B模型的发布时间是一样的,12月8日,但是不叫AutoGLM-Phone-9B,而且我在硅基流动也没有搜到这个模型。而且,这个模型还是收费的,具体不知道这个token消耗情况怎么样。

就连HuggingFace官网,还有评论在找INT8量化版本,估计也是显存不够吧。

而另外一个GLM-4.1V-9B-Thinking模型,Claude说这个就是AutoGLM-Phone-9B的基础架构,而且也是免费的!这个就是最佳选择!

面对本地部署的性能瓶颈,我决定采纳Claude的建议,借船出海——使用硅基流动的免费GLM-4.1V-9B-Thinking模型API。这一招四两拨千斤,彻底绕开了本地硬件限制。来个小试牛刀。

source ~/miniconda3/bin/activate autoglmcd /root/.gemini/antigravity/scratch/Open-AutoGLMpython main.py \ --base-url https://api.siliconflow.cn/v1 \ --model THUDM/GLM-4.1V-9B-Thinking \ --apikey sk-nssesszssessssesszsesszssesszsszssesszesszssessz

现在,我们再执行指令操作,发现可以成功执行,并且耗时大幅缩短。

可以看到,这个执行逻辑,其实就是抓取一张屏幕截图,然后分析屏幕元素,同时结合用户指令,转换成操作手机的ADB指令,过程中和最后,多次抓取屏幕截图,检测执行进展。原理就是这么简单。

现在,通过调用API,已经可以实现比较流畅的交互操作,比如【打开系统设置】,然后在设置页面【打开快手极速版】,这是他也会先返回桌面,再找到相关应用,最后模拟点击,来完成操作。

操作时间的话,每执行一次操作,大概需要60秒左右的时间,如果是复杂指令,操作时间会成倍增加。

为此,我还让Claude做了针对性的调优,压缩截图大小、降低分辨率,同时还能降低请求所消耗的token数量;同时,还针对应用做了指向性的打开优化,无需模拟点击即可直接打开,一次操作的时间成功压缩到了10秒左右,体验获得了质的飞跃。

这次破局之旅证明,面对技术难题,有时需要的只是一次关键的版本升级或一个巧妙的架构选择。

要这么看的话,AI手机的落地模式是不是就是云端智能 + 本地执行呢?因为在手机本地直接跑一个大模型,成本终究还是太高了!通过API调用云端最强大脑,或许是更务实和高效的选择。这条路,越走越宽了!

***推荐阅读***

无需公网IPv4!手把手教你配置基于IPv6的WireGuard安全隧道

IPv6隧道搭建指南:用WireGuard轻松玩转IPv4/IPv6混合网络

如何应对恶意QoS限制的带宽?你的MTU可能被“暗算”了!

基于IPv6配置openVPN实战:告别双栈难题,一步打通IPv6隧道!

openVPN进阶技巧:如何实现从服务端反向访问客户端内网?

揭秘运营商级域名策略路由:用dnsmasq与ipset实现同一IP三条不同网络路径的流量调度

Linux路由器性能强但难配置?试试Windows Server,小白也能操作,带宽轻松突破3 Gbps!

RDP授权119天不够用?给你的Windows Server来个“永久”授权

999999个远程用户?是的!深入Windows Server组策略,配置无限并发登录的奥秘

完蛋,摊上事了!我的服务器被攻陷了!

网络世界的“龟速封印”:实测显示,500ms延迟让带宽暴跌98%!

隐形杀手:0.1%的微小丢包,如何吞噬你的一半带宽?

告别高价SaaS!我用这款国产AI编程神器,零元自建n8n工作流系统

256台H100服务器的RoCEv2无损与全互联算力网络建设方案

2048卡H100算力中心100G无阻塞存储网建设方案

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/4 12:50:50

9、日期与时间管理:标准、概念与夏令时影响

日期与时间管理:标准、概念与夏令时影响 1. 时间周期建模 在时间建模方面,多数 ISO 8601 版本未提供无限有效性建模的解决方案。通常,尽管结束点(EP)值未知,但可知其将在未来发生。对于模型中未定义的有效性问题,解决方法是用一个足够大的未来值替代,或者采用用户自定…

作者头像 李华
网站建设 2026/7/3 8:40:13

终极指南:al-khaser反调试技术深度实战解析

在网络安全攻防对抗中,反调试技术已成为恶意软件分析的关键战场。al-khaser项目作为业界公认的反调试技术宝库,集成了从基础检测到高级对抗的完整技术栈,为安全研究人员提供了实战演练的绝佳平台。本文将带你深入al-khaser技术演进路径&#…

作者头像 李华
网站建设 2026/7/4 17:12:27

D3.js标签布局重构:从数据拥挤到视觉优雅的技术革新

D3.js标签布局重构:从数据拥挤到视觉优雅的技术革新 【免费下载链接】d3 Bring data to life with SVG, Canvas and HTML. :bar_chart::chart_with_upwards_trend::tada: 项目地址: https://gitcode.com/gh_mirrors/d3/d3 在数据可视化领域,标签重…

作者头像 李华
网站建设 2026/7/3 9:32:27

28、利用OpenVPN构建安全的跨平台虚拟专用网络

利用OpenVPN构建安全的跨平台虚拟专用网络 1. 静态密钥与PKI的对比 使用静态密钥存在一个问题,即会失去完美前向保密性,因为静态密钥从不改变。如果攻击者设法嗅探并捕获网络流量,然后获取并破解了加密密钥,那么攻击者就可以解密过去和未来的所有数据。而OpenVPN支持使用…

作者头像 李华
网站建设 2026/7/4 2:26:59

55、网络术语与Linux内核构建全解析

网络术语与Linux内核构建全解析 1. 重要网络术语介绍 在网络技术领域,有许多关键的术语和概念,它们构成了网络通信和数据处理的基础。下面将对一些重要的网络术语进行详细介绍。 1.1 TCAM - 三元内容可寻址存储器 与普通计算机中的RAM不同,普通RAM将数据存储在多个地址中…

作者头像 李华
网站建设 2026/7/4 17:28:08

如何高效配置Flutter CanvasKit渲染方案:5个关键优化策略

如何高效配置Flutter CanvasKit渲染方案:5个关键优化策略 【免费下载链接】engine The Flutter engine 项目地址: https://gitcode.com/gh_mirrors/eng/engine 还在为Flutter Web应用在复杂场景下的渲染卡顿和内存占用过高而困扰吗?作为基于WebAs…

作者头像 李华