我在小米推了两年的方向，字节用豆包手机助手做出来了-Seo优化-塔城地区网站建设公司

我在小米推了两年的方向，字节用豆包手机助手做出来了

张和张和专业讲AI2025年12月14日 13:12

张和｜前小米 8 年 AI 产品负责人｜现 AI 创业公司创始人

（做过手机 OS 级 AI、也做过自动驾驶数据闭环，更早在小米 AI 实验室带视觉产品团队）

过去两周，我被问得最多的问题就是："豆包手机助手这事儿你怎么看？"

怎么看？五味杂陈。

我在小米的最后一年多，一直在内部推 GUI Agent 和系统级记忆方向，基本涵盖了豆包手机助手的几乎所有功能。最初很多老板们还不理解，好在24年中终于立项成功了。然而一年后，字节用一台 3499 的工程机，直接官宣做出来了。

所以这篇文章，我打算把知道的都掏出来：技术怎么实现、成本怎么算、手机厂商为什么做不出来、淘宝微信的封杀为什么长期挡不住、终局在比什么。

下周一晚上我会做一场公开讲座，系统讲这个话题，也会现场回答大家的问题。感兴趣的可以先预约：

【👇 讲座海报 / 预约入口】

一、冲突现场：一台工程机，把移动互联网的默认规则戳穿了

过去十来天，行业里最有戏的一幕，不是"又一台 AI 手机发布"，而是一场正在发生的攻防战：

有用户用豆包手机助手做任务，操作到微信时会异常退出甚至无法登录，后续豆包侧把"操作微信"能力下线；微信侧回应更像是命中原有安全风控。
我自己买了这台工程机当主力机测试，现在淘宝直接不让我登录了。不是某个功能不能用，是整个 App 登不进去。
多家超级 App 对这类"系统级代操作"如临大敌，出现了限制登录、触发风控的博弈。

一台 3499 元的工程机，让淘宝、微信、京东这些超级 App 紧张成这样？

因为它动的不是某个功能，而是操作权。移动互联网第一次被迫面对"OS 代表用户点击"这件事。

谁掌握操作权，谁就有资格重写分发、交易和流量。

二、先说清楚这是个什么东西

12 月 1 日，豆包手机助手技术预览版发布，首发在中兴 nubia 的工程样机上，面向开发者和爱好者少量发售。

先澄清一个误解：它不是字节自研手机，而是"豆包 + 手机厂商 OS 层合作"的系统级助手，后续还在谈更多厂商合作。

它做到了什么？两件事：

第一，把超级 App 从"入口"降级成"可被调用的服务"。你说一句"帮我在淘宝京东拼多多比个价，找最便宜的下单"，系统帮你打开 App、搜索、比价、领券，你只需要最后确认支付。

第二，它不是停留在"问答"，而是开始掌握执行权。跨 App 连续操作，哪怕慢一点、哪怕偶尔翻车，但方向已经非常明确。

这就是为什么它会触发冲突：App 的风控体系，本来是防黑产、防脚本的；现在要防的是"系统级、拿了系统权限、还代表用户"的智能体。

三、为什么淘宝屏蔽豆包，短期能赢一局，长期挡不住？

这是大家最想知道的问题，我直接给判断。

现在的屏蔽手段比较"粗暴"：直接让中兴的这款工程机无法登录。但我认为长期很难规模化，理由有三：

1）你敢屏蔽"某一台工程机"，你敢屏蔽"小米 16"吗？

如果未来小米、华为在旗舰机上系统级上线类似能力，平台真要屏蔽，等于把一整代用户拒之门外。

这不是技术问题，是商业与舆论问题。

2）从技术底层讲，"OS 代表用户点击"可以越来越像真人

App 想检测"这一下是 AI 点的还是人点的"，难度会越来越高。

因为点击行为本身太单一，划一下、点一下、再点一下，路径就那么几条。理论上完全可以做到让你区分不出来。

最近 B 站有开发者做了硬核逆向拆解，提到两点很关键：

豆包GUI Agent读屏不是调用 Android 传统截屏接口，而是更底层地从 GPU 渲染结果里拿画面；
执行时会渲染一个"虚拟屏幕"，让 App 以为自己在前台被真实渲染，从而完成离屏操作。

如果真的走到这条路，你再怎么搞"禁止截屏"、"检测截屏 API"，人家可能根本不从那里走；你再怎么搞"必须前台交互"，人家给你一个"影子前台"。

3）真正的底层逻辑：OS 是"挟天子以令诸侯"

这句话听起来戏剧化，但它点的是核心：

当操作系统代表用户完成任务，平台对抗的是"用户意志 + OS 权限"的组合。用户就想让 AI 帮他比价、帮他领券、帮他下单，凭什么你淘宝不让我用？

这是一种结构性压力。

所以更可能发生的结局是：巨头之间谈规则、谈分账、谈接口；中小 App 连抵抗都抵抗不了，没有能力检测、没有资格谈判，只能被系统级 Agent 当"可调用服务"使用。

四、手机厂商为什么两年做不出来：不是技术不行，是"三堵墙"

这里有个认知反差：手机厂商明明有系统最高权限，为什么让字节这个"外人"先做出来？

很多人喜欢一句话概括："手机厂商动作慢"。

我把原因拆成三堵墙，每一堵都很现实：

1）部门墙：OS 团队和 AI 团队天然不在一个节奏上

OS 团队擅长工程交付、稳定性、安全，追求的是"别出事"；AI 团队追新技术、拥抱不确定性，追求的是"搞大事"。

要做 OS Agent，必须把两种文化硬拧到一起。这在苹果、小米、华为、OPPO、vivo 几乎都存在摩擦。

而字节这类软件公司，迭代心态更激进，更加AI Native："先做出来再说"。

2）隐私与品牌：手机厂商的"生命线"，不允许试错

同样是"拿系统权限 + 读屏 + 代操作"，软件公司可以说"我更新一下"；手机品牌一旦被贴上"不尊重隐私"的标签，就是长期伤害。

这也是为什么豆包这波一出来，舆论对隐私的关注会超出很多团队预期。你去看评论区，骂隐私问题的一大堆。

顺便说一个行业传闻（非公开渠道）：豆包可能因为隐私合规问题被工信部约谈了。官方公开回应强调"不在云端存储用户屏幕内容"，但用户对"上云"这件事天然不信任。

品牌是手机厂商的生命线，这道坎会长期存在。

3）场景价值没想透：单手机场景下，"自动驾驶"不是主流需求

说得更直白一点：手机 90% 的时间在刷内容、聊天、短视频，很多操作你并不需要它替你做。

所以只在手机里做 GUI Agent，会显得"有点酷，但不够刚需"。

什么时候它会突然变得 make sense？

当 AI 眼镜成为主入口。你在外面跑步，说"帮我订一杯咖啡送到公司"，手机在臂包里自动打开 App 下单，你全程不用停下来。

这也是我一直强调的：AI 眼镜竞争，本质上是 Agent 生态竞争。入口换了，手机的角色就变成"你的个人云端 + 执行服务器"。

五、技术拆解：豆包手机助手到底怎么实现的

前面讲了冲突和格局，现在还有干货。

我用一个"OS 视角"来拆它，本质上就是四个模块：眼睛、手、记忆、Pro 模式。

1）眼睛：怎么"看懂屏幕"

最朴素的版本：

手机界面不断被采样（每秒一张图或多帧）；
云端多模态模型读图，判断下一步要点哪里、滑哪里；
输出坐标和动作序列，端上执行。

很多人第一反应是：这得多贵？延迟多高？

答案是：没你想的贵。

算一笔账：假设 1 分钟任务、60 帧，单帧接近 1000 token，总 token 约 6 万；按豆包"0.8 元/百万 token"的价格，一个任务约 4 分钱。一个用户一个月做 100 个任务，成本大概 4.8 元。

所以别再用"成本太高所以做不起来"来解释 GUI Agent 了。成本会继续降，但执行权一旦成型，影响的是生态分账，不是账单。

2）手：怎么"点、滑、输"

执行层面，外界讨论最多的是 Android 的高危系统权限INJECT_EVENTS，允许应用向系统注入模拟的用户输入事件。

豆包回应也很直白：要跨屏跨应用模拟点击，就需要系统级权限，但需要用户授权，且权限清单会披露。

这也解释了为什么手机厂商不敢随便搞：拿系统级高危权限做大众功能，隐私与安全舆论是一定会来的。

我实测的体验是：豆包操作 App 时可以在后台进行，不占用前台画面，你可以继续干别的事。但如果豆包在用淘宝，你就没法同时用淘宝，除非打断它。

3）记忆：不是"聊天记忆"，是"跨应用的行为与数据记忆"

这是豆包手机助手另一个杀伤力。

它圈定了几十个常见应用（短信、携程、美团、小红书、高德地图、12306 等等），对这些应用里的订单、收藏、短信等关键动作做监控截取，再做向量化，变成可检索的个人上下文。

我测试了一下，问"最近有没有收到快递"，它能从短信里把京东快递的取件通知读出来，告诉我尾号多少、放在哪里。说明它对跨 App 的数据确实做了向量化处理。

说到OS级Agent的记忆，其实业界还有更激进的做法：每时每刻使用手机的时候每秒截屏 + OCR，把你手机上的"所见"变成"可检索文本上下文"。

这种思路，在2023年的硅谷知名创业公司Rewind.ai，以及微软2024年做的Windows端侧AI功能Recall上，其实已经落地了。

豆包的差异在于：它天然和"执行"绑在一起。记忆不是为了"回忆"，而是为了让它少问你、直接干活。

4）Pro 模式：把记忆和执行串成长链路任务

Pro 模式有点像是OS里的Manus：

GUI Agent 负责跨 App 操作；
记忆提供个性化上下文；
再加系统工具调用，让执行更快更准；
目标是完成更长周期、更复杂的任务。

比如："我下月要去巴黎玩，帮我把社交媒体上收藏的巴黎餐厅在地图上标记一下，再看看落地第二天哪个博物馆有我喜欢的展览，在旅行平台上订一张票，把相关信息整理到备忘录。"

六、MCP 为什么救不了：让所有 App 乖乖接协议，等于从零造操作系统

既然GUI Agent被大厂抵触，很多人喜欢把希望寄托在 MCP 这类协议上："大家都开放接口，Agent 通过接口调用，不就优雅了吗？"

问题是：这件事在现实世界里几乎不可能靠自觉发生。

MCP 要求每个 App 适配、持续维护；
生态规模要到"Windows / iOS / Android"这种级别才成立，而历史上真正做成的也就那几个；
华为鸿蒙搞了这么多年，花了可能近百亿人民币，到今天还是踉踉跄跄。

更关键的是：就算淘宝/美团支持了 MCP，它会把APP里成百上千个功能都开放出来吗？淘金币、蚂蚁庄园、各种优惠券入口、会员功能，淘宝不可能把每一个功能都做成 MCP 接口。

但如果 GUI Agent 能操控这个 App，我一次性解决了所有功能。

所以我对 MCP 的判断是：它会成为"锦上添花"，在少数强合作场景里更稳更快；但它救不了 OS Agent 的主路径。主路径仍然是：能 GUI 操控就 GUI 操控，能系统控件就系统控件，能协议就协议。

七、端侧大模型的核心价值：不是省钱，是隐私

有个误解需要澄清：很多人觉得端侧 AI 的优势是省钱，不用付云端的 token 费用。

这个账算不过来。

云端 GPU 可以集约化、批处理，一个 GPU 同时处理上百个用户请求，利用率很高。但端侧芯片大多数时间是闲置的，你花 100 块钱买的 AI 芯片，90% 时间手机放在那里不动。摊到使用成本里，端侧反而更贵。

那端侧的真正价值是什么？隐私。

你要让用户相信"账号密码不会被拿走"，最硬的一句话就是：数据永远不出这台手机。只有这句话能让用户安心。

这也是为什么手机厂商都在自研端侧多模态 GUI 模型。据我了解，每家在 GUI Agent 数据标注上的预算都是上亿级别。不是因为端侧便宜，而是因为只有端侧才能彻底解决信任问题。

当然，实际落地不会是纯端侧或纯云端，而是端云协同。简单说有三种配合方式：

第一种是分工：隐私相关的在端侧处理，比如"我相册里有没有身份证照片"；复杂的、需要高智商的发云端，比如"帮我解道奥数题"。

第二种是接力：端侧先把隐私信息脱敏，再把干净的任务描述发给云端。比如用户说"帮我女儿安排明天出游"，端侧知道女儿几岁、喜欢什么，处理完之后只告诉云端"安排一个 8 岁小朋友的动物园加博物馆行程"。云端根本不知道"女儿"这回事。

第三种是验证：端侧先出一个草稿答案，云端快速判断对不对，对的话就直接用端侧结果，省掉云端生成的时间和成本。

如果你在做"记忆 + 执行"类的产品，这三种模式基本决定了你的隐私方案能不能落地。

八、终局在比什么，以及我的时间点判断

聊完技术细节，最后说说这件事的终局。

OS Agent 这个方向，最终比的就是三样东西：谁更懂用户、谁更能干活、谁的模型更聪明。

"更懂用户"靠的是记忆。你能不能跨应用地理解用户、记住他的偏好、在他需要的时候召回正确的信息。这里面最难的不是技术，是隐私。用户愿不愿意让你记，记了之后怎么分层管理、怎么让用户放心，这是个产品问题也是个信任问题。

"更能干活"靠的是执行。你能不能稳定、可控、安全地帮用户完成操作，并且在关键节点（比如支付）让用户接管。现在豆包演示的跨 App 比价、自动领券、帮你订票，都是在验证这个能力。

"更聪明"靠的是大模型基座。但今天豆包证明了一件事：它没有超越当前模型的智能上限，它只是把现有的智能用对了地方，就已经足够接近实用了。

还有一个容易被忽略的变量：谁有 OS 级别的入口和权限。OS 能拿到最底层的数据、能触达用户的方式最多（通知栏、桌面、硬件按键、语音唤醒），这些是普通 App 做不到的。

所以我一直说：OS 正在进化为 Agent，Agent 也在进化为 OS。这两件事是同时发生的。

时间点判断

两年前在小米内部推这个方向时，我给过一个判断：25 年底手机 GUI Agent 接近实用，26 年全行业达到实用程度。

现在看，时间点基本对上。豆包在 25 年底把"接近实用"的形态端出来了。

我再给一个更具体的判断：6 个月内，华为、OPPO、vivo、小米大概率都能做出体验层面接近豆包的东西。

而且豆包这一出手，反而会利好手机厂商。本来内部还在犹豫要不要上线，现在不用犹豫了，豆包都火成这样，为什么不做？这反而会激发内部战斗力、打破部门墙、减少内耗。

但"做出来"不等于"敢大规模开放"。大规模开放，最终还是要过隐私、合规、用户信任这道坎。

入口之争：谁都不想再错一次

最后说个行业八卦。

坊间有消息说，张一鸣对当年放弃坚果手机很后悔。锤子科技收购了，坚果手机做了一代就停了。想想也可以理解：反正每年也亏不了多少钱，对字节这体量，每年亏几十亿根本不算什么，但能掌握一个入口级的生态位。

这个传闻我没法验证真假，但它表达的道理是对的：入口一旦丢了，大模型再强也会被动。

今天豆包要做手机助手，得去求着OPPO、vivo、荣耀等合作，因为自己没有手机。如果当年坚果还在，今天就是另一个局面。

再往下推一步：如果未来 OPPO、vivo 真的扛不住小米华为的压力，资本层面的并购整合不是不可能。阿里收一个、字节收一个，完全有可能发生。

结尾：我把知道的都掏出来了，剩下的现场聊

这篇文章基本把关键技术链路、成本、工程难点、行业博弈和终局判断都写出来了。

如果你读完的感觉是：这事儿不是一台手机的热闹，而是移动互联网下一轮规则重写"，那就对了。

下周一那场公开讲座，我会用更系统的方式，把"OS Agent = 记忆 + 执行 + 模型 + 生态位"这条主线讲透，并且把大家最关心的隐私、合规、反制、产品落地策略，拿出来做现场 Q&A。

感兴趣的话，就从文首海报入口预约。

我在小米推了两年的方向，字节用豆包手机助手做出来了