微信“封杀”豆包:App 与 Agent 的第一场战争,不止关乎安全
前两天有几个朋友在抢努比亚和豆包合作的工程机,想体验一下豆包所谓 OS 级别的 Agent。今天的话题就变成了豆包 vs 微信,因为微信直接把用户的账号给踢下线了,理由是「登录环境异常」。

有人说这是又一场 3Q 大战,逼着用户二选一;也有人支持微信,说开放读屏和模拟操作的权限会导致黑灰产,微信是在保护用户;也有人在讨论用户对手机、对账号的所有权、支配权问题。
这个话题注定是有争议的,甚至我的一些观点也会被尖锐地批驳。
但我觉得,讨论这件事是有意义的,因为技术的发展已经走到这一步了,新与旧、系统与应用、用户与厂商的矛盾已经出现了,所以不论正反双反观点如何,都应该摆出来讨论。
我先说说我的观点:
在我看来,这件事现阶段是无解的(后面我会尝试给一个解),如果你支持豆包,就是在支持用户对自己设备和账号支配的自由;如果你支持微信,就是支持像腾讯那样用大厂的方式去「保护用户」。
我今天,尽量把这件事给大家聊透了。
一、谁对你的好,才是真的好?微信把用户踢下线,给出的理由是「安全风控」。 微博上的数码博主也说,任何厂商的手机都不能在微信下使用模拟操作功能。

这个逻辑成立吗?当然成立。
站在腾讯的立场上,微信是一个极其精密和封闭的生态系统。它承载着十几亿人的社交关系链和金融交易。它的任何一个环节出现纰漏,后果都是灾难性的。
对于一个外部的、行为不可预知的 AI Agent 在自己的地盘上「代你操作」,微信自然是拒绝的。
在未知风险面前,最简单、最粗暴,也最有效的办法,就是「一刀切」:禁止一切非官方授权的自动化操作。任何通过「模拟点击」来操作微信的行为,都会被安全系统判定为异常。管你是豆包还是面条,先踢下线再说。
这是一种「家长式保护」。它用它的方式来定义「安全」,并且为了这种「安全」,不惜牺牲掉一部分用户的自由和便利。
但是问题在于,我花钱买了手机,手机是我的;我注册了微信,账号的使用权在某种意义上也是我的(虽然腾讯说号是租给我的)。
那么问题来了,我有权利授权我的「电子管家」帮我去操作我的 App 吗?
类比一下,我在现实中雇了一个的秘书「小王」,我开会时自愿把我的手机交给他,让他帮我回复信息。
这违规吗?显然不。
现在,我把「小王」换成了「豆包」,换成了一段运行在我手机芯片里的代码。怎么就不行了呢?
微信当然可以说,用户协议里严禁第三方工具自动化操作。
但是,怎么说呢,技术在发展,用户协议也从来不是静态不变的。
现在条款的逻辑是:为了防止黑灰产,我禁止一切我不允许的自动化。
这在 AI 时代之前,是合理的。因为那时的自动化大概率就是作弊。
但在 AI 时代,自动化有很多种。我都已经授权了,我都已经同意了,App 跳出来说:不行!不安全!
换句话说,你可以是手机的主人,但你大概率不是 App 的主人。现在的 App,不仅要占据你的存储空间,要占据你的注意力,甚至要管你的使用的方式。
(顺便一提,关于 Agent 运行中的隐私问题,豆包手机助手专门写了一篇白皮书,但这不是我们今天的重点)

你当然可以授权 Agent 操作系统的 root 权限,但微信对操作系统权限可能有自己的看法——他可以选择直接把你踢下线,不让你登录。
这其实是一种权力的倒置。操作系统本应是 App 的宿主,拥有最高的管辖权。但在移动互联网时代,超级 App 已经长成了「国中之国」。它们体量大已经到足以要把持 OS 的部分权力。
那么问题来了:操作系统说要优化你的体验,App 说要保护你的安全,谁对你的好,才是真的好?
我想,这个问题不会有统一的答案。
二、 GUI Agent 不是群控,别乱扣帽子在继续聊生态的问题之前,我们先插播解决一下技术问题。
因为我看到很多对豆包持批评态度的人,喜欢把豆包这种「AI 手机助手」归类为「自动化外挂」或者「群控软件」。微信的安全风控逻辑,大概率也是基于这个特征去判定的。
但在技术原理上,GUI Agent(图形用户界面智能体)和黑灰产用的群控软件,有着本质的区别。
什么是群控?
搞几百台手机,连上数据线,用 Hook 或者脚本,批量地、机械地执行操作:加好友、发朋友圈、点赞。群控的核心诉求是「批量」和「低成本」,目的是为了流量造假、微商引流或者电信诈骗。

从技术角度讲,群控的程序是没有「脑子」的,它只是在执行死命令。
那什么是 GUI Agent?
它是让 AI 模型(通常是多模态大模型)去「看」屏幕。就像人眼一样,它识别出哪里是按钮,哪里是输入框,然后理解用户的自然语言指令,规划出一步步的操作路径,最后模拟手指的点击和滑动。
这里的关键在于自主决策、通用能力和单个用户的授权操作。
话说,谁会用大模型去做群控?
黑灰产图的是快,图的是量。群控要的就是不带脑子的执行,上大模型模拟真人操作反而会影响稳定和效率。
所以,把 GUI Agent 等同于破坏生态的恶意脚本,在技术上是站不住脚的。
那么,为什么微信反应这么大?或者说,微信是故意针对豆包吗?
倒也不是。因为从微信的角度看,「非人」的操作特征是相似的。微信很难区分,这一次点击是来自人、来自系统底层的无障碍服务接口、或者哪种新的群控软件。
为了安全,宁可错杀一千,不可放过一个。
但这是技术识别能力的局限,而不是 GUI Agent 的原罪。
三、为什么非要走「模拟点击」这条路?话说回来,都已经是操作系统级别的 Agent 了,为什么还要走「模拟点击」这条路?为什么不能从系统超级无敌 root 账号的权限上干脆直接读数据呢?或者换一个角度,App 说你不合规,那你做得合规不就完了。
合规?是大家不想合规吗?问题在于,规在哪里。
如果「规」就是拒绝一切跨应用或自动化操作,那大家还探索个啥子?
Agent 厂家是不想在合规的前提下用 API 接口做操作吗?如果几行代码+文本数据流能解决的问题,谁愿意大动干戈地去研究 GUI Agent,去识别图像,去模拟点击呢?

但是问题在于,App 的大门紧锁。
现在的互联网生态,早就不是当年那个开放的 Web 了。现在的 App 生态就是围墙花园,山头林立。
各家都觉得自己的数据重要,各家都想把用户圈在自己的生态里,各家都想尽可能占据用户的注意力拉长自家 App 屏幕使用时长。
每个 App 都是一个独立的王国。它们都想把用户、数据、交易、时长都牢牢地圈在自己的生态闭环里。所以 App 越来越臃肿,你可以在购物的 App 上刷短视频,可以在点外卖的 App 上贷款,至于聊天和支付 App —— 你可以在这俩 App 的小程序生态里完成所有事情。

这种模式下,开放 API 接口,让外部的 Agent 能够自由地调用自己的核心功能、比对自己的核心数据,可能吗?
美团会开放一个 API,让豆包能直接获取所有商家的实时价格,去和饿了么做比对吗?淘宝会开放一个 API,让豆包直接完成「跨平台比价后一键下单」吗?
不可能的。这等于把平台的流量分发权和商业定价权拱手让人。今天你让 Agent 进来比价,明天商家投放广告可能就要投给 Agent 的开发者,而不是平台了。这是在要平台的命。
在这样的环境下,OS 级的 Agent 想要跨应用服务用户,它无路可走。
当手机厂商试图通过 OS 层面的 AI 来帮用户找回一点主动权(比如自动跳过广告、自动比价、自动发送消息)时,超级 App 们自然感受到了冒犯。
它们会说:这是我的地盘,我的流量,我的数据。你通过 OS 层面「看」到了我的内容,还没经过我允许,这就是「白嫖」,这就是「寄生」。
但是别忘了,这些内容和数据,归根结底是用户产生的,或者是展示给用户看的。
如果我看一眼屏幕不违法,为什么我授权我的 AI 帮我看一眼就违法了?如果我手动比价不违约,为什么我让 AI 帮我比价就违约了?
仅仅是因为 AI 看得快?记得准?
如果因为「效率太高」而破坏了 App 的广告商业模式(比如不看竞价排名,只选最便宜的),那说明这个商业模式本身就是建立在利用用户的信息不对称和决策低效率之上的。
技术进步的本质,就是消除信息不对称,提升效率。 如果商业模式必须依赖「低效」才能存活,那这种模式被 AI 颠覆,是迟早的事。
僵局就在这里。Agent 的存在价值,就是要打破围墙。而 App 的生存之道,就是要加固围墙。双方的诉求是根本对立的。
四、 豆包的入局,让大家正视App 与 Agent 权责边界问题聊到这里想起来,我好像还没有明确表态。
怎么说呢,我相对倾向于支持豆包。理由也很简单,因为我发现,我有不用豆包的自由,但我没有不用微信的自由。
其实之前也有过类似的案例,比如某手机厂家之前推出过「一键闪记」功能,用户长按识别当前页面,AI 就会自动识评完成记账。

这个功能也是因为微信的「安全考虑」被停用了,但没引起这么大的关注,说明豆包现在自带流量,吃瓜群众看到大厂掐架就爱凑热闹。
其实这是早晚的事,不是今天微信打豆包,就是明天小爱打淘宝。Agent 和 App 之间,必有一战。
而且我觉得,对于行业、对于用户,这未必是坏事。不走到这一步,也不会发现有这样那样的问题。
因为它逼着大厂去思考,在 AI Agent 浪潮下,App 该如何和 Agent 相处,简单的「封杀自动化」策略是否还能持续,能否受到用户的理解和认可?它也逼着手机厂商去思考:在没有生态话语权的情况下,如何通过技术手段来博弈? 它更让监管层看到:这里有一块监管的空白地带,关于 AI 智能体的法律地位、数据访问、授权操作,需要一个规范。
如果豆包通过这件事,真的能推动一些改变,对用户来说不是坏事。
即便改变不了什么,让大家开始关注,开始讨论,也是在为技术进步做出必要的普及和铺垫。
五、 暂时无解的僵局,与一个可能的未来至于解决办法嘛,我觉得现阶段是无解的。
腾讯有错吗? 站在它的立场,它说要维护生态安全,防止黑灰产泛滥,保护商业利益。如果开了这个口子,谁来保证 Agent 是善意的?谁来保证 Agent 不会被 Prompt 注入攻击,不会被黑客策反成间谍?而且很难说这种保护的边界在哪里,也很难说微信的考量里究竟多少是用户,多少是自身利益。
豆包有错吗? 站在技术演进和用户需求的立场,AI 手机不应该只是个换了皮的语音助手,它必须具备执行能力。如果不突破 App 的围墙,AI 手机就是个伪命题。
换句话说,双方都认为自己是对用户好,双方都认为对方的权限不当,一个管的太宽,一个要的太多。
我觉得布鲁卡说的有道理:「唯一解法就张小龙自己做。」
当然这话也只对了一半。
如果只有微信自家的 AI 能操作微信,那用户还是被锁死的。那 OS 算什么?仅仅是个 App 启动器吗?
也许只能等。
等到什么?等到行业被逼出一个标准来,等到 A2A (Agent to Agent) 协议落地。

也许未来会变成这样:
各家 App 各自内置一个 Sub-Agent 接口,对外共享出一套类似于 MCP 的文档说明。
当我对手机说:「给老婆发微信告诉她我晚上不回家吃饭了」。 OS Agent 会解析意图,通过标准协议呼叫微信的 App Sub-Agent,传入 {target: "老婆", message: "晚上不回家吃饭", action: "Send"}。 微信的 App Agent 验证这是用户授权的合法指令后,在后台完成发送,返回一个 {Status: "Success"} 给 OS。
同样,我对手机说:「帮我用美团一杯星巴克大杯冰美式,送到公司。」OS Agent、美团、支付宝 App Sub-Agent 也会根据彼此共享的能力和 Context 完成任务。
这些过程里,不需要模拟点击,不需要视觉识别,安全、可控、合规。
为什么这样就安全、可控、合规了?
因为 App Sub-Agent 是各家 App 自己开发的,自己对自己负责,不能把锅甩给 OS Agent 了。
顺便一提,本来,苹果有希望干成这件事,他们搞了 App Intents,就是希望开发者把应用的原子能力像工具调用一样共享给 Siri。

不过 Siri 一直没做起来,这套生态也就跟着荒废了。这套机制自然是好的,大家相互之间走授权、走 API,调用能力、传递数据、保护隐私,其乐融融。
但是现在来看,就算其他 OS 有类似的服务注册机制,未来的 App 也很有可能会内置自己的 App Agent。
那么,未来会是这种 Agent 协作的模式吗?是否有点太理想化?但即使那天会到来,我们依然必须经历现在这个摩擦纷争的阶段。
六、 尾声:给未来的注脚总之,我们正在经历从「移动互联网」向「智能互联网」转型的阵痛期。
在 PC 时代,浏览器是开放的,我们可以用爬虫,用脚本,用各种插件让 Web 变得更好用。
在 App 时代,我们把自己关进了笼子,换来了便利,却失去了自由。
在 AI 时代,我们有机会把笼子打开,但这需要一把新的钥匙。
现在的豆包,就像是一个拿着锤子试图砸开笼子锁的人。你可以不支持它,但是,也别嘲笑那个试图打破围墙的人。
毕竟,围墙之外,是我们本就该拥有的广阔世界。
这次的豆包微信事件,让我们所有人都清楚地看到了墙的存在,也让我们开始思考:这堵墙,究竟是该加固,还是该拆掉?或者,我们应该在墙上开一扇什么样的门?
现在,问题摆在了桌面上,未来会怎样?取决于大厂的路线,也取决于你我,这些普通用户的态度和选择。
以上。
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。
