Rabbit R1与点击的终结:手动交互的告别?

发布于 2026年05月01日 | 从西班牙语翻译

Rabbit公司推出的Rabbit R1并非传统的语音助手。这款口袋设备搭载了大型行动模型(LAM),承诺能为我们操作各类应用并执行复杂任务,从叫Uber到在Photoshop中编辑照片,无所不能。这一技术飞跃——从简单回应到自主执行——重新定义了工具与代理之间的界限,引发了关于我们数字生活控制权的紧迫讨论。

Rabbit R1便携设备,搭载人工智能和大型行动模型,在触控屏幕上交互

委托架构:大型行动模型(LAM)的工作原理 🤖

与处理文本的语言模型(LLM)不同,Rabbit R1的LAM能够观察并理解应用的图形界面,从而复制人类操作。该设备学习每个应用的点击序列、手势和特定命令,并将这些知识存储在云端。当用户下达诸如预订周五最便宜的东京航班这样的指令时,R1无需人工干预即可执行完整操作序列。这意味着一项根本性转变:用户不再需要知道如何使用应用,只需明确想要的结果。然而,这种架构要求对API和用户界面进行深度访问,从而在技术上打开了关于安全性和命令标准化的潘多拉魔盒。

委托自主权:进步还是失控? ⚖️

Rabbit R1的承诺是将我们从屏幕和通知的束缚中解放出来,但代价高昂。通过将日常任务的执行委托出去,用户将精细决策能力让渡给了算法。科技界已在讨论两大风险:技术依赖——我们可能忘记如何完成基本任务;以及隐私问题——因为设备需要查看并理解我们在应用中的一切操作。真正的挑战并非技术层面,而是社会层面:学会与一个替我们行动的人工智能共存,同时不失去对数字选择的主导权。

基于行动模型而非语言模型的设备(如Rabbit R1)若被大规模采用,通过消除直接的手动交互,将如何重新定义用户在数字社会中的自主权?

(附注:管理一个互联网社区就像放牧一群猫……只不过用的是键盘,而且不睡觉)