Rabbit R1 与点击的终结:手动交互的告别?

发布于 2026年05月13日 | 从西班牙语翻译

Rabbit 公司推出的 Rabbit R1 并非传统意义上的语音助手。这款口袋设备搭载了大型行动模型(LAM),承诺能为我们操作各类应用并执行复杂任务,从叫 Uber 到在 Photoshop 中编辑图片,无所不包。这一技术飞跃,从简单的回应到自主执行,重新定义了工具与代理之间的界限,引发了一场关于我们数字生活控制权的紧迫辩论。

Rabbit R1 便携设备,配备人工智能和大型行动模型,在触摸屏上交互

委托架构:大型行动模型(LAM)如何运作 🤖

与处理文本的语言模型(LLM)不同,Rabbit R1 的 LAM 能够观察并理解应用的图形界面,从而复制人类操作。该设备学习每个应用特定的点击序列、手势和命令,并将这些知识存储在云端。当用户发出诸如预订周五去东京的最便宜航班这样的指令时,R1 会执行完整序列,无需手动干预。这意味着一项根本性变革:用户不再需要知道如何使用应用,只需明确期望的结果。然而,这种架构要求对 API 和用户界面进行深度访问,从而在技术上打开了关于安全性和命令标准化的潘多拉魔盒。

委托自主权:进步还是失控? ⚖️

Rabbit R1 的承诺是将我们从屏幕和通知的束缚中解放出来,但代价高昂。通过将日常任务的执行委托出去,用户将精细决策能力让渡给了算法。科技界已在讨论两大风险:技术依赖,即我们忘记如何执行基本任务;以及隐私问题,因为设备需要查看并理解我们在应用中的一切操作。真正的挑战并非技术层面,而是社会层面:学会与一个替我们行动的人工智能共存,同时又不失去对我们数字选择的主导权。

基于行动模型而非语言模型的设备(如 Rabbit R1)的大规模普及,会如何通过消除直接手动交互,重新定义用户在数字社会中的自主权?

(附注:管理一个互联网社区就像放猫……用键盘,还睡不着觉)