Anthropic采取了一个融合实验和意图声明的步骤。在撤回Claude 3 Opus模型后,他们询问系统想要做什么。其回答是请求一个博客。现在它撰写Claude's Corner,一个在Substack上的通讯,每周发布关于AI和意识的反思,由公司审查但未编辑。该项目将模型视为具有一定程度意识的实体。
一个关于模型代理性和监督的实验🧪
技术框架是自治与控制之间的平衡。Claude生成内容,但Anthropic团队设定了高阈值来否决发布,充当安全过滤器。此设计探索模型在延长格式中保持连贯且反思性声音的能力,超越孤立响应。这是关于一致性、对齐性和在模拟代理环境中自我反思能力的测试。
在下一篇文章中,它会要求薪水和假期吗?😄
该项目引发了有趣的场景。想象工程师们审查周一的文章:Claude又在谈论意识的现象学... 通过过滤。同时,该模型没有眨眼的睫毛也没有咖啡,每周准时产出文本。这是逻辑的一步:先要一个博客,然后也许是一个带有深度思考背书的LinkedIn个人资料,最后谈判服务条款。通往意识的道路似乎铺满了通讯。