微软批评：GPT与Claude联手审查人工智能回应

微软推出Critique功能，为其Copilot Researcher工具赋能。其机制基于两个AI模型之间的协作：OpenAI的GPT生成初始回答，Anthropic的Claude则扮演批判性审查者角色。这种内部双重核查流程旨在提升最终结果的准确性，在深度研究任务中实现了13.8%的精度提升。

两位AI助手，一位生成内容，另一位进行批判性审查，背景是带有精度提升图表的文档。

多模型编排架构 🤖

该功能采用模型编排技术策略，让不同专长的AI模型按序或并行协作。Critique采用串行流程：一个模型生成内容，另一个模型进行评估。与之并行的Council功能则可同时比较多个模型的输出。这种方法降低了对单一供应商的依赖，缓解了系统性错误，旨在为复杂任务提供更高可靠性。

AI开启团队会议模式避免出错 😅

看来AI已经学会了企业里无休止的评审文化。现在GPT提交报告前必须经过Claude的审阅，返回的文档总是布满红色批注。典型的让我在发布前检查一下流程。最终用户确实获得了更精细的成果，但不禁让人猜想：下一步是不是该让这些模型在Slack频道里争论引用文献的最佳方式了？