微软推出Critique功能,为其Copilot Researcher工具赋能。其机制基于两个AI模型之间的协作:OpenAI的GPT生成初始回答,Anthropic的Claude则扮演批判性审查者角色。这种内部双重核查流程旨在提升最终结果的准确性,在深度研究任务中实现了13.8%的精度提升。
多模型编排架构 🤖
该功能采用模型编排技术策略,让不同专长的AI模型按序或并行协作。Critique采用串行流程:一个模型生成内容,另一个模型进行评估。与之并行的Council功能则可同时比较多个模型的输出。这种方法降低了对单一供应商的依赖,缓解了系统性错误,旨在为复杂任务提供更高可靠性。
AI开启团队会议模式避免出错 😅
看来AI已经学会了企业里无休止的评审文化。现在GPT提交报告前必须经过Claude的审阅,返回的文档总是布满红色批注。典型的让我在发布前检查一下流程。最终用户确实获得了更精细的成果,但不禁让人猜想:下一步是不是该让这些模型在Slack频道里争论引用文献的最佳方式了?