Microsoft-Kritik: GPT und Claude kooperieren zur Überprüfung von KI-Antworten

Microsoft stellt Critique vor, eine Funktion für sein Tool Copilot Researcher. Sein Mechanismus basiert auf der Zusammenarbeit zwischen zwei KI-Modellen: GPT von OpenAI generiert eine erste Antwort und Claude von Anthropic fungiert als kritischer Prüfer. Dieser Prozess der internen Doppelprüfung zielt darauf ab, die Genauigkeit des Endergebnisses zu erhöhen und erreicht eine Verbesserung von 13,8 % bei tiefgehenden Forschungsaufgaben.

Zwei KI-Assistenten, einer generiert Inhalte und der andere überprüft sie kritisch, über einem Dokument mit Diagrammen zur Genauigkeitsverbesserung.

Die Architektur der Multi-Modell-Orchestrierung 🤖

Die Funktion ist Teil einer technischen Strategie der Orchestrierung, bei der verschiedene spezialisierte KI-Modelle sequenziell oder parallel arbeiten. Critique verwendet einen seriellen Fluss: Ein Modell produziert und ein anderes bewertet. Zusammen mit Council ermöglicht es, die Ausgaben mehrerer Modelle gleichzeitig zu vergleichen. Dieser Ansatz verringert die Abhängigkeit von einem einzigen Anbieter und mildert systematische Fehler, was auf eine höhere Zuverlässigkeit bei komplexen Aufgaben abzielt.

Die KI hält ein Team-Meeting ab, um keine Fehler zu machen 😅

Es scheint, als hätten die KIs die Unternehmenskultur der endlosen Überprüfungen übernommen. Jetzt kann GPT keinen Bericht mehr abschicken, ohne dass Claude ihm das Dokument voller roter Kommentare zurückschickt. Es ist das typische lass mich das sehen, bevor es rausgeht. Am Ende erhält der Nutzer eine ausgefeiltere Arbeit, aber man fragt sich, ob der nächste Schritt sein wird, dass die Modelle in einem Slack-Kanal darüber diskutieren, wie man eine Quelle am besten zitiert.