Das Fortschrittstempo der künstlichen Intelligenz in der Mathematik übersteigt die menschliche Fähigkeit, Tests zur Bewertung zu entwerfen. Modelle wie die von Google DeepMind machen Benchmarks in Monaten obsolet, ein Zyklus, der sich beschleunigt. Dies erzeugt ein Problem für die Wissenschaft: Wie misst man Fähigkeiten, die exponentiell evolieren? Die Notwendigkeit von neuen Bewertungsmethoden ist klar.
Der Obsoleszenz-Zyklus der Benchmarks 🔄
Die aktuellen Systeme, trainiert mit massiven Datenmengen und Techniken wie dem Ketten-Reasoning, beherrschen schnell spezifische Problemsets. Sobald ein neuer Test veröffentlicht wird, nutzt die Community ihn zum Trainieren und Anpassen von Modellen, die ihn bald übertreffen. Dieser Prozess verkürzt die Lebensdauer jeder Metrik und zwingt die Forscher, Probleme mit größerer struktureller Komplexität oder solchen zu suchen, die einen konzeptionellen Sprung erfordern, der nicht in den Trainingsdaten vorhanden ist.
Wissenschaftler bitten die KI, sich bitte selbst zu bewerten 🙏
Angesichts der Situation schlagen einige kreative Lösungen vor. Die populärste ist, die KI selbst die Prüfungen der Zukunft generieren zu lassen. Es ist ein makelloser Plan: Wir delegieren die schwere Arbeit und beklagen uns dann, dass die Fragen für sie zu einfach sind. Der nächste logische Schritt wird sein, dass die KI sich auch selbst korrigiert, den Paper schreibt und ihn an eine Zeitschrift schickt, uns endgültig von der Plage des Denkens befreit.