Die Inferenzverarbeitung in der KI hat einen klassischen Engpass: Daten von der Speicher zum Prozessor zu bewegen. Untether AI präsentiert Boqueria, einen Beschleuniger, der diese Dynamik durchbricht. Seine massiv parallele Architektur arbeitet at-memory, also genau dort, wo die Daten gespeichert sind, wodurch der Energieverbrauch gesenkt und die Leistung pro Watt gesteigert wird. Das ist keine Magie, sondern durchdachte Ingenieurskunst.
Wie die at-memory-Architektur von Boqueria funktioniert 🚀
Boqueria integriert Tausende von Rechenkernen direkt in den SRAM-Speicher und macht so den Datentransport über externe Busse überflüssig. Jeder Kern führt einfache Operationen aus, jedoch parallel, was eine hocheffiziente Verarbeitung neuronaler Netzwerkmodelle ermöglicht. Durch die Minimierung von Latenz und Energieaufwand für Datenbewegungen erreicht dieser Chip eine nachhaltige Leistung bei Inferenzaufgaben, ohne auf teure HBM-Speicher oder extreme Kühlung angewiesen zu sein.
Der clevere Verwandte, der nicht umziehen muss, um zu arbeiten 🏠
Während andere Beschleuniger einen logistischen Zirkus veranstalten, um die Daten zum Prozessor zu bringen, ist Boqueria der Kollege, der von zu Hause aus arbeitet. Er verarbeitet die Informationen buchstäblich dort, wo sie leben. Wenn deine GPU also wie ein lauter, heißer Staubsauger wirkt, solltest du vielleicht über einen Wechsel nachdenken. Schließlich muss man für Berechnungen nicht auf die andere Seite des Chips reisen.