Le traitement d'inférence en IA a un goulot d'étranglement classique : déplacer les données de la mémoire vers le processeur. Untether AI présente Boqueria, un accélérateur qui brise cette dynamique. Son architecture massivement parallèle fonctionne en mémoire, c'est-à-dire là où les données sont stockées, réduisant la consommation d'énergie et augmentant les performances par watt. Ce n'est pas de la magie, c'est de l'ingénierie bien pensée.
Comment fonctionne l'architecture at-memory de Boqueria 🚀
Boqueria intègre des milliers de cœurs de calcul directement dans la mémoire SRAM, éliminant le besoin de déplacer les données via des bus externes. Chaque cœur exécute des opérations simples mais en parallèle, ce qui permet de traiter des modèles de réseaux de neurones avec une grande efficacité. En minimisant la latence et la dépense énergétique du déplacement des données, cette puce atteint des performances soutenues dans les tâches d'inférence sans dépendre de mémoires HBM coûteuses ou de refroidissement extrême.
Le cousin intelligent qui n'a pas besoin de déménager pour travailler 🏠
Pendant que d'autres accélérateurs montent un cirque logistique pour rapprocher les données du processeur, Boqueria est ce collègue qui travaille depuis chez lui. Littéralement, il traite les informations là où elles vivent. Alors si votre GPU ressemble à un aspirateur bruyant et chaud, il est peut-être temps d'envisager un changement. Après tout, pour faire des calculs, il n'est pas nécessaire de voyager à l'autre bout de la puce.