Meta a présenté la deuxième génération de son accélérateur d'inférence, le MTIA v2, dont le nom de code est Artemis. Cette puce n'est pas conçue pour les jeux ni pour l'IA générative de texte, mais pour une tâche très spécifique : faire fonctionner les algorithmes de recommandation de Facebook et Instagram plus rapidement et avec une meilleure efficacité énergétique.
Une puce spécifique pour le moteur de recommandations 🚀
Le MTIA v2 est un accélérateur d'inférence qui se concentre sur les modèles de Deep Learning à faible précision, comme ceux utilisés par les systèmes de classement et de recommandation de Meta. Avec 256 cœurs et une mémoire SRAM de 128 Mo, Artemis offre des performances allant jusqu'à 102,4 TOPS (INT8). Sa conception en 5 nm de TSMC permet une consommation de 90 W, optimisant l'équilibre entre vitesse et chaleur pour les serveurs. La clé réside dans son architecture de données, qui réduit la latence dans les tâches d'embeddings et de recherche de produits.
Artemis : parce que ton fil Reels ne va pas se recommander tout seul 🔥
Bref, Meta a fabriqué un processeur spécifique pour que l'algorithme décide si cette vidéo d'un chat jouant du piano mérite d'être dans ton fil avant la recette de ta tante. Maintenant, au lieu d'attendre qu'un serveur générique le calcule, Artemis le fait en un clin d'œil et en consommant moins d'énergie. Tout cela pour que tu restes scotché à faire défiler des choses que tu ne savais même pas que tu voulais voir. L'efficacité énergétique est une excuse ; l'objectif réel est que tu ne puisses pas lâcher ton téléphone.