Google présente LiteRT, un nouveau cadre d'inférence d'IA sur appareil

Google a annoncé LiteRT, un cadre d'inférence universel conçu pour surmonter les limitations de TensorFlow Lite avec les modèles actuels. Son objectif est de standardiser l'exécution de l'IA sur l'appareil, en priorisant la vitesse et l'efficacité énergétique. LiteRT promet un flux de travail unifié qui exploite automatiquement le matériel spécialisé comme les NPUs, en maintenant la compatibilité avec le format .tflite et en offrant un support direct pour PyTorch et JAX.

Un smartphone con un núcleo brillante, conectado a un chip NPU y símbolos de IA, sobre un fondo de código y circuitos.

Piliers techniques et support multiplateforme étendu 🤖

LiteRT repose sur quatre piliers : une plus grande vitesse d'inférence, un flux d'accélération unifié, un support robuste pour les modèles génératifs ouverts et une intégration avec les frameworks populaires. Il étend l'accélération GPU à iOS, macOS, Windows, Linux et Web, obtenant selon Google une performance 1,4 fois supérieure à son délégué GPU précédent. Pour réduire la latence réelle, il implémente une exécution asynchrone et des techniques de zéro copie, minimisant la surcharge dans le mouvement des données entre CPU et accélérateurs.

Adieu aux excuses du sur mon appareil ça marche lentement 😅

Avec LiteRT, la classique justification du développeur quand un modèle traîne sur le mobile pourrait avoir ses jours comptés. Maintenant, si l'app répond à la vitesse d'un escargot, nous ne pourrons plus blâmer tranquillement le délégué d'inférence. Google nous enlève un bouc émissaire très cher, nous obligeant à chercher de nouvelles excuses créatives, comme l'utilisateur a trop de chats ouverts en arrière-plan. La pression augmente.