Google presenta LiteRT, un nuovo framework di inferenza IA sul dispositivo

Google ha annunciato LiteRT, un framework di inferenza universale progettato per superare le limitazioni di TensorFlow Lite con i modelli attuali. Il suo obiettivo è standardizzare l'esecuzione dell'IA sul dispositivo, dando priorità a velocità ed efficienza energetica. LiteRT promette un flusso di lavoro unificato che sfrutta automaticamente hardware specializzato come le NPU, mantenendo la compatibilità con il formato .tflite e offrendo supporto diretto per PyTorch e JAX.

Un smartphone con un nucleo brillante, connesso a un chip NPU e simboli di IA, su uno sfondo di codice e circuiti.

Pilastri tecnici e supporto multipiattaforma esteso 🤖

LiteRT si basa su quattro pilastri: maggiore velocità di inferenza, un flusso di accelerazione unificato, supporto robusto per modelli generativi open source e integrazione con framework popolari. Estende l'accelerazione GPU a iOS, macOS, Windows, Linux e Web, raggiungendo secondo Google una performance 1.4 volte superiore al suo delegato GPU precedente. Per ridurre la latenza reale, implementa esecuzione asincrona e tecniche zero-copy, minimizzando il sovraccarico nel movimento dei dati tra CPU e acceleratori.

Addio alle scuse del sul mio dispositivo funziona lento 😅

Con LiteRT, la classica giustificazione dello sviluppatore quando un modello si trascina sul mobile potrebbe avere i giorni contati. Ora, se l'app risponde con la velocità di una lumaca, non potremo più incolpare tranquillamente il delegato di inferenza. Google ci toglie un capro espiatorio molto amato, obbligandoci a cercare nuove e creative scuse, come che l'utente ha troppi gatti aperti in background. La pressione aumenta.