Google apresenta LiteRT, um novo framework de inferência de IA no dispositivo

Google anunciou LiteRT, um framework de inferência universal projetado para superar as limitações do TensorFlow Lite com os modelos atuais. Seu objetivo é padronizar a execução de IA no dispositivo, priorizando velocidade e eficiência energética. LiteRT promete um fluxo de trabalho unificado que aproveita automaticamente hardware especializado como NPUs, mantendo compatibilidade com o formato .tflite e oferecendo suporte direto para PyTorch e JAX.

Un smartphone con un núcleo brillante, conectado a un chip NPU y símbolos de IA, sobre un fondo de código y circuitos.

Pilares técnicos e suporte multiplataforma estendido 🤖

LiteRT se baseia em quatro pilares: maior velocidade de inferência, um fluxo de aceleração unificado, suporte robusto para modelos generativos abertos e integração com frameworks populares. Estende a aceleração GPU para iOS, macOS, Windows, Linux e Web, alcançando, segundo o Google, um desempenho 1,4 vezes superior ao seu delegado GPU anterior. Para reduzir a latência real, implementa execução assíncrona e técnicas de zero cópias, minimizando a sobrecarga no movimento de dados entre CPU e aceleradores.

Adeus às desculpas do no meu dispositivo funciona devagar 😅

Com LiteRT, a clássica justificativa do desenvolvedor quando um modelo rasteja no celular poderia ter os dias contados. Agora, se o app responde com a velocidade de uma lesma, já não poderemos culpar tranquilamente o delegado de inferência. O Google nos tira um bode expiatório muito querido, obrigando-nos a buscar novas e criativas desculpas, como que o usuário tem gatos demais abertos em segundo plano. A pressão aumenta.