Google apresenta LiteRT, um novo framework de inferência de IA no dispositivo

Publicado em 17 de March de 2026 | Traduzido do espanhol

Google anunciou LiteRT, um framework de inferência universal projetado para superar as limitações do TensorFlow Lite com os modelos atuais. Seu objetivo é padronizar a execução de IA no dispositivo, priorizando velocidade e eficiência energética. LiteRT promete um fluxo de trabalho unificado que aproveita automaticamente hardware especializado como NPUs, mantendo compatibilidade com o formato .tflite e oferecendo suporte direto para PyTorch e JAX.

Un smartphone con un núcleo brillante, conectado a un chip NPU y símbolos de IA, sobre un fondo de código y circuitos.

Pilares técnicos e suporte multiplataforma estendido 🤖

LiteRT se baseia em quatro pilares: maior velocidade de inferência, um fluxo de aceleração unificado, suporte robusto para modelos generativos abertos e integração com frameworks populares. Estende a aceleração GPU para iOS, macOS, Windows, Linux e Web, alcançando, segundo o Google, um desempenho 1,4 vezes superior ao seu delegado GPU anterior. Para reduzir a latência real, implementa execução assíncrona e técnicas de zero cópias, minimizando a sobrecarga no movimento de dados entre CPU e aceleradores.

Adeus às desculpas do no meu dispositivo funciona devagar 😅

Com LiteRT, a clássica justificativa do desenvolvedor quando um modelo rasteja no celular poderia ter os dias contados. Agora, se o app responde com a velocidade de uma lesma, já não poderemos culpar tranquilamente o delegado de inferência. O Google nos tira um bode expiatório muito querido, obrigando-nos a buscar novas e criativas desculpas, como que o usuário tem gatos demais abertos em segundo plano. A pressão aumenta.