Google anunciou LiteRT, um framework de inferência universal projetado para superar as limitações do TensorFlow Lite com os modelos atuais. Seu objetivo é padronizar a execução de IA no dispositivo, priorizando velocidade e eficiência energética. LiteRT promete um fluxo de trabalho unificado que aproveita automaticamente hardware especializado como NPUs, mantendo compatibilidade com o formato .tflite e oferecendo suporte direto para PyTorch e JAX.
Pilares técnicos e suporte multiplataforma estendido 🤖
LiteRT se baseia em quatro pilares: maior velocidade de inferência, um fluxo de aceleração unificado, suporte robusto para modelos generativos abertos e integração com frameworks populares. Estende a aceleração GPU para iOS, macOS, Windows, Linux e Web, alcançando, segundo o Google, um desempenho 1,4 vezes superior ao seu delegado GPU anterior. Para reduzir a latência real, implementa execução assíncrona e técnicas de zero cópias, minimizando a sobrecarga no movimento de dados entre CPU e aceleradores.
Adeus às desculpas do no meu dispositivo funciona devagar 😅
Com LiteRT, a clássica justificativa do desenvolvedor quando um modelo rasteja no celular poderia ter os dias contados. Agora, se o app responde com a velocidade de uma lesma, já não poderemos culpar tranquilamente o delegado de inferência. O Google nos tira um bode expiatório muito querido, obrigando-nos a buscar novas e criativas desculpas, como que o usuário tem gatos demais abertos em segundo plano. A pressão aumenta.