Google ha anunciado LiteRT, un marco de inferencia universal diseñado para superar las limitaciones de TensorFlow Lite con los modelos actuales. Su objetivo es estandarizar la ejecución de IA en el dispositivo, priorizando velocidad y eficiencia energética. LiteRT promete un flujo de trabajo unificado que aprovecha automáticamente hardware especializado como NPUs, manteniendo compatibilidad con el formato .tflite y ofreciendo soporte directo para PyTorch y JAX.

Un smartphone con un núcleo brillante, conectado a un chip NPU y símbolos de IA, sobre un fondo de código y circuitos.

Pilares técnicos y soporte multiplataforma extendido 🤖

LiteRT se basa en cuatro pilares: mayor velocidad de inferencia, un flujo de aceleración unificado, soporte robusto para modelos generativos abiertos e integración con frameworks populares. Extiende la aceleración GPU a iOS, macOS, Windows, Linux y Web, logrando según Google un rendimiento 1.4 veces superior a su delegado GPU anterior. Para reducir la latencia real, implementa ejecución asíncrona y técnicas de cero copias, minimizando la sobrecarga en el movimiento de datos entre CPU y aceleradores.

Adiós a las excusas del en mi dispositivo funciona lento 😅

Con LiteRT, la clásica justificación del desarrollador cuando un modelo se arrastra en el móvil podría tener los días contados. Ahora, si la app responde con la velocidad de un caracol, ya no podremos echarle la culpa tranquilamente al delegado de inferencia. Google nos quita un chivo expiatorio muy querido, obligándonos a buscar nuevas y creativas excusas, como que el usuario tiene demasiados gatos abiertos en segundo plano. La presión aumenta.

Google presenta LiteRT, un nuevo marco de inferencia de IA en el dispositivo

Pilares técnicos y soporte multiplataforma extendido 🤖

Adiós a las excusas del en mi dispositivo funciona lento 😅