Google объявил LiteRT, универсальный фреймворк для инференса, разработанный для преодоления ограничений TensorFlow Lite с современными моделями. Его цель — стандартизировать выполнение ИИ на устройстве, отдавая приоритет скорости и энергоэффективности. LiteRT обещает унифицированный рабочий процесс, который автоматически использует специализированное аппаратное обеспечение, такое как NPU, сохраняя совместимость с форматом .tflite и предлагая прямую поддержку PyTorch и JAX.
Технические столпы и расширенная кроссплатформенная поддержка 🤖
LiteRT основан на четырех столпах: повышенной скорости инференса, унифицированном потоке ускорения, надежной поддержке открытых генеративных моделей и интеграции с популярными фреймворками. Расширяет ускорение GPU на iOS, macOS, Windows, Linux и Web, достигая, по данным Google, производительности в 1,4 раза выше, чем у предыдущего GPU-делегата. Для снижения реальной задержки реализует асинхронное выполнение и техники нулевого копирования, минимизируя накладные расходы при перемещении данных между CPU и ускорителями.
Прощай оправдания на моем устройстве работает медленно 😅
С LiteRT классическое оправдание разработчика, когда модель ползет на мобильном, может быть сочтено за дни. Теперь, если приложение отвечает со скоростью улитки, мы уже не сможем спокойно свалить вину на делегат инференса. Google лишает нас любимого козла отпущения, заставляя искать новые и креативные оправдания, такие как у пользователя слишком много вкладок с котиками открыто на фоне. Давление растет.