GoogleはLiteRTを発表しました。これは、現在のモデルにおけるTensorFlow Liteの制限を克服するために設計されたユニバーサル推論フレームワークです。その目標は、デバイスのAI実行を標準化し、速度とエネルギー効率を優先することです。LiteRTは、NPUsなどの特殊ハードウェアを自動的に活用する統一されたワークフローを約束し、.tflite形式との互換性を維持し、PyTorchおよびJAXへの直接サポートを提供します。
技術的柱と拡張されたマルチプラットフォームサポート 🤖
LiteRTは4つの柱に基づいています:推論速度の向上、統一された加速フロー、オープン生成モデルへの堅牢なサポート、および人気フレームワークとの統合です。GPU加速をiOS、macOS、Windows、Linux、Webに拡張し、Googleによると以前のGPUデリゲート比で1.4倍の性能向上を実現します。実際のレイテンシを低減するため、非同期実行とゼロコピー技術を実装し、CPUとアクセラレータ間のデータ移動のオーバーヘッドを最小化します。
「私のデバイスでは遅い」という言い訳にさよなら 😅
LiteRTにより、モデルがモバイルで遅く動作する際の開発者の定番言い訳は、もう終わりを迎えるかもしれません。今、アプリがカタツムリの速さで応答する場合、推論デリゲートのせいにすることはできません。Googleは我々に愛すべきスケープゴートを奪い、ユーザーがバックグラウンドで開きすぎた猫のタブのような新しい創造的な言い訳を探すよう強要します。プレッシャーが増大します。