구글, 온디바이스 AI 추론을 위한 새로운 프레임워크 LiteRT 공개

2026년 03월 17일 | 스페인어에서 번역됨

Google은 LiteRT를 발표했습니다. 이는 현재 모델에 대한 TensorFlow Lite의 한계를 극복하기 위해 설계된 범용 추론 프레임워크입니다. 그 목표는 장치 내 AI 실행을 표준화하는 것으로, 속도와 에너지 효율성을 우선합니다. LiteRT는 .tflite 형식과의 호환성을 유지하면서 PyTorch와 JAX에 대한 직접 지원을 제공하며, NPU와 같은 특수 하드웨어를 자동으로 활용하는 통합 워크플로를 약속합니다.

Un smartphone con un núcleo brillante, conectado a un chip NPU y símbolos de IA, sobre un fondo de código y circuitos.

기술적 기둥과 확장된 멀티플랫폼 지원 🤖

LiteRT는 네 가지 기둥에 기반합니다: 더 높은 추론 속도, 통합 가속 워크플로, 오픈 생성 모델에 대한 강력한 지원, 인기 프레임워크와의 통합. GPU 가속을 iOS, macOS, Windows, Linux 및 Web으로 확장하여 Google에 따르면 이전 GPU 델리게이트보다 1.4배 우수한 성능을 달성합니다. 실제 지연을 줄이기 위해 비동기 실행과 제로 카피 기술을 구현하여 CPU와 가속기 간 데이터 이동의 오버헤드를 최소화합니다.

내 장치에서는 느리게 작동해라는 변명의 작별 😅

LiteRT와 함께 개발자가 모바일에서 모델이 느리게 작동할 때 사용하는 고전적인 변명은 더 이상 통하지 않을 수 있습니다. 이제 앱이 달팽이 속도로 응답하면 추론 델리게이트를 탓할 수 없게 됩니다. Google은 우리에게 매우 소중한 희생양을 빼앗아가며, 사용자가 백그라운드에 너무 많은 고양이 탭을 열어두었어 같은 새로운 창의적인 변명을 찾도록 강요합니다. 압박이 커집니다.