LEXI: 칩렛 상의 LLM 지연 감소를 위한 지수 압축

대형 언어 모델(LLM)의 추론은 칩렛 간 데이터 이동의 병목 현상에 의해 저해받습니다. 이러한 모델이 주로 BF16 형식을 사용하기 때문에, 분석 결과 지수 흐름은 3비트 미만의 매우 낮은 엔트로피를 가지며, 이를 매우 압축 가능하게 만듭니다. 우리는 LEXI를 제안합니다. 이는 NoC(온칩 네트워크)에서 직접 작동하는 허프만 기반의 무손실 지수 압축 스키마입니다. 활성화, 캐시 및 가중치를 압축함으로써 LEXI는 칩렛의 동질 아키텍처에서 통신을 33-45%, 추론 총 지연을 30-35% 줄이며, 면적 및 에너지 비용은 최소입니다.

Diagrama de un chiplet mostrando el flujo de datos con y sin el bloque de compresion LEXI en la red en chip.

LEXI 코덱의 NoC 아키텍처 및 구현 🧠

LEXI는 온칩 네트워크의 라우터에 직접 통합됩니다. 작은 코덱이 입력 및 출력 포트에 위치하여 BF16 데이터의 지수를 실시간으로 압축 및 압축 해제합니다. 핵심은 효율적인 하드웨어 구현입니다: 다중 라인 LUT(테이블 검색 기반 디코더)를 사용하여 링크의 최대 대역폭을 유지하며, 압축으로 인한 지연을 방지합니다. 가중치는 메모리에 압축된 상태로 저장되며, 텐서 코어에서 계산 직전에 압축 해제됩니다. 22nm GF 기술로 제작된 이 시스템의 오버헤드는 면적 및 에너지 소비에서 단 0.09%에 불과하며, 시스템 성능의 상당한 이득에 비해 미미한 비용입니다.

AI를 위한 반도체 3D 설계의 미래에 미치는 영향 🚀

LEXI는 단순한 압축 기술을 넘어섭니다; AI를 위한 소프트웨어와 하드웨어의 공동 설계에서 패러다임 전환을 나타냅니다. 데이터 링크 수준에서 숫자 형식의 내재적 중복성을 공격함으로써 더 확장 가능하고 효율적인 칩렛 아키텍처를 가능하게 합니다. 이 접근 방식은 현재 가장 큰 제한 요인 중 하나인 상호 연결 대역폭 포화를 완화합니다. 3D 마이크로패브리케이션 분야에서 LEXI는 명확한 선례를 제시합니다: 혁신은 더 많은 트랜지스터나 칩렛을 쌓는 데만 있는 것이 아니라, 그들 사이를 이동하는 각 비트를 지능적으로 최적화하는 데 있으며, LLM 추론에서 새로운 성능 수준을 해제합니다.

지수 압축 기술 LEXI는 칩렛 간 데이터 전송을 어떻게 최적화하여 LLM 추론의 지연을 줄일 수 있습니까?

(PD: 200mm 웨이퍼 시뮬레이션은 피자를 만드는 것과 같습니다: 모두가 한 조각을 원합니다)