Инференс в больших моделях языка (LLM) ограничен узким местом в движении данных между чиплетами. Поскольку эти модели преимущественно используют формат BF16, анализ показывает, что потоки экспонент обладают очень низкой энтропией, менее 3 бит, что делает их высоко сжимаемыми. Мы представляем LEXI, схему безпотерьной компрессии экспонент на основе Хаффмана, которая действует непосредственно в сети на чипе (NoC). Сжимая активации, кэши и веса, LEXI снижает коммуникацию и общую латентность инференса на 33-45% и 30-35% соответственно в гомогенных архитектурах чиплетов, с минимальными затратами на площадь и энергию.
Архитектура и реализация кодека LEXI в NoC 🧠
LEXI интегрируется непосредственно в роутеры сети на чипе. Маленькие кодеки располагаются на входных и выходных портах, сжимая и разжимая экспоненты данных BF16 на лету. Ключ в его эффективной аппаратной реализации: используются декодеры на основе таблиц поиска (LUT) с несколькими строками, которые сохраняют максимальную пропускную способность канала, избегая того, чтобы компрессия вводила задержки. Веса хранятся в сжатом виде в памяти и разжимаются непосредственно перед вычислением в тензорном ядре. Изготовленный по технологии GF 22 нм, накладные расходы этой системы составляют всего 0.09% по площади и энергопотреблению, что является незначительной стоимостью за существенный прирост производительности системы.
Влияние на будущее 3D-дизайна полупроводников для ИИ 🚀
LEXI выходит за рамки простой техники компрессии; это представляет собой смену парадигмы в совместном дизайне ПО и аппаратного обеспечения для ИИ. Атакуя внутреннюю избыточность в числовых форматах на уровне канала данных, она позволяет создавать более масштабируемые и эффективные архитектуры чиплетов. Этот подход смягчает одно из главных текущих ограничений: насыщение пропускной способности межсоединений. Для ниши 3D-микрофабрикации LEXI устанавливает четкий прецедент: инновации заключаются не только в том, чтобы stacking больше транзисторов или чиплетов, но и в интеллектуальной оптимизации каждого бита, путешествующего между ними, разблокируя новые высоты производительности в инференсе LLM.
Как техника компрессии экспонент LEXI может оптимизировать передачу данных между чиплетами для снижения латентности в инференсе LLM?
(PD: симулировать облатку 200 мм — это как делать пиццу: все хотят кусочек)