델 XE9680: 여덟 개 GPU 괴물로 LLM 길들이기

Dell은 대규모 인공지능 작업을 위해 설계된 서버인 PowerEdge XE9680을 출시했습니다. 이 서버의 존재 이유는 인기 있는 NVIDIA H100과 같은 최대 8개의 고성능 GPU를 수용하여 상호 연결함으로써 대규모 언어 모델의 훈련을 가속화하는 것입니다. 게임용이나 옆 사무실용 장비가 아닙니다.

Dell PowerEdge XE9680 서버 섀시 내부에서 데이터를 적극적으로 처리하는 8개의 NVIDIA H100 GPU, 데이터 전송 광 펄스로 빛나는 GPU 상호 연결 케이블, 고속으로 회전하는 냉각 팬, 열 에너지를 방출하는 방열판, 보이는 서버 랙 장착 레일, 깜빡이는 파란색 LED 상태 표시등, 영화 같은 엔지니어링 시각화, 포토리얼리스틱 기술 일러스트레이션, 극적인 로우 앵글 샷, 정밀한 케이블 관리가 적용된 금속 서버 내부, 내부 조명에 비친 먼지 입자, 초세부 전자 부품, 산업용 서버실 분위기

모델 가중치를 움직이는 아키텍처 🚀

XE9680의 비밀은 냉각 설계와 상호 연결 버스에 있습니다. 8개의 GPU는 NVLink를 통해 통신하여 데이터 전송의 병목 현상을 제거합니다. 각 H100 GPU는 80GB의 HBM3 메모리를 갖추고 있어 총 640GB로 대규모 데이터 세트를 처리할 수 있습니다. 섀시는 3000W 이상의 소비 전력으로 발생하는 열을 방출하도록 최적화되어 있으며, 일반 사무실에서는 차단기가 내려갈 수준입니다.

전기 요금이 자동차보다 비쌀 때 💡

8개의 H100을 24시간 365일 가동하는 것은 변덕이 아니라 의지의 표현입니다. 상사가 커피 비용을 불평한다면, 이 녀석의 전기 요금 청구서는 보여주지 마세요. 하지만 모델이 3주 만에 훈련을 마치면, 땀을 감추며 경쟁사의 압박 때문이 아니라 GPU 덕분이라고 말할 수 있을 것입니다.