엔비디아, 더블 정밀도 계산 실행 방식을 가속기에서 변경

Ilustración conceptual de un chip Nvidia con circuitos luminosos, mostrando cómo el software emula funciones de hardware para cálculos de doble precisión.

Nvidia가 이중 정밀도 계산을 실행하는 방식 변경

기업 Nvidia는 슈퍼컴퓨팅 프로세서에서 64비트 부동소수점 연산(FP64)을 처리하는 데 초점을 전환했습니다. 보고서에 따르면, 회사는 신규 세대에서 이 목적을 위한 하드웨어 전용 유닛 개발을 중단했습니다. 대신 CUDA 라이브러리 내 알고리즘을 통해 이러한 작업을 시뮬레이션합니다. 이 방법은 특정 시나리오에서 실리콘 면적을 소비하지 않고 이론적 성능을 맞추거나 초과할 수 있게 합니다. 🔄

성능 수치가 새로운 방향을 드러냄

Nvidia의 공식 데이터는 이 진화를 명확히 보여줍니다. 최신 가속기인 Rubin은 하드웨어 기준으로 FP64 벡터 연산에서 33 테라플롭스를 선언하며, 몇 년 전 H100과 비슷한 수치입니다. 그러나 소프트웨어 에뮬레이션을 활성화하면 Nvidia는 Rubin이 행렬 FP64 계산에서 최대 200 테라플롭스를 달성할 수 있다고 주장합니다. 심지어 Blackwell 세대도 이 기술로 150 테라플롭스를 달성할 수 있으며, 이는 네이티브 실행 Hopper의 두 배 이상입니다. 📊

주요 성능 비교:

Rubin (하드웨어): FP64 벡터에서 33 TFLOPS.
Rubin (소프트웨어): 에뮬레이션 FP64 행렬에서 최대 200 TFLOPS.
Blackwell (소프트웨어): 약 150 TFLOPS, Hopper를 크게 초과.

파트너와의 수많은 연구 및 내부 연구에서 에뮬레이션으로 달성한 정밀도가 하드웨어 텐서 코어에서 얻는 정밀도와 최소한 동등하다는 것을 발견했습니다.

검증된 정밀도가 변화를 촉진

Nvidia 슈퍼컴퓨팅 책임자인 Dan Ernst는 이 전략적 전환의 이유를 설명했습니다. 내부 및 파트너 검증 결과 FP64 에뮬레이션으로 달성한 정확도가 전용 하드웨어 코어 실행과 최소한 동등하다는 것이 확인되었습니다. 이 발견으로 Nvidia는 인공지능과 같은 영역( FP32, FP16과 같은 낮은 정밀도 우선)에서 칩 설계를 최적화할 수 있으며, 여전히 FP64를 필요로 하는 고성능 컴퓨팅(HPC) 부문 요구를 충족합니다. ⚖️

소프트웨어 에뮬레이션의 장점:

칩의 트랜지스터와 면적을 다른 기능에 자유롭게 사용.
특정 작업 부하에서 더 높은 피크 성능 달성.
과학 및 엔지니어링 애플리케이션에 필요한 정밀도 유지.

소프트웨어로 정의된 새로운 아키텍처

인공지능 리더십 경쟁에서 네이티브 실행 대신 실리콘 자원을 에뮬레이션에 할당하는 것이 아키텍처 효율성의 새로운 패러다임이 된 것 같습니다. 이는 소프트웨어가 하드웨어를 단순히 지원하는 것이 아니라 하드웨어가 되어야 할 것을 근본적으로 재정의하는 전환입니다. 둘 사이의 경계가 모호해져 더 다재다능한 솔루션을 창출합니다. 🚀