
Nvidia가 이중 정밀도 계산을 실행하는 방식 변경
기업 Nvidia는 슈퍼컴퓨팅 프로세서에서 64비트 부동소수점 연산(FP64)을 처리하는 데 초점을 전환했습니다. 보고서에 따르면, 회사는 신규 세대에서 이 목적을 위한 하드웨어 전용 유닛 개발을 중단했습니다. 대신 CUDA 라이브러리 내 알고리즘을 통해 이러한 작업을 시뮬레이션합니다. 이 방법은 특정 시나리오에서 실리콘 면적을 소비하지 않고 이론적 성능을 맞추거나 초과할 수 있게 합니다. 🔄
성능 수치가 새로운 방향을 드러냄
Nvidia의 공식 데이터는 이 진화를 명확히 보여줍니다. 최신 가속기인 Rubin은 하드웨어 기준으로 FP64 벡터 연산에서 33 테라플롭스를 선언하며, 몇 년 전 H100과 비슷한 수치입니다. 그러나 소프트웨어 에뮬레이션을 활성화하면 Nvidia는 Rubin이 행렬 FP64 계산에서 최대 200 테라플롭스를 달성할 수 있다고 주장합니다. 심지어 Blackwell 세대도 이 기술로 150 테라플롭스를 달성할 수 있으며, 이는 네이티브 실행 Hopper의 두 배 이상입니다. 📊
주요 성능 비교:- Rubin (하드웨어): FP64 벡터에서 33 TFLOPS.
- Rubin (소프트웨어): 에뮬레이션 FP64 행렬에서 최대 200 TFLOPS.
- Blackwell (소프트웨어): 약 150 TFLOPS, Hopper를 크게 초과.
파트너와의 수많은 연구 및 내부 연구에서 에뮬레이션으로 달성한 정밀도가 하드웨어 텐서 코어에서 얻는 정밀도와 최소한 동등하다는 것을 발견했습니다.
검증된 정밀도가 변화를 촉진
Nvidia 슈퍼컴퓨팅 책임자인 Dan Ernst는 이 전략적 전환의 이유를 설명했습니다. 내부 및 파트너 검증 결과 FP64 에뮬레이션으로 달성한 정확도가 전용 하드웨어 코어 실행과 최소한 동등하다는 것이 확인되었습니다. 이 발견으로 Nvidia는 인공지능과 같은 영역( FP32, FP16과 같은 낮은 정밀도 우선)에서 칩 설계를 최적화할 수 있으며, 여전히 FP64를 필요로 하는 고성능 컴퓨팅(HPC) 부문 요구를 충족합니다. ⚖️
소프트웨어 에뮬레이션의 장점:- 칩의 트랜지스터와 면적을 다른 기능에 자유롭게 사용.
- 특정 작업 부하에서 더 높은 피크 성능 달성.
- 과학 및 엔지니어링 애플리케이션에 필요한 정밀도 유지.
소프트웨어로 정의된 새로운 아키텍처
인공지능 리더십 경쟁에서 네이티브 실행 대신 실리콘 자원을 에뮬레이션에 할당하는 것이 아키텍처 효율성의 새로운 패러다임이 된 것 같습니다. 이는 소프트웨어가 하드웨어를 단순히 지원하는 것이 아니라 하드웨어가 되어야 할 것을 근본적으로 재정의하는 전환입니다. 둘 사이의 경계가 모호해져 더 다재다능한 솔루션을 창출합니다. 🚀