슈퍼마이크로, NVIDIA 기반 풀스택 슈퍼클러스터 3종 출시

인공지능(AI)‧기계학습(ML: Machine Learning), 클라우드, 스토리지 및 5G‧엣지를 위한 토탈 IT 솔루션의 글로벌리더 슈퍼마이크로컴퓨터(Super Micro Computer)가 생성형 AI 도입을 가속화하기 위한 슈퍼클러스터 포트폴리오를 발표했다. 최신 솔루션은 차세대 LLM(Large Language Model: 대형언어모델) 인프라에도 적합한 핵심빌딩블록을 제공한다.

슈퍼마이크로 슈퍼클러스터 솔루션 3종은 현재 생성형 AI 워크로드에 사용 가능하다. 4U 수냉식 냉각시스템 또는 8U 공냉식 냉각시스템은 강력한 LLM 학습성능은 물론 대규모 배치(Batch)와 대용량 LLM 추론용으로 특별히 제작 및 설계됐다. 또한 1U 공냉식 슈퍼마이크로 엔비디아 MGXTM 시스템을 갖춘 슈퍼클러스터는 클라우드 규모 추론에 최적화돼 있다.

찰스 리앙(Charles Liang) 슈퍼마이크로 사장(CEO)은 “AI 시대에 컴퓨팅 단위는 단순히 서버 수가 아닌 클러스터로 측정된다”라며 “슈퍼마이크로는 글로벌 제조량을 월 5,000개 랙으로 확장해 그 어느 때보다 빠르게 완전한 생성형 AI 클러스터를 제공할 수 있다”고 강조했다.

또한 “확장 가능한 클러스터 빌딩 블록에 64노드 클러스터는 400Gb/s 엔비디아 퀀텀-2 인피니밴드 및 스펙트럼-X 이더넷 네트워킹을 갖춰 72TB의 HBM3e및 512개의 엔비디아 HGX H200 GPU를 지원한다”라며 “슈퍼마이크로의 슈퍼클러스터 솔루션은 엔비디아 AI 엔터프라이즈 소프트웨어와 결합됐다”고 덧붙였다.

이어 “그 결과 오늘날 최대 조 단위의 매개변수로 LLM을 학습하는 기업 및 클라우드 인프라에 이상적이며 상호연결된 GPU, CPU, 메모리, 스토리지 및 네트워킹이 랙 내 여러 노드에 걸쳐 구축될 때 최신 AI를 구현할 수 있다”라며 “슈퍼마이크로의 슈퍼클러스터 솔루션은 생성형 AI와 LLM이 빠르게 발전하고 있는 만큼 핵심 빌딩 블록으로 제공된다”고 설명했다.

카우츠브 상하니(Kaustubh Sanghan) 엔비디아 GPU제품부문 부사장은 “엔비디아의 최신 GPU, CPU, 네트워킹 및 소프트웨어 기술은 시스템 제조사가 글로벌 시장을 위한 다양한 차세대 AI 워크로드를 가속화할 수 있도록 지원한다”라며 “슈퍼마이크로는 블랙웰 아키텍처 기반 제품에 엔비디아 가속 컴퓨팅 플랫폼을 활용해 데이터센터에 쉽게 구축 가능한 최첨단 서버 시스템을 제공하고 있다”고 말했다.

슈퍼마이크로 4U 엔비디아 HGX H100/H200 8-GPU 시스템은 수냉식 냉각을 사용해 8U 공랭식 시스템의 밀도를 두 배로 높이고 에너지 소비량과 데이터센터 TCO를 낮춘다. 또한 차세대 엔비디아 블랙웰 아키텍처 기반의 GPU를 지원하도록 설계됐다.

슈퍼마이크로 냉각분배장치(CDU)와 매니폴드(CDM)는 냉각된 액체를 슈퍼마이크로의 맞춤형 D2C(Direct-to-Chip) 콜드 플레이트에 분배하기 위한 핵심 부품으로 GPU와 CPU를 최적의 온도로 유지하며 성능을 극대화한다. 이러한 냉각방식은 데이터센터의 총 전기비용을 최대 40% 절감하고 물리적 공간도 절약할 수 있다.

엔비디아 HGX H100/H200 8-GPU를 탑재한 시스템은 생성형 Al 학습에 이상적이다. 엔비디아 NV링크로 상호연결된 고속 GPU와 더불어 넓은 GPU 메모리 대역폭 및 용량은 LLM 모델의 비용효율적인 구동에 핵심적인 역할을 한다. 슈퍼마이크로의 슈퍼클러스터는 하나의 AI 슈퍼컴퓨터처럼 작동하는 대규모 GPU 리소스 풀을 생성한다.

조단위 토큰으로 구성된 데이터세트로 학습된 대규모 기초모델을 처음부터 구축하거나 클라우드 규모의 LLM 추론 인프라를 구축할 때 비차단 400Gb/s 패브릭을 갖춘 스파인 및 리프 네트워크 토폴로지를 사용한다면 32개 노드에서 수천 개의 노드까지 원활하게 확장할 수 있다. 슈퍼마이크로는 수냉식 냉각을 활용하는 테스트를 통해 배포 전에 운영 효율성과 효과를 철저하게 검증한다.

슈퍼마이크로의 엔비디아 MGX™ 시스템 설계는 엔비디아 GH200 그레이스 호퍼 슈퍼칩을 통해 생성형 AI의 주요 병목현상을 해결하는 미래형 AI 클러스터에 대한 청사진을 제시할 전망이다. 이때 병목 현상은 운영비용을 절감하기 위해 고성능 추론 배치 규모로 LLM을 실행하는 GPU 메모리 대역폭과 용량을 의미한다. 256노드 클러스터는 쉽게 구축 및 확장이 가능한 클라우드 규모의 대규모 추론 성능을 지원한다.

Search