지난 몇 년 사이 AI 수요가 전례없이 증가했으며 시장변화에 맞춰 데이터센터(DC) 인프라도 확장됐다. AI 사용이 DC 전체 인프라의 10~15%를 차지할 것으로 예상되는 만큼 관련기업은 DC 장비성능을 강화할 뿐만 아니라 운영비용 및 환경에 미치는 영향을 최소화해야 한다.
AI 및 머신러닝 애플리케이션은 전력소비량이 많아 높은 냉각요건을 갖춘 환경 및 고성능 장비를 요구한다. 기존 공냉식 냉각기술로 AI시스템에서 발생하는 열을 냉각시키기는 어렵다. 수냉식 냉각의 경우 데이터 에너지비용을 연간 10%까지 절감할 수 있는 것으로 보고돼 효과적인 해결책으로 부상했으나 에너지사용량 증가와 이로 인한 환경영향이 지속돼 여전히 추가작업이 필요할 전망이다.
DC 워크로드의 AI 맞춤화
DC가 AI와 애널리틱스와 같은 프로세스 집약적인 애플리케이션을 수용하기 위해서는 특정 워크로드 요구사항을 깊이 이해하는 것이 매우 중요하다. 워크로드마다 요구하는 컴퓨팅 성능이 다를 수 있으며 이에 따라 에너지소비량 및 발열량도 상이하다. AI와 5G가 필요로 하는 서버가 다른 것처럼 각 애플리케이션은 서버의 수많은 부품과 구성옵션 중 자신의 워크로드를 최적으로 지원 가능한 시스템을 요구한다.
기존 범용서버는 폭넓은 애플리케이션을 수용하기 위해 다양하고 전형적인 요구사항을 처리하도록 설계됐으며 종종 지나치게 많은 리소스를 갖췄다. 반면 특정 워크로드에 최적화된 시스템은 구체적인 부품 및 구성에 대한 확장된 옵션을 제공하며 목표로 하는 워크로드가 요구하는 성능을 충족한다. 이에 따라 불필요한 기능제거로 비용 및 전력소비절감, 발열최소화 등이 가능하다.
다만 플랫폼 하드웨어 옵션을 고려할 때 사용하려는 애플리케이션의 속도향상도 중요하지만 이를 상충시키는 단점이 있을 수 있다는 것을 양지해야 한다. 고대역폭 메모리(HBM: High Bandwidth Memory)의 경우 CPU와 데이터를 주고받는 속도가 상대적으로 빠르지만 이에 수반되는 발열을 보다 효과적인 냉각으로 해결해야 된다는 새로운 문제에 직면할 수 있다.
DC 효율성 극대화
시스템이 수백에서 수만대까지 확장될 수 있음을 고려하면 부품선정으로 인한 사소한 효율성 변화도 전체 구성에서 큰 영향을 미칠 수 있다. 서버 전력효율성도 마찬가지로 시간이 지남에 따라 막대한 비용절약 효과를 가져올 수 있다.
그러나 설정된 워크로드에서 최상의 성능 및 효율성을 내기 위해 서버를 커스터마이징한 후에도 여전히 성능 및 에너지사용을 최적화할 수 있는 추가 단계와 기술이 있다. IT업계는 리소스 활용 최적화와 환경영향을 줄이기 위해 보다 집약적이고 효율적인 랙 규모 구축방식부터 DC용 냉각설계, 하드웨어 리소스 분리까지 새로운 기술을 발전시켜왔다. 그 결과 오늘날 크고 작은 기업이 성능향상, 비용절감, 환경개선 사이에서 균형을 맞출 수 있는 다양한 옵션이 있다.
적합한 수냉식 냉각방식 활용
오버헤드 및 환경영향을 줄이면서 성능을 개선하기 위한 몇 가지 기본 단계가 있지만 고성능 친환경 DC를 위한 가장 일반적이면서도 효과적인 해결방법은 수냉식 냉각기술 도입이다. DC 준비 시 필수처럼 요구되는 우수한 방열기능을 제공하는 수냉식 냉각도입이 중요해진 가운데 D2C(Direct-to-Chip), 액침냉각 등 다양한 방법 중 각 DC에 가장 적합한 방식을 선택해야 한다는 점을 명심해야 한다.
D2C냉각은 가장 보편적으로 사용되는 방식으로 기존의 공냉식 솔루션과 DC에 이미 갖춰진 설계와 통합하기 비교적 간단하다. 열을 발생시키는 전자장치 위로 차가운 냉매를 흐르게 해 냉매가 칩의 열을 흡수할 수 있도록 한 다음 액체를 다른 영역으로 순환시켜 팬으로 냉각하고 열을 시스템 밖으로 방출하는 방식이다.
반면 액침냉각은 서버가 비전도성 냉매(보통 광물성, 합성 또는 생물성 오일)로 채워진 탱크에 완전히 잠기는 것을 말한다. 여기서 냉매는 D2C냉각과 유사하게 순환해서 열을 배출하거나(1-Phase; 1상 방식), 폐쇄루프시스템인 침수조에서 기체로 끓어 열을 분산시킨 후 열교환기를 통해 회수 및 응축(냉각)되고 다시 침수조로 돌아간다(2-Phase; 2상 방식).
수냉식 냉각은 비용효율적이며 전기로 인한 온실가스 사용량을 줄이고 성능을 향상시킨다. 냉각 기능 개선 시 전자부품이 열 한계에 도달할 가능성이 줄어들며 보다 오랫동안 발열로 인한 성능저하(throttling) 없이 작동될 수 있다. 이는 더욱 높은 수준의 성능을 필요로 하는 최첨단 AI 애플리케이션에 주력하는 기업에게 특히 중요하다.
이보다 나은 친환경 DC를 향한 획기적인 개선을 원한다면 CXL(Computer eXpress Link)과 같은 새로운 기술을 검토해봐야 한다.
지속가능성 및 비용효율을 위한 CXL 사용
CXL은 리소스 할당방식을 개선하며 각 서버의 로컬컴퓨팅 리소스에 직접적으로 좌우되지 않아 DC 설계에 혁신을 가져올 것으로 기대된다. 지금까지 메모리는 고성능 AI 및 머신러닝 애플리케이션을 활용하는 클라우드 고객에게 상당한 비용부담이 됐지만 모든 용량이 언제나 100% 필요하거나 활용되는 것은 아니었다. CXL기술은 각 시스템이 독립적으로 보유한 메모리와 상관없이 정확히 필요한 만큼의 메모리를 활용할 수 있도록 하는 등 DC 메모리리소스를 크게 개선하며 유연성 및 효율성을 향상시킨다.
CXL은 가속기, GPU, 메모리장치 등 연결장치와 CPU 간 원활한 메모리통합을 지원한다. 이에 따라 CPU와 연결장치 모두 소프트웨어 개입 및 동기화없이 메모리에 직접 액세스할 수 있다. 또한 CPU가 연결된 장치의 보다 큰 메모리 풀을 활용할 수 있도록 해 메모리기능 확장과 동시에 빠른 속도 및 넓은 대역폭을 제공한다. 이는 특히 AI 및 머신러닝 애플리케이션의 성능 향상과 메모리용량 증가로 이어진다.
그 결과 DC 전체가 보다 분산된 아키텍처로 구현될 수 있으며 각 서버는 보유한 메모리 및 컴퓨팅리소스 최고치의 영향을 덜 받을 수 있다. 이는 컴퓨팅, 메모리, 스토리지, 네트워킹 등 모든 구성 요소가 하나의 유닛에 패키징 된 기존 서버구축 방식에서 벗어나 다양한 구성요소를 통한 특화된 서버설계가 가능해지며 그로 인한 서버구축 및 판매 방식에도 변화가 올 것임을 의미한다.
AI가 미래에 필수적인 부분인 만큼 DC 운영에 지속가능한 접근방식이 필요하다. 친환경 AI를 지원하는 DC 구축을 위해 시스템구조 최적화, 수냉식 냉각과 같은 혁신적인 냉각솔루션 채택, CXL과 같은 새로운 기술수용 등이 필요하다. 기업은 센서와 머신러닝 기반의 실시간 제어를 통해 냉방에 필요한 에너지소비 감축, 에너지비용 절감, 탄소발자국 감소가 가능하다.
<마이클 맥너니(Michael McNerney) 슈퍼마이크로 마케팅&네트워크시큐리티 부사장>