AI 시대 지속가능 DC전략 세미나, 부산서 성황리 개최

  • 등록 2025-07-24
크게보기

부산정보산업진흥원 주관… 최신 기술·정책·운영전략 총망라
RE100·고집적GPU·리퀴드쿨링·건축설계·GPUaaS 등 발표

 

과학기술정보통신부, 부산광역시, 정보통신산업진흥원(NIPA), 부산정보산업진흥원(BIPA)이 공동주최한 ‘AI시대 지속가능한 데이터센터(DC) 전략 세미나’가 지난 7월16일 부산 벡스코 제1전시장에서 성황리에 개최됐다. 이날 세미나에는 DC 설계, 냉각·전력 설계, AI 서버 운영, RE100 이행전략 등 업계 핵심이슈를 다루는 발표가 진행됐다.

 

이날 서밋은 △AI시대 지속가능한 DC를 위한 RE100 이행전략(정택중 한국RE100협의체 의장) △지속가능한 DC, 기술 너머의 이야기(이용철 엠피리온 디지털 센터장) △AI서버, GPU 고효율 최적화기술 및 운영사례(신정규 래블업 대표) △고밀도 서버대응 냉각·전력 설계적용(김철원 슈퍼마이크로컴퓨터 전무) △지속가능한 IDC를 위한 운영관리 전략 및 성과사례(이종호 에스앤아이코퍼레이션 CSO) △친환경 DC 설계 방안(박배균 하이멕 본부장) △고집적 DC의 디자인 전략(유남선 삼우종합건축사사무소 그룹장) △End to End AI 클라우드: AI 모듈형 DC에서 GPUaaS까지(서지완 엘리스 그룹 본부장) 등 프로그램으로 구성됐다.

 

AI시대 DC 생존전략 ‘RE100’

 

부산 벡스코에서 열린 ‘AI시대 지속가능한 DC 전략 세미나’ 첫 발표자로 나선 정택중 한국RE100협의체 의장은 DC산업이 직면한 전력·환경 과제를 깊이 있게 짚었다. 그는 AI가 촉발한 데이터수요 폭증으로 DC가 ‘디지털 심장’으로 불리며 4차 산업혁명의 핵심인프라로 자리 잡았지만 전력소비 증가와 탄소배출이라는 이중 부담에 직면해 있다고 설명했다.

 

정 의장은 국제에너지기구(IEA)와 주요 리서치 자료를 인용하며 DC 전력수요 증가 추세를 구체적으로 제시했다. 2019년 320TWh 수준이던 전력 사용량이 2023년에는 대한민국 전체 전력 소비량에 육박했고 2026년에는 러시아 국가 전력 소비량과 맞먹을 것으로 전망된다고 밝혔다. 그는 DC 전력 소비량이 3년마다 두 배씩 증가한다는 분석을 언급하며 전력수요를 재생에너지로 충당하지 못하면 글로벌시장에서 경쟁력을 잃게 된다고 경고했다.

 

그는 특히 DC의 RE100 이행전략을 집중적으로 다뤘다. RE100은 단순한 기업 전력조달 목표가 아니라 DC라는 고전력·고밀도 산업을 대상으로 한 구체적 이행전략이 필요하다는 점을 강조했다. 정 의장은 DC가 24시간 전력을 소비하고 냉각을 위한 부하가 크다는 특성 때문에 RE100 달성에 있어 더욱 정교한 접근이 필요하다고 밝혔다.

 

정택중 의장은 “DC는 단순한 사무시설과 달리 전력소비량이 급격히 증가하는 구조를 가진다”라며 “RE100 이행을 위해서는 장기 PPA 계약, 현장 자가발전, 지역 재생에너지 연계가 동시에 설계돼야 한다”고 분석했다.

 

RE100의 기본목표도 다시 한번 설명했다. 2030년까지 60%, 2040년까지 90%, 2050년까지 100% 달성이라는 단계적 이행목표가 주어지며 글로벌 DC사업자는 이미 이 로드맵을 전제로 공급망을 재편하고 있다는 점을 지적했다. 그는 DC 운영기업이 이 목표를 달성하지 못하면 글로벌 AI 서비스와 클라우드 시장에서 경쟁력을 상실할 위험이 크다고 말했다.

 

정 의장은 이러한 글로벌 압박이 수출중심의 국내 DC와 IT 인프라 기업들에게 실질적 부담으로 다가오고 있다고 진단했다. 애플과 같은 기업은 이미 2018년에 RE100을 달성했고 한국 대기업 20여 곳에 2030년까지 RE100 이행 제품만 공급하라는 요구를 전달한 사례를 언급하며 이는 단순한 권고가 아니라 계약조건에 영향을 미치는 압력이라고 설명했다.

 

그는 DC RE100 이행 수단으로 △자가발전 △녹색프리미엄 △재생에너지 인증서(REC) 구매 △전력구매계약(PPA) △지분투자를 구체적으로 소개했다. 특히 DC는 전력 수요가 크기 때문에 PPA와 자가발전이 가장 실효적인 감축 수단이라고 지적했다. 녹색프리미엄은 상대적으로 간단하지만 실질적 온실가스 감축효과가 낮아 ‘그린워싱’ 논란이 있고 글로벌시장은 Scope2, Scope3를 모두 고려한 실질적 탄소감축을 요구한다고 강조했다.

 

또한 DC의 전력효율화를 위한 기술적 접근도 언급했다. 냉각시스템 최적화가 핵심이라는 점을 강조하며 IT기기가 직접 소비하는 전력보다 냉각설비에 소모되는 전력이 많다는 통계를 제시했다. 따라서 액체냉각(Liquid Cooling)과 같은 혁신 기술을 적극 도입해야 한다고 설명했다. 네이버가 한랭지에 DC를 설치하거나 해외 빅테크들이 수력·풍력 PPA를 체결하는 사례를 예로 들며 이러한 글로벌 트렌드를 벤치마킹할 필요가 있다고 밝혔다.

 

마지막으로 그는 정부와 기업의 역할을 분명히 했다. 정부는 제도적 지원과 인프라 투자가 필요하며 기업은 DC 특성에 맞는 RE100 이행계획 수립이 시급하다고 강조했다. ESG경영이 선언에 그치지 않고 공급망 전체의 경쟁력으로 이어져야 한다는 점을 다시 한번 강조하며 발표를 마쳤다.

 

DC 지속가능성, 기술 넘어선 전략 필요

 

두 번째 발표에 나선 이용철 엠피리온 디지털 센터장은 DC 지속가능성을 단순한 기술적 효율 개선에 국한하지 않았다. 그는 DC 지속가능성은 단순히 전력과 냉각효율을 높이는 문제를 넘어 인력·지역사회·환경과의 관계를 포함한 종합적 전략이라고 강조했다.

 

이 센터장은 우선 DC가 처한 현실을 진단했다. AI, 클라우드, 5G의 확산으로 DC의 전력 수요가 폭증하고 있으며 PUE(전력사용효율) 1.2 이하를 달성하는 선도사례가 등장했지만 여전히 많은 DC가 PUE 1.6 수준에 머물러 있다고 지적했다. 단순한 효율개선만으로는 ESG 요구와 지역사회 수용성을 동시에 충족하기 어렵다는 것이다.

 

이용철 센터장은 “DC를 둘러싼 사회적 요구가 달라지고 있다”라며 “냉각탑에서 발생하는 수증기, 소음, 열섬현상까지 지역 주민의 생활과 직결된다”고 지적했다.

 

이어 “지역과의 소통과 상생이 지속가능성의 전제”라며 “이에 따라 입지선정 단계에서부터 환경영향평가뿐만 아니라 지역주민 의견수렴, 지역 에너지정책과의 연계가 필수”라고 강조했다.

 

이 센터장은 내부 운영인력의 중요성을 언급하면서 “DC는 24시간 가동되기 때문에 단순한 기계적 운전이 아니라 상황 대응, 긴급복구 역량이 핵심”이라며 “인력교육과 숙련도 향상이 운영적 측면에서 지속가능성과 직결된다”고 지적했다.

 

그는 실제로 운영 중인 일부 센터에서 표준운영절차(SOP)와 시뮬레이션 훈련을 도입해 장애 대응 시간을 30% 단축한 사례를 언급했다.

 

또한 냉각·전력기술에 대해서도 새로운 접근을 요구했다. 현장에서는 기존의 공랭식·수랭식기술을 넘어 하이브리드형 시스템, 지역 폐열활용형 시스템을 구축하고 있으며 PUE뿐만 아니라 WUE(물사용효율) 지표를 중점관리하고 있다.

 

이용철 센터장은 “한 센터에서 연간 5만톤 이상의 냉각수를 절감한 사례도 있다”라며 “이는 단순히 비용절감이 아니라 지역 수자원 보호라는 사회적 가치로 연결된다”고 지적했다.

 

이 센터장은 DC를 단순한 ‘시설’로 보지 말고 ‘디지털 생태계의 거점’으로 재정의할 것을 주문했다. 따라서 지속가능성 지표를 재무성과와 연결해 관리해야 한다고 말했다. 실제로 일부 글로벌 DC들은 센터별 ESG 보고서를 작성해 글로벌 고객에게 투명하게 공개하고 있으며 이를 통해 해외 투자유치와 고객 신뢰확보에 성공하고 있다고 소개했다.

 

그는 마지막으로 “기술적 성과만으로는 부족하며 DC가 지역사회와 신뢰를 구축하고 인력과 조직문화까지 포괄하는 지속가능성 전략을 가져야 한다”라며 “이것이야말로 AI시대에 DC가 장기적으로 성장할 수 있는 길”이라고 정리했다.

 

AI서버·GPU효율화, DC 경쟁력 핵심

 

세 번째 발표는 신정규 래블업 대표가 맡아 AI 서버와 GPU 인프라의 효율적 운영을 주제로 진행했다. 그는 AI 시대 DC의 가장 큰 과제가 급증하는 GPU 수요와 그에 따른 전력·냉각 문제임을 강조하며 발표를 시작했다.

 

신 대표는 먼저 GPU 인프라가 기존 CPU 기반 인프라와 근본적으로 다르다는 점을 설명했다. GPU는 연산 능력이 월등하지만 개당 8,000만원에 달하는 고가 장비이며 평균 수명이 2~3년에 불과해 지속적인 교체와 관리가 필요하다는 것이다. 또한 GPU는 가동 시 전력소모가 높고 발열량이 커 냉각부하와 물사용량을 크게 증가시킨다고 진단했다.

 

그는 실제 운영데이터와 사례를 통해 GPU 인프라의 병목현상을 소개하면서 “DC에서 수천장 단위로 GPU를 운용하면 단 한장의 저성능 GPU가 전체 학습시간을 지연시키는 ‘테일문제’가 발생한다”라며 “이를 해결하기 위해 GPU 상태를 실시간으로 모니터링하고 불량GPU를 신속히 교체하거나 다른 용도로 전환하는 스케줄링 기술이 필요하다”고 말했다.

 

또한 GPU별 성능편차가 최대 20%에 이른다는 분석결과를 제시하며 이를 보정하기 위한 클러스터 설계와 스케줄링 기법을 상세히 설명했다.

 

신정규 대표는 GPU 클러스터의 가용률 문제도 지적했다. GPU 자원이 100%로 활용되면 이상적이지만 실제 클라우드 GPU 가용률은 평균 20%에 그친다고 말했다. 이는 워크로드의 불균형, 예약관리 미흡, 네트워크 병목 등 복합적 원인에 기인하며 이를 해소하기 위해 최근 도입된 실시간 스케줄러(RAS 기반)와 멀티 테넌트 관리 방식을 소개했다. 즉 워크로드를 수시로 재배치해 GPU 자원을 최적화하는 것이 핵심임을 강조했다.

 

냉각과 전력관리에서도 신기술 도입이 필요하다고 밝혔다. 고성능 GPU 클러스터는 기존 공랭식으로는 한계가 있어 수랭식이나 직접액체냉각(DLC) 시스템을 적용해야 한다는 것이다.

 

신정규 대표는 “NVIDIA의 최신 GPU 서버 중 일부는 기본적으로 수랭식 냉각설계를 채택하고 있다”라며 “이러한 트렌드가 DC 설계와 운영 패러다임을 바꿀 것”이라고 전망했다.

 

실제로 래블업이 최근 적용한 한 DC에서 수랭식 냉각으로 PUE를 1.15까지 낮춘 사례를 공개하며 고밀도 서버환경에서 수랭식 도입 필요성을 강조했다.

 

신 대표는 또한 장애 관리와 백업전략의 중요성을 역설했다. 수천장의 GPU가 동시에 학습을 수행하는 상황에서 한 번의 장애가 전체 작업을 중단시키는 경우가 많으며 이를 방지하기 위해 작업중간에 정기적으로 모델을 세이브 포인트로 저장하는 기법을 소개했다.

 

신정규 대표는 “저장과정 자체가 GPU 수천 장이 동시에 동작하는 환경에서는 큰 부하가 되기 때문에 효율적인 세이브 전략을 연구하고 있다”고 말했다.

 

그는 발표를 마무리하며 AI 서버·GPU 인프라의 고효율 운영이 단순한 비용절감을 넘어 DC 경쟁력을 좌우하는 시대가 됐다고 정리했다. GPU자원의 효율적 활용, 냉각·전력관리, 장애 대응체계가 모두 맞물려야만 AI 시대 DC가 지속가능성과 수익성을 동시에 확보할 수 있다는 점을 분명히 했다.

 

냉각·전력설계, DC 미래 좌우

 

네 번째 발표에서는 김철원 슈퍼마이크로컴퓨터 전무가 고밀도 서버환경에서의 냉각과 전력 설계 전략을 주제로 심도 있는 발표를 진행했다. 그는 AI와 고성능 컴퓨팅 수요가 급증하면서 DC 랙당 전력밀도가 급격히 높아지고 있다고 진단했다. 최근 10kW 수준이던 랙밀도가 30~40kW로 상향되고 있으며 GPU서버 중심 클러스터는 100kW를 넘는 사례도 등장하고 있다는 것이다.

 

김 전무는 기존 공랭식 시스템만으로는 이와 같은 고밀도 환경에서 효율적 운영이 불가능하다고 지적했다. 실제사례로 슈퍼마이크로가 공급한 B200·H200 GPU 서버의 운용데이터를 제시하며 공랭식과 수랭식의 냉각성능을 비교했다. 공랭식으로 운용할 경우 PUE가 1.6 수준에 머물렀지만 수랭식과 DLC를 적용한 클러스터는 PUE 1.2 이하를 달성했다.

 

김철원 전무는 “일부 신규모델은 기본설계부터 수랭식 냉각을 전제로 하고 있다”라며 “DC 설계 단계에서부터 이러한 변화를 반영해야 한다”고 강조했다.

 

또한 WUE 개선성과를 공유하면서 “수랭식 적용으로 연간 물사용량을 40% 이상 절감한 DC가 있다”라며 “냉각효율 향상과 함께 물자원 관리까지 가능해지는 것”이라고 설명했다.

 

그는 이러한 성과가 단순한 기술적 개선을 넘어 지역사회와 ESG 목표달성에도 기여할 수 있다고 분석했다.

 

전력설계 측면에서도 고밀도 서버환경에 특화된 전략이 필요하다고 지적했다. 고전력 GPU서버를 안정적으로 운용하기 위해 전원 분산설계와 고효율 전원장치(PDU) 채택이 필수라는 것이다.

 

김철원 전무는 “기존 1MW급 DC에서 2~3MW 수준으로의 전력인프라 확장이 불가피하다”라며 “단순증설이 아니라 전력 경로를 다중화하고 장애 시 빠르게 전환할 수 있는 설계가 요구된다”고 말했다.

 

김철원 전무는 열회수 설계에 대해서도 구체적으로 언급하며 “DC에서 발생하는 폐열을 재활용해 지역난방이나 건물난방에 활용하는 열회수시스템 적용 시 최대 98%까지 열에너지를 회수할 수 있다”라며 “실제로 유럽 일부 DC에서는 DC열을 인근주거지 난방에 공급하고 있으며 국내에서도 시범사업을 추진 중”이라고 소개했다.

 

발표 후반부에서는 슈퍼마이크로가 제안하는 ‘모듈형 냉각·전력솔루션’을 소개했다. 고객 DC의 랙밀도, 전력수요, 공간제약에 따라 맞춤형으로 냉각방식과 전력설계를 조합하는 방식이다.

 

김 전무는 “단일한 설계로는 고성능 GPU 클러스터를 감당할 수 없다”라며 “DC특성에 맞춘 설계가 필수”라고 강조했다.

 

김 전무는 발표를 마무리하며 “AI와 GPU 중심의 고밀도 서버시대를 맞아 냉각·전력설계 혁신 없이는 지속가능한 DC를 기대할 수 없다”라며 “설계 단계에서부터 효율성과 환경영향을 동시에 고려해야 한다”고 정리했다.

 

운영관리 혁신, DC 지속가능성 핵심 열쇠

 

다섯 번째 발표에서는 이종호 에스앤아이코퍼레이션 CSO가 50년 건물관리 경험과 30년 IDC 운영경험을 바탕으로 DC 운영관리 전략을 제시했다. 그는 DC의 지속가능성은 설계와 기술 못지않게 운영관리 역량에 달려 있다고 단언하며 발표를 시작했다.

 

이종호 CSO는 먼저 IDC 관리의 핵심포인트로 ‘안전’을 강조했다. 단 한 건의 사고로 수백억원의 피해와 서비스 신뢰도 하락이 초래될 수 있다는 것이다.

 

이종호 CSO는 “IDC 운영에서 가장 중요한 것은 무중단, 무사고”라며 “이를 위해 글로벌 안전지표를 기반으로 관리체계를 정비해왔으며 실제로 SNI코퍼레이션은 30년 동안 대규모 IDC 22곳을 무중단 관리해온 실적을 보유하고 있다”고 강조했다.

 

발표에서는 SLA(Service Level Agreement)와 KPI(Key Performance Indicator) 관리사례가 구체적으로 다뤄졌다. 고객사와 계약단계에서 전력, 냉각, 보안 등 운영목표를 수치로 설정하고 이를 달성하지 못하면 패널티를 부과하는 방식이다.

 

이 CSO는 “우리는 계약서에 안전지표와 장애 발생건수까지 반영해 관리한다”라며 “이 목표를 달성하기 위해 고위험 작업 전 사전점검, 작업자 안전 체크리스트 운영, 사고지표 분석을 정례화했다”고 말했다.

 

또한 그는 인프라 운영을 지원하는 시스템과 인력을 소개했다. 현장 IDC 관리팀뿐만 아니라 원격 관제센터를 운영해 전국 IDC를 실시간 모니터링하고 긴급상황 발생 시 즉각 지원할 수 있도록 체계를 갖췄다고 밝혔다.

 

이종호 CSO는 “IDC 운영은 단순히 현장만의 역량으로는 부족하며 전사적 지원시스템이 필수”라며 “우리는 데이터 기반 의사결정을 위해 표준화된 운영데이터를 수집하고 분석해 매뉴얼을 지속 업데이트하고 있다”고 설명했다.

 

이 CSO는 냉각, 전력, 보안 등 설비운영 측면에서도 운영관리 전략을 제시하며 “냉각·전력 설계가 아무리 뛰어나도 운영과정에서 유지보수가 적절히 이뤄지지 않으면 효율은 떨어진다”라며 “우리는 각 센터별로 에너지사용량, PUE 변동, 설비가동률을 주기적으로 분석해 개선 포인트를 찾는다”고 말했다.

 

이어 IDC운영의 사회적책임을 강조했다. 지역 협력업체와 협업을 통해 일자리를 창출하고 장애발생 시 지역사회에 피해가 확산되지 않도록 비상대응체계를 강화하고 있다는 점을 언급했다.

 

이종호 CSO는 “DC는 지역과 함께 성장해야 한다”라며 “ESG 관점에서 운영관리도 투명성과 책임성을 확보해야 한다”고 밝혔다.

 

이 CSO는 마지막으로 “운영관리는 보이지 않는 영역이지만 지속가능한 DC를 만드는 데 핵심이 된다”라며 “설계와 기술 혁신이 빛을 발하려면 그 기반을 지탱하는 운영관리 혁신이 필요하다”고 강조했다.

 

친환경 설계로 AI 시대 DC미래 설계

 

여섯 번째 발표자로 나선 박배균 하이멕 본부장은 급격히 높아지는 랙밀도와 탄소배출 이슈에 대응하기 위한 DC설계 방향을 제시했다.

 

박배균 본부장은 “AI시대 DC는 단순한 서버 수용공간이 아니라 에너지효율과 환경영향을 동시에 고려해야 하는 복합시스템”이라고 강조하며 발표를 시작했다.

 

박 본부장은 최근 DC 설계현장에서 관찰되는 전력밀도 상승 추세를 소개하면서 “2010년대 중반까지만 해도 랙당 5~6kW 수준이었지만 최근 AI 서버 도입으로 30~40kW 수준까지 급증했다”라며 “일부고객은 100kW 이상을 요구하기도 한하며 이러한 고밀도 환경에 대응하기 위해 설계단계에서부터 냉각방식과 전력경로를 새롭게 구성해야 한다”고 설명했다.

 

그는 특히 친환경 설계를 강조하면서 “이를 위해 하수열, 해수, 댐수를 활용한 냉각시스템과 폐열회수 방안이 필요하다”라며 “실제사례로 소양강 댐 담수를 활용해 IDC 냉수를 공급한 실증 프로젝트에서 댐 담수는 연중 11~28℃를 유지해 안정적인 냉각수 공급원이 되며 이를 통해 연간 5억톤 이상의 냉각수를 절감할 수 있다”고 설명했다.

 

이어 그는 하수열 냉각방식도 소개했다. 지역 하수처리장의 방류수를 열원으로 활용해 IDC 냉각에 적용한 사례에서 25~32℃ 안정적인 냉각수 공급이 가능했다며 이를 통해 PUE와 WUE를 동시에 개선할 수 있었다고 밝혔다. 또한 부산과 같은 해안 도시의 경우 해수를 활용한 냉각방식이 미래지향적 대안이 될 수 있다고 제안했다.

 

박 본부장은 설계측면에서도 혁신적 접근을 제시했다. 고밀도서버를 수용하기 위한 DLC 적용, 공기 공급온도 상향 조정(25→32℃)을 통한 냉각부하 절감, 모듈형 냉각장치 도입 등을 통해 PUE를 1.1 이하로 낮출 수 있다고 밝혔다. 또한 설비의 공간효율을 높이고 WUE를 낮추기 위해 드라이쿨러, 공간최적화설계 적용사례를 제시했다.

 

폐열활용에 대해서도 언급하면서 “DC는 연중 일정한 폐열을 발생시키므로 이를 5세대 지역난방시스템에 연계하면 건물난방이나 산업공정에 재활용할 수 있다”라며 “실제 프로젝트에서 폐열을 히트펌프로 회수해 인근시설 난방에 공급한 사례가 있으며 DC가 지역에너지 순환망의 한 축이 될 수 있다”고 강조했다.

 

박 본부장은 발표를 마무리하며 “이제 DC 설계는 단순히 기계적·전기적 요구사항을 만족하는 것을 넘어 환경과 지역, 에너지순환까지 아우르는 지속가능한 솔루션이 돼야 한다”고 말했다.

 

고집적 DC 시대, 건축·ICT 일체화 핵심

 

일곱 번째 발표에서는 유남선 삼우종합건축사사무소 그룹장이 고집적 DC설계와 디자인 전략을 주제로 발표했다. 그는 고밀도 서버 확산이 기존 설계 패러다임을 넘어서는 접근을 요구한다고 강조했다.

 

유 그룹장은 최근 DC설계 현장에서 마주하는 현실을 구체적으로 설명했다. 랙밀도가 30kW를 넘어 50kW까지 증가하는 환경에서는 단순히 공간을 확보하는 것만으로는 효율을 담보할 수 없으며 건축적 배치와 전력·냉각경로까지 처음부터 재설계해야 한다는 것이다.

 

유남선 그룹장은 “모듈단위로 설계하면 초기투자비를 줄이고 추후 증설이나 리모델링에도 유연하게 대응할 수 있다”고 밝혔다.

 

그는 또한 건축 인프라와 ICT장비를 분리된 요소로 볼 수 없다는 점을 강조하면서 “고집적DC에서는 건축인프라와 IT 장비를 별도로 보고 설계할 수 없다”라며 “랙크기, 배치, 전력과 냉각요구사항까지 설계 초기단계에서 함께 검토하지 않으면 실질적 설계가 불가능하다”고 설명했다.

 

기존처럼 건물을 먼저 설계하고 나중에 IT 장비를 반영하는 방식으로는 고밀도 서버시대 요구를 충족할 수 없다고 덧붙였다.

 

그는 전통적 공랭식과 리퀴드쿨링 기반설계가 공간구성 측면에서 어떻게 다른지를 비교설명하며 “갈수록 건축에서 바라보는 공간구성과 컨피규레이션이 차이가 난다”라며 “전통적인 에어쿨링방식과 최근 적용되는 DLC, 액침냉각 적용 시 공간배치와 건물구조에 차이가 있으므로 최적화가 필요하다”고 밝혔다.

 

전통적 공랭식은 공간위주로 설계해 IT장비는 나중에 입주자가 추가작업을 통해 넣는 방식이었다. 반면 리퀴드쿨링을 적용한 설계는 장비와 건축을 동시에 고려해야 하며 장비배치와 냉각구성이 초기설계에 직접 반영된다.

 

그는 이어 기준층에 UPS와 배터리를 배치하는 최근의 설계 변화도 언급했다. 과거에는 다층에 걸쳐 인프라를 분산해 배치했지만 최근에는 화재나 사고 시 피해확산을 방지하고 각 층 단위로 독립적인 전력인프라를 운영할 수 있도록 UPS와 배터리를 기준층에 집중 배치하는 설계가 늘어나고 있다고 말했다.

 

유남선 그룹장은 “이제는 건축설계자도 서버랙 규격이나 냉각방식까지 이해해야 한다”라며 “공간과 장비를 분리해 설계하던 시대가 끝났다”고 지적했다.

 

이어 그는 상면면적과 고발열 서버적용에 따른 트렌드 변화도 짚었다. 그는 상면면적을 절약하기 위해 고발열 서버를 적용하는 흐름이 있지만 고발열 서버만으로 상면을 구성하면 냉각 효율과 전력인프라 한계로 인해 운영이 어렵다는 점도 지적했다. 이에 따라 최근에는 20kW급과 100kW급 서버를 혼합해 층 단위로 배치하는 조합형 설계가 늘어나고 있다고 말했다.

 

유남선 그룹장은 “부지조건과 엔드유저가 원하는 전력규모에 따라 다양한 조합을 적용하는 설계가 필요하다”라며 “이를 통해 건축면적을 효율적으로 활용하면서도 고발열서버 요구를 충족시키는 전략이 중요해지고 있다”고 덧붙였다.

 

발표 후반부에서는 리퀴드쿨링 표준화 논의가 국제적으로 진행 중이라는 점을 언급하며 “국제 DC표준 회의에서 리퀴드쿨링을 표준에 포함시키기 위한 논의가 활발하다”라며 “한국 대표단에서도 관련 스터디를 시작하자는 제안이 나왔다”고 소개했다.

 

이어 “전 세계 DC 업계가 공감대를 형성하고 있다”라며 “표준화 필요성이 다수에서 제기되고 있으며 고집적 DC로 갈수록 리퀴드쿨링 적용이 불가피하다는 데 글로벌 컨센서스가 형성되고 있다”고 말했다.
발표를 마무리하며 그는 “DC 디자인은 단순한 공간설계를 넘어 고집적·고효율·저탄소 등 목표를 동시에 달성해야 한다”라며 “설계자는 창의적이면서도 현실을 냉정히 고려한 전략을 세워야 한다”고 강조했다.

 

End to End AI 클라우드, GPUaaS로 진화하는 DC

 

여덟 번째 발표에서는 서지완 엘리스그룹 본부장이 ‘End to End AI 클라우드: AI 모듈형 DC에서 GPUaaS까지’를 주제로 강연했다. 그는 AI 워크로드 증가에 따라 DC설계와 운영방식이 근본적으로 변화하고 있으며 이를 뒷받침하기 위한 GPU 자원제공모델(GPUaaS: GPU as a Service)이 빠르게 확산되고 있다고 강조했다.

 

서 본부장은 먼저 AI 클라우드 환경의 구조적 변화를 짚었다. 기존의 DC는 특정고객을 대상으로 한 전용 인프라 중심으로 운영됐으나 AI 연산수요가 급증하면서 GPU 자원을 유연하게 공유·확장할 수 있는 모듈형 설계가 필요해졌다는 것이다.

 

서지완 본부장은 “AI 트레이닝·추론 등 워크로드가 다양해지면서 단일구성으로는 대응이 어렵다”라며 “모듈별로 GPU 클러스터를 구성하고 수요에 따라 빠르게 증설하거나 축소할 수 있는 설계가 필요하다”고 설명했다.

 

이어 그는 GPUaaS 모델을 통해 DC사업자가 직접 GPU자원을 서비스 형태로 제공하는 사례를 소개했다.

 

서 본부장은 “과거에는 GPU서버를 자체 구축하거나 임대하는 방식이 주류였지만 이제는 DC가 GPU 클러스터를 운영하며 API 기반으로 고객에게 제공하는 서비스가 늘어나고 있다”라며 “이는 투자 부담을 줄이고 고성능 연산을 필요로 하는 기업에게 유연성을 제공한다는 장점이 있다”고 밝혔다.

 

또한 모듈형DC 설계가 GPUaaS 모델에 미치는 영향에 대해서도 설명하면서 “GPU 클러스터가 독립된 모듈로 구성되면 전력·냉각·네트워크 자원을 각 모듈단위로 최적화할 수 있다”라며 “특히 고발열 GPU서버를 위한 리퀴드쿨링시스템을 모듈단위로 적용해 효율을 높이는 전략이 확산되고 있다”고 말했다.

 

서 본부장은 “기존 공랭식대비 리퀴드쿨링을 적용한 모듈형 GPU 클러스터에서 PUE를 1.2 이하로 달성할 수 있다”라며 “AI 워크로드의 급격한 변동성에 대응하기 위해 GPU 모듈 간 네트워크 경로를 유연하게 구성하고 전력사용량을 실시간으로 모니터링·분산하는 기술이 중요하다”고 덧붙였다.

 

마지막으로 그는 GPUaaS 시장이 DC산업 구조를 바꾸고 있다고 분석하면서 “GPUaaS를 통해 DC는 단순한 인프라 제공자를 넘어 AI 연산플랫폼으로 진화하고 있다”라며 “모듈형 설계와 결합하면 투자효율, 확장성, 운영안정성 모두를 확보할 수 있다”고 강조했다.

여인규 기자 igyeo@kharn.kr
저작권자 2015.10.01 ⓒ Kharn



  • youtube
  • facebook