한국이콜랩(대표 류양권)과 칸kharn은 12월12일 코트야드메리어트 마곡 보타닉파크에서 ‘AI 인프라 대전환: 리퀴드쿨링이 바꾸는 데이터센터의 미래’를 주제로 기술세미나를 개최했다고 밝혔다. 행사 오후세션으로는 이콜랩의 차별화된 기술을 살펴볼 수 있는 기술세미나가 진행됐다.
이날 오후세션은 △TCS Loop, 실패없는 운영전략의 과학(김용수 이콜랩 DC 수처리 기술지원담당 부장) △글로벌 장애복구 사례로 보는 TCS루프 리스트와 해법(Crowson Colin 이콜랩 인더스트리 테크 컨설턴트) △리퀴드쿨링 운영혁신: 보이지 않는 열을 제어하라(최종석 이콜랩 상무) △실시간 제어의 핵심: Glycol부터 3D TRASAR(손준석 이콜랩 DC수처리 마케팅담당 부장) △Beyond DTC: Immersion & Microfluidics, 미래 냉각의 두 축(Crowson, Colin 이콜랩 인더스트리 테크 컨설턴트) 등으로 구성됐다.
AI확산과 서버 고밀도화로 데이터센터 냉각환경이 급변하는 가운데 Direct Liquid Cooling(DLC) 전환 이후의 ‘운영 리스크’를 중점적으로 다루며 TCS루프 관리의 중요성을 언급했다. 단순한 냉각기술 소개를 넘어 설계·커미셔닝·운영 전 단계의 관리 체계, 실시간 모니터링 및 데이터기반 대응이 DC 안정성을 좌우하는 핵심요소임을 강조했다.
TCS루프 관리 안정적 DC냉각 핵심
김용수 부장은 ‘TCS Loop, 실패없는 운영전략의 과학’을 주제로 데이터센터 냉각구조에서 TCS(Technology Cooling System)루프가 갖고 있는 중요성을 언급하며 안정적인 DC운영을 위한 TCS Loop관리에 대해 공유했다.
김 부장은 “냉각수시스템에서 누수가 발생하면 IT컴포넌트에 직접적인 영향을 줄 수 있으며 이는 데이터센터의 지속적인 운영에 큰 애로사항으로 이어질 수 있다”라며 “적절한 운영이 이뤄지지 않으면 에너지효율성과 지속성 모두에서 큰 저해 요인이 된다”고 설명했다.
전 산업군에서 AI활용이 확산되면서 컴퓨팅파워가 커지고 서버랙 고밀도화 가속화되고 있다. 하지만 부지활용은 제한적이며 서버밀집도와 열적밀집도가 높아지면서 서 기존 에어쿨링 방식으로는 냉각효율을 확보하기 어려운 환경이 되고 있다. 이러한 변화 속에서 데이터센터는 Direct Liquid Cooling(DLC)방식으로 전환되는 추세다.
김 부장은 “현재 대부분의 데이터센터는 칩표면에 콜드플레이트를 부착해 열을 직접 제거하는 다이렉트 리퀴드 쿨링방식을 적용하고 있다”라며 “이 방식은 약 0.2mm수준의 미세한 마이크로채널을 통해 유체를 흘려보내 칩에서 발생하는 열을 제거하는 구조로 채널관리와 유체 상태가 냉각성능을 좌우한다”고 설명했다.
TCS루프에서 사용되는 냉각유체로는 ‘PG25(프로필렌글라이콜 25%)’가 산업계 표준으로 활용되고 있다.
김 부장은 “PG25의 25% 농도는 열 전달 효율을 일정 수준 유지하면서도 미생물성장을 억제할 수 있는 최적의 지점”이라며 “농도가 높아지면 미생물 억제효과는 커지지만 열 전달 효율이 떨어지고 반대로 농도가 낮아지면 냉각 효율은 좋아지지만 미생물 슬라임 발생 위험이 급격히 커진다”고 말했다.
TCS루프에서 발생하는 대표적인 장애로는 부식, 스케일, 미생물 슬라임이 꼽힌다. 초기 클리닝이 제대로 이뤄지지 않거나 PG25 농도가 저하되면 콜드플레이트 막힘, 열전달 효율 저하, 칩 온도 상승으로 이어질 수 있으며 미생물 슬라임은 고온환경에서 급격히 성장해 시스템 다운타임을 유발할 수도 있다.
김 부장은 “TCS루프는 다른 냉각루프에 비해 장애발생 시 민감도가 높은 만큼 엔지니어링 단계부터 운영단계까지 지속적인 관리 체계 구축이 필수적”이라며 “재질호환성 검토, 초기 스타트업 시 클리닝, PG25 농도관리가 데이터센터 안정성을 좌우한다”고 강조했다.
글라이콜관리, TCS루프 장애 예방책
Collin Crowson ITC는 ‘글로벌 장애복구 사례로 보는 TCS루프 리스트와 해법’이라는 주제로 글로벌 데이터센터 사례를 직접 공유하며 TCS루프에서 글라이콜(Glycol)관리 실패가 어떻게 실제 장애로 이어지는지를 구체적으로 설명했다.
Crowson ITC는 글라이콜장애 메커니즘을 △딜루션(Dilution) △디그라데이션(Degradation) △컨테미네이션(Contamination) 세 가지로 구분했다. 딜루션은 커미셔닝단계에서 세정수가 완전히 배수되지 않거나 CDU누수로 시설수(FWS)가 TCS 루프로 유입될 때 발생된다. 또한 신규 서버 유입과정에서 잔존수가 혼입될 때도 발생할 수 있다. 이 경우 PG25 농도가 목표치보다 낮아지며 바이오필름 파울링에 의한 오버히팅과 미생물 슬라임에 의한 부식 위험이 급격히 커진다.
디그라데이션은 글라이콜분자가 분해되는 현상으로 열적분해와 미생물학적 분해로 나뉜다. 서버온도가 90℃까지 상승하는 조건에서 열적분해가 관찰됐고 미생물에 의한 분해가 발생하면 글라이콜농도와 바이오억제 성능이 함께 저하되는 것을 확인할 수 있다.
디그라데시션이 발생한 글로벌 실제 사례에서는 PG농도는 낮아졌지만 pH와 전도도 변화가 없어 추가 분석을 진행한 경우가 있다. 이 당시 심층분석 결과 분해부산물과 금속부식 및 PVC배관에서 유래한 고염소(Chloride)현상이 확인돼 PG25 전량 교체로 이어졌다.
컨테미네이션은 부적절한 수원사용, 잔존오염물, 부식·마모부산물로 인해 발생한다. 북미 현장 사례에서는 3D TRASAR 온라인 모니터링을 통해 스트레이너 차압이 지속적으로 상승하는 현상이 포착됐고 분석결과 20~200마이크론크기의 입자와 함께 크롬플레이크가 발견됐다. 이는 크롬 합금재질 부위에서 부식이 진행되고 있음을 시사하는 징후였다.
Crowson ITC는 “시스템디자인과 커미셔닝단계의 실수가 수년 뒤 큰 장애로 이어질 수 있다”라며 “PG농도뿐 아니라 pH, 전기전도도, 탁도까지 함께 보는 온라인 모니터링이 셧다운을 막는 핵심”이라고 강조했다.
DLC핵심, 콜드플레이트 흐름 중요
최종석 상무는 ‘리퀴드쿨링 운영혁신: 보이지 않는 열을 제어하라’라는 주제로 DLC시스템의 핵심 구성요소로 콜드플레이트를 지목해 안정적 냉각을 위한 대비책을 공유했다.
최 상무는 “GPU나 CPU와 직접 맞닿는 콜드플레이트내부에는 0.1~0.2mm 수준의 미세한 채널이 형성돼 있다”라며 “열교환면적을 극대화하는 구조이지만 이 틈에 오염물질이 유입되면 막힘이 발생하고 슬라임, 부식, 누유 등 다양한 형태의 문제로 인해 즉각적인 장애로 이어질 수 있다”고 지적했다.
오염원인으로는 미생물뿐만 아니라 배관가공 과정에서 남은 오일, 설치·운송과정에서 유입된 먼지와 이물질, 세정 불량으로 잔존한 화학물질 등이 함께 언급됐다.
최 상무는 “오염이 누적되면 콜드플레이트 막힘, pH 저하, 거품발생 등으로 유체흐름이 저하되고 결국 냉각효율이 떨어진다”라며 “PG 농도 저하 이후 미생물이 급증하면서 슬라임과 부식으로 이어지는 장애사례도 확인된 적이 있다”고 설명했다.
실제 사례로는 부적합한 자재 사용, 절차 미준수, 실시간 모니터링 부재, 고온 환경 지속 등 여러 관리 실패 요인이 복합적으로 작용해 PG25 전량 배수 후 전처리부터 다시 시작한 경우가 언급됐다.
콜드플레이트 관리를 위한 이콜랩의 접근방식으로 설계·커미셔닝·운영 전 단계를 아우르는 관리체계가 제안됐다. 클리닝·플러싱·패시베이션·PG25 충전까지 이어지는 시공단계 관리와 시공 이후 실시간모니터링과 정기샘플링을 통한 운영관리가 연속적으로 이뤄지는 것이 중요하다.
최 상무는 “플러싱과 PG 충전은 24시간 이내 연속 작업이 중요하며 그렇지 않을 경우 질소 퍼징을 고려할 필요가 있다”라며 “오염으로 인한 콜드플레이트 장애발생 이전에 예방이 더 중요하다”고 강조했다.
실시간 모니터링, 시스템셧다운 선제적 대응
손준석 이콜랩 부장은 ‘실시간 제어의 핵심: Glycol부터 3D TRASAR’라는 주제로 발표를 진행했다.
손 부장은 “데이터센터 TCS루프는 ‘미션 크리티컬한 루프’로 정의할 수 있으며 글라이콜 실시간 모니터링이 중요하다”라며 “PG25는 단순한 화학물질이기 때문에 초기 클리닝상태와 운영 중 받는 스트레스에 따라 상태가 급변할 수 있고 루프에 문제가 생기면 최악의 경우 시스템을 다운시킨 상태에서 전량드레인과 재클리닝, 재충전을 해야한다”고 설명했다.
현재 글로벌 CSP와 제조사들이 글라이콜 모니터링에 관심을 갖는 이유는 샘플링방식의 한계로 설명할 수 있다. 일반적으로 분기 또는 반기 단위로 샘플을 채취해 글라이콜 상태를 확인하고 있지만 만약 샘플채취 사이 신규 장비유입이나 외부 임팩트가 발생하면 PG25상태는 단기간에 악화될 수 있다. 정기 샘플링만으로는 초기 이상 신호를 놓칠 수 있는 것이다.
손 부장은 “이러한 예측할 수 없는 문제를 해결하기 위한 솔루션으로 ‘3D TRASAR 4 DLC’가 제안됐다”라며 “이 장비는 TCS루프에 직접 연결해 PG 농도, pH, 탁도, 전도도 등 핵심지표를 실시간으로 측정하며 유량과 차압 화를 통해 이물질 순환 여부도 감지할 수 있다”고 강조했다.
이어 “내부에 리크센서(누수센서)를 탑재해 누수가 발생하면 루프를 차단하도록 설계돼 있다”라며 “값 변화가 감지되면 즉시알람을 제공해 선제적 대응이 가능하다”고 설명했다.
루프관리에서는 실시간으로 확보되는 데이터도 중요하다. 연속적인 데이터는 루프의 상태를 지속적으로 관찰할 수 있으며 어떤 방향으로 변화하고 있는지도 확인할 수 있는 지표다. 이를 통해 콜드플레이트 막힘과 온도상승을 사전에 차단할 수 있다. 문제가 발생한 이후에는 시스템을 다운시키는 등 선택지가 거의 없지만 발생직전에 감지하면 전량드레인 없이 대응방안을 모색할 수 있다. 설계단계부터 운영 최적화까지 이어지는 통합관리 필요성이 중요해지는 시점이다.
손 부장은 “이콜랩은 설계단계에서 재질호환성 검토와 루프 구조 자문을 제공하며 운영단계에서는 실시간 모니터링과 샘플 분석을 통해 데이터 기반 인사이트를 제공한다”라며 “초기 4주간 집중관리하는 하이퍼 케어서비스는 TCS루프 안정화를 위한 핵심 단계이며 실시간 모니터링과 분석을 통해 초기부식과 오염리스크를 제어하는 것이 장기적인 시스템 안정성을 좌우한다”고 강조했다.
DC냉각 액체기반 쿨링, 명확한 흐름
Collin Crowson ITC는 ‘Beyond DTC: Immersion & Microfluidics, 미래 냉각의 두 축’이라는 주제로 Direct-to-Chip(DTC) 이후의 데이터센터 냉각기술 흐름을 조망했다.
DTC기반 리퀴드쿨링은 이미 200kW급 서버까지 대응가능한 단계에 도달했다. 현재 그 다음 단계로는 △Immersion Cooling △Two-Phase Cooling △Microfluidics가 미래 냉각기술로 언급되고 있다.
Immersion Cooling은 서버를 비전도성 냉각유체에 직접 담가 냉각하는 방식으로 고발열 연산환경에 적합한 기술이다. 높은 냉각효율과 고출력 컴퓨팅 대응능력이 장점이지만 초기 투자 비용 부담과 IT하드웨어 호환성, 냉각유체의 환경적 고려사항 등이 고려할 상황으로 꼽힌다. 그러나 Immersion Cooling은 이미 상용화단계에 진입했으며 향후 3~5년 내 호환가능한 서버가 확대될 것으로 전망된다.
또 다른 대안인 Two-Phase Cooling은 냉각유체의 상변화를 활용해 열을 제거하는 방식이다. 냉각효율과 인프라공간 축소측면에서 장점을 갖는다. 다만 하드웨어 호환성과 신규 냉각유체 적용에 따른 고려사항 및 초기 비용부담이 함께 제시되고 있다. 향후 기술성숙도가 중요한 변수가 될 것으로 보인다.
Collin Crowson ITC는 “데이터센터 냉각기술이 공랭을 넘어 액체기반 나아가 유체물성 자체를 활용하는 방향으로 확장되고 있다”라고 강조했다.