微信公眾號
2023.09.07
如今,機器學(xué)習(xí)的興起導(dǎo)致數(shù)據(jù)中心的功率密度越來越高,在部署了大量服務(wù)器的數(shù)據(jù)中心中,每個機架的功率密度達到了30kW到50kW,這促使一些數(shù)據(jù)中心運營商轉(zhuǎn)向液體冷卻而不再采用空氣冷卻技術(shù)。
雖然一些數(shù)據(jù)中心運營商使用液體冷卻來提高其設(shè)施的效率,但其主要原因是需要冷卻更高功率密度的機架。
但是從空氣冷卻到液體冷卻的轉(zhuǎn)換并不簡單。以下是在數(shù)據(jù)中心采用液體冷卻技術(shù)所遇到的一些主要障礙:
1.需要采用兩種冷卻系統(tǒng)
歐洲托管數(shù)據(jù)中心巨頭Interxion公司數(shù)據(jù)中心首席技術(shù)程官LexCoors表示,對于現(xiàn)有的數(shù)據(jù)中心來說,一次性轉(zhuǎn)換為液體冷卻幾乎沒有意義,而很多數(shù)據(jù)中心設(shè)施的運維團隊將不得不管理和運營兩種冷卻系統(tǒng),而不是一種。
這使得液體冷卻成為新建數(shù)據(jù)中心或需要進行重大改造的數(shù)據(jù)中心的更好選擇。
但總有例外,對于超大規(guī)模制造商來說尤其如此,其獨特的數(shù)據(jù)中心基礎(chǔ)設(shè)施問題往往需要獨特的解決方案。
例如,谷歌公司目前正將其許多現(xiàn)有數(shù)據(jù)中心的空氣冷卻系統(tǒng)轉(zhuǎn)換為液體冷卻系統(tǒng),以應(yīng)對其最新機器學(xué)習(xí)的TPU3.0處理器的功率密度。
2.缺乏行業(yè)標(biāo)準(zhǔn)
缺乏液體冷卻的行業(yè)標(biāo)準(zhǔn)是該技術(shù)很難廣泛采用的主要障礙。“客戶首先必須配備自己的IT設(shè)備,以便進行液體冷卻。”Coors說,“而且液體冷卻技術(shù)的標(biāo)準(zhǔn)化并沒有完善,組織不能簡單地采用并讓它運行。”
3.觸電危險
許多液體冷卻解決方案主要依賴于介電液體,其介質(zhì)應(yīng)該不導(dǎo)電并且不存在觸電危險。但有些組織可能會使用冷水或溫水進行冷卻。
4.腐蝕
與任何涉及液體管道的系統(tǒng)一樣,腐蝕是液體冷卻技術(shù)面臨的一個主要問題。
“管道的腐蝕是一個大問題,這是人們需要解決的問題之一。”Coors說。液體冷卻制造商正在改進管道以降低泄漏風(fēng)險,并在發(fā)生泄漏時自動密封管道。
5.運營的復(fù)雜性
采用液體冷卻的最大風(fēng)險可能是運營復(fù)雜性增加,該公司計劃在明年年初在高性能云計算數(shù)據(jù)中心推出液體冷卻服務(wù)。當(dāng)采用液體冷卻技術(shù)為芯片冷卻時,液體流經(jīng)服務(wù)器中的每個CPU或GPU,就需要為冷卻過程添加很多組件,這增加了失敗的可能性。