2021是产业础设“十四五”的開局之年,在大基建的和产浪潮下,人工智能(AI)基礎設施也迎來了前所未有的断发度持發展和技術產品迭代。
隨著AI更廣泛地在千行百業中落地,展智區域和產業對於人工智能算力的算基施建设热需求也不斷增加,麵向AI的续升算力基礎設施隨之成為新基建的重點。
以智能計算中心為代表的产业础设智算基礎設施(以下簡稱智算中心)是為AI應用提供所需算力服務、數據服務和算法服務的和产公共算力新型基礎設施,由AI芯片和算力機組等設備組成,断发度持聚集海量數據,展智企業和研究機構可以依托智算中心提供的算基施建设热強大算力,驅動AI模型進行數據深度加工,续升實現AI應用創新。产业础设
智算中心建設目的和产是促進AI產業化和產業AI化。
智算中心和雲數據中心不同,断发度持雲數據中心是采用虛擬化等雲計算技術,提供的仍舊是傳統的數據中心業務和各種新型網絡應用,而智算中心是對數據中心的虛擬化,可能是雲數據中心中的部分機組組合提供算力,也可能是多個雲數據中心協作提供算力。
但智算中心相比於傳統的數據中心,建設曆史較短,行業內標準較少。作為新型基礎設施的智算中心需要向社會提供什麽樣的算力?雙碳政策下,智算中心如何實現更綠色?麵對龐大的AI智算產業鏈,如何協同上下遊共同建設?花費巨額資金建成的智算中心如何更好的支撐地方經濟社會發展?
針對這些智算中心建設、運營的關鍵、重要問題,中科曙光高級副總裁任京暘與智東西等媒體進行了深入交流,分享曙光方案。
一、智算中心成新基建熱點,四大難題需解決
想要建成並建好一個智算基礎設施並不容易,任京暘談道,像智算中心等智算基礎設施,其發展還處於初級階段,建設上,會麵臨一些初期困難。
智算中心的建設目的是服務當地經濟發展,也就是說智算中心首先是一個公共算力平台,不止為一個企業或一個產業服務,而是需要盡可能多的服務當地各類企業或多類產業。
智算中心不能是一個“孤島”,其適用性不能是有限的,不能建成一個使用率不高或者隻能支撐少量應用的智算基礎設施。
這是智算基礎設施建設需要麵臨的第一個問題,如何滿足地區和當地企業需要,甚至服務更大範圍,讓智算中心的建設更有意義。
智算中心建設的第二個問題是,隨著“雙碳(碳達峰和碳中和)”目標的提出,各地的雙碳規劃相繼出爐,怎樣減少碳排放成為熱點話題,而智算中心這類耗能大戶,如何降低其能耗、減少碳排放,是建設者必須考慮的一個問題。
第三個智算中心建設時需要解決的問題是如何協同AI產業鏈上下遊的力量,共同建設好智算中心。
從最底層的芯片,到中層的框架、模型、算法,再到最頂層的應用,AI產業鏈相當長,每一層都有多個細分賽道和大量的玩家,如何在現階段整合好各層力量,把智算中心建設好,是一個很現實有意義的課題。
智算中心建設需要麵對的第四個問題是怎樣做好產業賦能。
智算中心建設目的是推動當地產業經濟發展,在AI賦能千行百業的現在,投資方在利用智算中心,實現加速AI的產業化和產業的AI化過程中,會麵臨各種挑戰。
二、AI落地進行時,如何建好、管好、用好智算中心?
麵對上述智算基礎設施或者說智算中心建設運營中存在的各種難點,曙光通過自身的實踐和總結,提出了建設“5A級”智算基礎設施,希望借此推動產業生態開發和協同發展,激發產業活力和整體繁榮,為綠色經濟和數字經濟融合發展提供重要支撐載體和推動力。
曙光不斷強調的“5A級”智算基礎設施,具體包括開放、融合、綠色、普惠、服務五個方麵的能力。
開放是以生態包容的模式,構建智算中心多元集成的基礎架構;融合是以搭載多種類型的芯片,提供多元的算力;綠色是運用先進的相變式全浸沒液冷技術,將能耗降低達30%;普惠是通過多種策略,將綜合建設成本降到低於市場既有價格30%;服務是提供全生命周期的智算基礎設施服務,從建到運營,持續服務。
1、開放:以多元協作為宗旨,追求產業鏈共建
目前,智算中心麵臨的首要問題就是開放性問題,AI應用的數量增加和迭代速度對智算中心的生命力提出挑戰。
作為新型基礎設施,智算中心不能隻解決像材料或者基因等某一領域的問題。
同時,智算中心建設還要避免這種情況:花巨資建好智算中心後,比如說一兩年之後,隨著迭代,智算中心的功能就大幅衰減。
業界關於智算中心建設的思路有兩種,一種是垂直一體化整合模式,每一層都是建設者獨立實現的,這樣的優點是避免了不同技術路線之間的適配過程。
第二種做法是多元協作模式,這種做法適配上就可能稍微難一點,但是對開發者來說會更加友好,對產業發展來講更加有利。
曙光堅持的就是多元協作模式,任京暘談道,曙光建設“5A級”智算基礎設施,就是通過芯片、算法、框架、模型的全麵開放、兼容,構建多元集成的基礎架構,實現算力底座最大程度的易用性,降低遷移成本,給未來的開發者帶來一個比較好的環境,進而通過建設智算中心帶動整個產業鏈的健康發展。
2、融合:通過分布式異構並行體係結構,實現多樣性算力供應
隨著AI技術的不斷發展和各行業對於智能化、數字化轉型的認識和需要的提升,從產業橫向角度上看,AI賦能的領域越來越多,從智慧城市,到工業製造,再到農業生產、科學計算等等;從產業縱向角度來看,AI應用正逐步在垂直領域進行縱深發展,解決行業內部的關鍵問題。
AI應用多樣,對算力的需求同樣多樣,既有應用需要高精度的算力,也有應用需要低精度的算力,混合精度、多元算力成為智算基礎設施發展的必然趨勢。
曙光“5A級”智算基礎設施通過分布式異構並行體係結構,搭載多種類型的芯片,可以覆蓋全算力精度,進而實現多樣化算力供應,滿足不同AI應用場景和多種用戶的需求。
3、綠色:采用相變式全浸沒液冷技術,實測PUE值可達1.04
除了AI應用在增加,AI模型參數、智算中心的算力體量也都在逐年上升。
尤其是大模型越來越多的現在,以GTP-3為例,相關數據顯示,如果將GPT-3的全部程序運行一遍,該模型產生的碳排放量相當於一輛汽車行駛70萬公裏,大概是從地球到月球的2倍距離。
在雙碳目標下,智算中心的節能減排形式相當嚴峻。
曙光“5A級”智算基礎設施采取多種方式降低智算中心的能耗,其中液冷技術是殺手鐧。
PUE(電能使用效率值)值是評價智算中心、數據中心碳排放的重要指標。未來,1.5數值以上的數據中心或智算中心要被逐步淘汰。
曙光通過清潔能源以及芯片、設備、平台節能等多層次技術創新,構建綠色低碳的“5A級”智算基礎設施。
並且,基於曙光創新的浸沒式相變液冷技術,智算中心的PUE值實測可達1.04到1.05。
曙光還在研究餘熱再利用等技術,希望將數據中心的PUE值降到更低。
4、普惠:優化算力成本,使綜合建設成本低於市場既有價格30%
目前智算中心的價格存在兩個特點,一個是貴,另一個是亂。
貴是因為智算中心作為新型的算力基礎設施,如果按建設成本折合成算力單價來算,算力成本是很高的。亂是因為這是一個新興市場,算力價格與智算中心所在地區等多方麵因素有關。
從長遠上看,一定要有非常普惠的算力提供給AI用戶和開發者,這樣AI產業才能持續發展,也能降低各地政府的投資建設壓力。
曙光“5A級”智算基礎設施通過多種策略,持續優化算力成本,實現綜合建設成本低於市場既有價格30%。
5、服務:采取一體化服務模式,提供建成後運營服務
目前,智算中心多數采取建、運分離的模式,運營方麵還沒有較成熟的商業模式,運營主體普遍處於模糊地帶,有可能出現運營缺乏的情況。
但是,對於要建設智算中心服務地區經濟的各地政府而言,智算中心的運營是剛需,是必須要解決的問題。
曙光“5A級”智算基礎設施采取了一體化的服務模式,實現從規劃設計、中心建設、到平台運營的完整配套服務,貫穿智算基礎設施的全生命周期。
三、可景觀級交付,曙光的智算產品化落地之路
據我們了解,曙光“5A級”智算基礎設施可以實現超高密度的快速交付和景觀級交付,景觀級交付是指與園區建設融為一體,成為城市的地標。
具體來看,超高密度方麵,曙光“5A級”智算基礎設施可以實現立體擴展,節省機房麵積達90%,降低機房環境要求和造價;快速交付方麵,曙光“5A級”智算基礎設施可以在3-6個月實現基建、機房、設備一體化快速部署。
曙光“5A級”智算基礎設施能力的構建離不開曙光在計算領域的技術沉澱、優勢積累及經驗預判。
今年7月,由曙光等中科院相關企業整合組成的中國科學院人工智能產學研創新聯盟發布了新一代人工智能計算平台,從基礎架構、建設路徑、價格模型等維度,為智能計算中心建設提供了參考依據和建設標準。
為了更好的將智算平台框架落地、產品化,曙光進行了一些嚐試。
曙光在今年9月宣布踐行“與前進者同行”理念,構建了“5A級”智算能力。
近期,曙光將智算基礎設施的“5A級”進行了再次凝練,用開放、融合、綠色、普惠、服務五項能力加速智算基礎設施建設。
結語:智算中心建設還在初期階段
曙光是國內核心基礎設施領域的頭部玩家,在計算、智算領域進行了諸多實踐,提出更高層次的智算中心建設理念。
曙光認為智算中心的建設還處於比較初期的階段,要從開放、融合、綠色、普惠、服務五個方麵進行智算基礎設施的建設,提高智算中心的運營效益。
隨著AI產業和產業AI的不斷發展,智算基礎設施的建設熱度持續升高。
相比於傳統數據中心,智算中心對於當地產業經濟的發展可能會帶來更明顯的作用,如何建好、管好、用好智算中心是一個持續迭代更新的命題。(作者楊暢)