10月15日-17日,一年一度的開放計算全球峰會(OCP Global Summit)在美國加州圣何塞(San Jose)召開,本次峰會以“從創新到影響力(From Ideas to Impact")”為主題盛大開幕,吸引全球7000多位基礎設施軟硬件技術和應用領域的專業人士參會。作為全球最具影響力的的基礎設施和開放計算領域標志性盛會,特別是在今年OCP基金會重磅宣布其人工智能開放系統戰略計劃后,2024 OCP全球峰會上專門設置人工智能特別關注議程(Special Focus Tracks),重點推動AI基礎設施領域的技術生態建設。
阿里云服務器研發資深總監文芳志受邀和UAlink聯盟主席Kurtis Bowman聯合發表了題為《UAlink: Pioneering the AI Accelerator Revolution》的演講,重點闡述了AI服務器Scale UP互連技術領域的發展趨勢,UAlink標準的路線圖,UAlink聯盟和Alink System產業生態未來的合作潛力,以及阿里云磐久 AI Infra 2.0服務器的落地實踐思路。
行業領先的AI芯片、服務器和CSP廠商聯合發起的UAlink協議,將是一項徹底改變AI服務器Scale UP互連技術生態系統的行業新標準。相比較超級以太網聯盟 (UEC) 的協議標準專注于Scale out擴展能力,UAlink協議憑借高性能內存語義訪問的原生支持、顯存共享,支持Switch組網模式,以及超高帶寬、超低時延能力等性能優勢,正在迅速構建起一個AI服務器Scale UP互連技術的超級開放生態。按照計劃,UAlink聯盟將于10月底正式成立并開始吸納成員加入,并在年底對外發布第一版UAlink spec。
UAlink標準作為目前最具潛力的AI服務器Scale UP互連開放標準,如何在業界特別是在中國市場落地實踐是一個巨大挑戰,Alink System(ALS)產業生態應運而生。ALS提供具備性能競爭力和統一標準的互連系統,包括ALS-D數據面和ALS-M管控面兩個主要組成部分,為AI訓推場景提供豐富的能力和特性支持。
ALS-D將支持UAlink國際標準,形成極具性能競爭力的數據面方案。當前以推理和訓練場景為主的AI應用,在Scale Up網絡上具有并行切分算法、大顯存共享、GPU超多核內存語義編程等多種顯著特點。ALS-D數據面互連采用UAlink協議,除了原生支持高性能內存語義訪問、顯存共享,支持Switch組網模式,性能上具備超高帶寬、超低時延能力外,還增加定義了在網計算等特性。
ALS-M可以為不同芯片方案提供標準化的接入方案,符合規范的設備均可靈活接入應用方系統。無論是對開放生態還是廠商專有互連協議,ALS使用統一的軟件接口。同時,ALS-M為云計算等集群管理場景,提供單租、多租等靈活和彈性的配置能力。
正是遵循Alink System的規范,阿里云自主設計了面向下一代超大規模AI集群的磐久AI Infra 2.0服務器,貫穿了開放生態、高能效、高性能和高可用的設計理念。AI Infra 2.0服務器開放性地定義了AI計算節點和Scale Up/Scale Out互連系統,可以在統一的硬件架構下支持業界主流AI方案,引領AI領域的“一云多芯”。
互連系統Alink System全面兼容國際標準UAlink生態,可以與行業伙伴開放共建超高性能、超大規模的Scale UP集群互連能力,一級互連64-80個節點,二級互連可達2000以上節點,提供了PB級共享顯存和TB級互連帶寬。
AI計算節點內集成阿里自研CIPU 3.0芯片,既能支持高帶寬大規模AI服務器實現Scale Out網絡擴展,又能兼顧云網絡彈性、安全的要求。
硬件工程方面,AI Infra 2.0服務器單機柜可以支持最大80個AI計算節點,業界密度最高;在業界率先采用400V PSU,單體供電效率可達98%,整體供電效率提高2%。在散熱設計上,機柜級液冷方案可以根據實際負載動態調整CDU冷卻能力來降低能耗,單柜冷卻系統節能30%。最后,在運維管理上,全新的CableCartridge后維護設計,支持全盲插,零理線易運維、零誤操作,維護效率提升50%。
可靠性方面,AI Infra 2.0服務器支持彈性節點、智能路由、高可靠供電、分布式CDU等技術,可以實時監控、探測各種硬件故障并自愈,硬件的故障域也縮減到節點級。
在Alink System產業生態建設上,阿里云一貫秉持開放合作的策略,推動互連技術領域的發展和繁榮。自今年9月Alink System產業生態在開放數據中心大會上正式發布以來,目前已有20多家AI芯片、互連芯片、服務器整機硬件和IP設計廠商加入,成員單位已就相關協議標準制定和實行路徑選擇展開交流。
除了積極擁抱UAlink和牽頭成立Alink System產業生態,阿里云還是OCP、CXL、UCIe和UEC等多個互連技術行業組織的創始成員或技術委員會成員,并用實際行動支持相關開放互連技術標準的制定和落地。