核心提示:當電力成為基礎設施、成為工業主要動力的時候,人類才真正走入電力時代。而今天互聯網和算力的滲透已經超過了過去所有基礎設施
當電力成為基礎設施、成為工業主要動力的時候,人類才真正走入電力時代。而今天互聯網和算力的滲透已經超過了過去所有基礎設施,但還遠遠不夠,人工智能還只是算力時代的第一個燈泡,更多我們不敢想的事情還遠未出現。
無論是AI還是物聯網,都逐漸成為生活的一部分,時代變化、技術更迭,背后不變的是雪崩般增長的數據和與之伴生的算力黑洞。
高需求背后的極限警告
AI時代的算力、算法和數據處在一種螺旋式的提升關系中,由于芯片制程和計算性能的提升,使得對算力的渴求不像以前那樣迫切,可以說過去十年AI的發展,是靠算法推動的。
隨著大數據、5G技術的發展,各式各樣的應用場景帶來AI的落地,當算法普及和數據累積達到一個新的程度時,原來的算力又不夠了,成為AI性能提升的硬指標。
算法和數據的不斷演進、交替上升,對更高算力的需求永不停歇。時至今日,算力依然成為制約AI進一步發展的關鍵因素。
人們從來沒有想到過芯片的算力會有到達極限的一天,至少從來沒有想到極限會這么快到來。
麻省理工學院的研究人員前年就曾發出算力警告:深度學習正在逼近計算極限。根據MIT的一項研究,深度學習的進展非常依賴算力的增長。
研究人員分析了預印本服務器Arxiv.org上的1058篇論文和其他基準資料,以理解深度學習性能和算力之間的聯系,主要分析了圖像分類、目標檢測、問題回答、命名實體識別和機器翻譯等領域如下兩方面的計算需求:
每一網絡遍歷的計算量,或給定深度學習模型中單次遍歷(即權值調整)所需的浮點運算數
訓練整個模型的硬件負擔,用處理器數量乘以計算速度和時間來估算
結論顯示,訓練模型的進步取決于算力的大幅提高,具體來說,計算能力提高10倍相當于3年的算法改進成果。
如同水利之于農業時代,電力之于工業時代,算力,已成為國民經濟發展的重要基礎設施。國家發展改革委高技術司解釋,算力是數字經濟的核心生產力。截至目前,我國數據中心規模已達500萬標準機架,算力達到130EFLOPS(每秒一萬三千億億次浮點運算)。隨著數字技術向經濟社會各領域全面持續滲透,全社會對算力需求仍十分迫切,預計每年仍將以20%以上的速度快速增長。
物聯網推動數據幾何級增長,人工智能和大數據技術,特別是企業級對算力的渴求,榨干了芯片企業每一絲算力,而且在算法紅利逐漸消失的現在,算力的增長就變成了貨真價實的真金白銀。
自2012年至今,AI算力需求已增長超30萬倍,以GPU為代表的AI加速芯片取代CPU,已經成為AI算力的主要提供者。GPU服務器相對CPU服務器來說是非常昂貴的,大約是美金和人民幣匯率的差距(以8卡GPU服務器為例),而且在芯片緊缺的年代,GPU到貨周期還比較長。
算力提高的背后,其實現目標所隱含的計算需求——硬件、環境和金錢等成本將變得無法承受。
由于當前粗放的使用及管理方式,大部分用戶的GPU利用率只有10%-30%,這就造成了這一寶貴資源的大量浪費,如何更好的利用和管理GPU資源就變得尤其關鍵。
算力高成本下的分配不均是影響AI產業發展的關鍵因素,下面是一些算力分配不均的典型場景:
場景一:
大多數的情況下采取的是為一個開發者分配一塊或幾塊GPU卡的方式來滿足開發調試的需求。這種情況下存在什么問題?卡和人綁定,卡分配之后,存在著較大的閑置,開發人員70%以上的時間都在讀論文、寫代碼,只有不到30%的時間在利用GPU資源進行運算調試。
場景二:
通過調查了解,絕大多數企業為了保證業務的隔離性,不受其它AI業務的干擾,保障服務的SLA,都是運行在獨立的GPU卡上。在這種情況下,GPU卡的算力和顯存使用往往不到20%,這樣造成了大量的資源浪費——近80%的算力和顯存其實是被白白消耗,而且還有與之相關的電費,運維費用。
場景三:
智能化自動駕駛汽車是人工智能技術落地的最大應用場景之一,智能化汽車很有可能成為未來萬物互聯的終端,成為繼智能手機之后,深刻改變社會形態的產品。
自動駕駛研發的每一個階段幾乎都要涉及到AI深度學習算法的參與,包括機器視覺、深度學習、增強學習、傳感器技術等均在自動駕駛領域發揮著重要的作用,自動駕駛發展的瓶頸主要在于這些人工智能底層技術上能否實現突破。
在自動駕駛領域的算力資源,往往分為車載邊端算力和數據中心算力:
車載算力目前以指數級方式快速增長,但仍不能滿足車上大量多模態AI業務的需求,所以目前關注重點仍然是算力硬件設備的優化
而數據中心端則是相較通用的AI開發、訓練和離線推理場景,為了迭代出更準確的算法,需要對每天的路測數據進行處理,讓自動駕駛模型反復訓練優化,并且進行大量驗證測試工作
大多數的AI開發涉及到從數據準備、預處理、模型訓練、調參、部署模型、線上推理、持續監控、數據收集、迭代優化的過程。在整個業務流程中,有些工作是需要大量CPU,不需要GPU資源的,在CPU運算的時候,其實GPU是閑置的。
AI 計算的下半場:軟件定義算力
正如前面闡述的,算力有多重要,就有多昂貴。巨大的算力需求,使得GPU價格一直居高不下。高昂的成本,讓更多的用戶在AI世界的大門面前望而卻步。
歷史的經驗告訴我們,一個產業的發展一般都有三個階段:
Make it work
Make it perform
Make it cheap
也就可用、好用、用得起,只有一項技術“飛入尋常百姓家”時,這項技術才能真正為全人類所用。
因此筆者認為:未來10年,算力平民化會成為AI的發展方向,也是必然趨勢。
如何實現普惠算力?正如我們前面提到的,通過軟件定義,實現算力資源池化是當下有效的辦法。
場景一的解決方案:
利用軟件定義GPU的技術,把卡和人解綁,當有任務調用GPU資源的時候才真正被占用,任務結束,資源釋放,回到資源池。
下圖是一個JupyterLab的開發場景,VSCode server/PyCharm的模式與這個類似,在實際的案例里,使用軟件定義的GPU之后,資源能縮減至25%左右!50個人的開發團隊,16張卡搞定。
場景二的解決方案:
通過軟件定義的方式,提供細顆粒度的GPU資源復用單卡,保障業務運行的隔離性,可靠性和性能。大部分采取趨動科技池化方案上線生產業務的客戶,可獲得3倍以上的提升收益。
場景三的解決方案:
打造一站式自動駕駛AI開發、訓練、運維的解決方案,提供CPU、物理GPU、OrionX vGPU、存儲等多種資源,實現界面化統一申請、調度、監控和運維,同時實現AI開發和訓練任務級別的界面化管理,提升車企或自動駕駛企業算法研發效率,兼顧算法工程師和運維工程師等不同人員對AI平臺的多樣化需求。
舉個例子:
如果把GPU比作大巴車,AI的計算任務比作旅游團。計算量最小的任務,就如同三五人的小團體;計算量大的任務自然是上百人的大型旅行團。在傳統的算力分配模式中,無論計算量大或者小,都會至少占用一個硬件單元。就像小團體出游,卻占用整個大巴車,剩余的座位都是空的。正是這種模式,浪費了大量算力,降低了GPU芯片的利用率。
我們是否可以對傳統算力分配模式顛覆。用最直觀的比喻來說,做出一款可以“隨需應變、動態伸縮”的大巴車。用戶不再使用物理AI芯片,取而代之的是隨需應變、動態伸縮的虛擬AI芯片。
數據中心也是算力池化非常合適的場景。在數據中心里,最主要是由服務器提供算力,但是因為GPU非常昂貴,一般來說,不會每臺服務器都配備GPU。如果能夠通過軟件定義AI算力可以幫助用戶讓應用跑在沒有GPU的服務器上,通過網絡使用其他服務器的GPU算力。未來網絡基礎設施會變得越來越好,如果網絡條件足夠好,大膽暢想,甚至可以幫助用戶在省、市的范圍內來調配算力。
幫助用戶根據需求來動態伸縮使用的資源。比如說,某一用戶的任務剛啟動時只需要一個甚至半個GPU,但是隨著運行的不斷推進,需要的計算量越來越大,就需要10個GPU,甚至更多。通過軟件可以根據具體需求,動態變化所使用的資源。
技術演進:GPU從虛擬化到資源池化
學術界和產業界一直在探索如何更優使用GPU資源,這些技術基本可以歸納為GPU池化發展的四個階段:
階段1,簡單虛擬化。將單物理GPU按固定比例切分成多個虛擬GPU,比如1/2或1/4,每個虛擬GPU的顯存相等,算力輪詢。最初是伴隨著服務器虛擬化的興起,解決虛擬機可以共享和使用GPU資源的問題
階段2,任意虛擬化。支持將物理GPU按照算力和顯存兩個維度靈活切分,實現自定義大小虛擬GPU(通常算力最小顆粒度1%,顯存最小顆粒度1MB),滿足AI應用差異化需求。切分后的小顆粒度虛擬GPU可以滿足虛擬機,容器的使用
階段3,遠程調用。重要技術突破在于支持GPU的跨節點調用,AI應用可以部署到數據中心的任意位置,不管所在的節點上有沒有GPU。在該階段,資源納管的范圍從單個節點擴展到由網絡互聯起來的整個數據中心,是從GPU虛擬化向GPU資源池化進化的關鍵一步
階段4,資源池化。關鍵點在于按需調用,動態伸縮,用完釋放。借助池化能力,AI應用可以根據負載需求調用任意大小的虛擬GPU,甚至可以聚合多個物理節點的GPU;在容器或虛機創建之后,仍然可以調整虛擬GPU的數量和大小;在AI應用停止的時候,立刻釋放GPU資源回到整個GPU資源池,以便于資源高效流轉,充分利用
GPU池化:站在整個數據中心的高度解決問題。OrionX AI算力資源池化軟件不同組件的功能及邏輯架構,通過各組件“各司其職”,能為用戶實現單機多租戶細粒度切分、多機資源聚合、遠程算力調用、資源池彈性伸縮等目標;同時由于OrionX支持異構算力的管理和共享,所以能站在整個數據中心的高度解決GPU利用率低、成本高、分配與管理難等問題,建立數據中心級加速資源池。
構建國家算力骨干網
2020年底,國家發展改革委、中央網信辦、工業和信息化部、國家能源局四部門聯合出臺《關于加快構建全國一體化大數據中心協同創新體系的指導意見》提出,到2025年,全國范圍內數據中心形成布局合理、綠色集約的基礎設施一體化格局。2021年5月,前述四部門正式印發《全國一體化大數據中心協同創新體系算力樞紐實施方案》(《實施方案》),明確提出布局全國算力網絡國家樞紐節點,啟動實施“東數西算”工程,構建國家算力網絡體系。
其實就像是電網和天然氣網,算力對于有些地方來說是完全不夠用的,而對于有的地方則是空有一手的「算力」卻無處使。簡單來說,興建人工智能計算中心之后會面臨三點問題:
不同區域AI算力使用存在波峰波谷,各地獨立的人工智能計算中心無法實現跨域的動態調配
全國人工智能發展不均衡,不同區域有各自優勢,各地獨立的人工智能計算中心無法實現跨區域的聯合科研和應用創新、資源互補
各地獨立的人工智能計算中心產生的AI模型、數據,難以實現全國范圍內順暢流動、交易,以產生更大的價值
算力網絡匯聚和共享算力、數據、算法資源,最終實現「一網絡,三匯聚」:
網絡:將人工智能計算中心的節點通過專線連接起來形成人工智能算力網絡
三匯聚:算力匯聚、數據匯聚、生態匯聚
算力匯聚:連接不同節點的高速網絡,實現跨節點之間的算力合理調度,資源彈性分配,從而提升各個人工智能計算中心的利用率,實現對于整體能耗的節省,后續可支持跨節點分布學習,為大模型的研究提供超級算力
數據匯聚:政府和企業共同推進人工智能領域的公共數據開放,基于人工智能計算中心匯聚高質量的開源開放的人工智能數據集,促進算法開發和行業落地
生態匯聚:采用節點互聯標準、應用接口標準,實現網絡內大模型能力開放與應用創新成果共享,強化跨區域科研和產業協作
各地算力中心就像大腦中數億個突觸,人工智能算力網絡正如神經網絡。如此看來,算力網絡的重要意義之一便是通過匯聚大數據+大算力,使能了大模型和重大科研創新,孵化新應用。進而實現算力網絡化,降低算力成本,提升計算能效。最終打造一張覆蓋全國的算力網絡,實現算力匯聚、生態匯聚、數據匯聚,進而達到各產業共融共生。
無論是AI還是物聯網,都逐漸成為生活的一部分,時代變化、技術更迭,背后不變的是雪崩般增長的數據和與之伴生的算力黑洞。
高需求背后的極限警告
AI時代的算力、算法和數據處在一種螺旋式的提升關系中,由于芯片制程和計算性能的提升,使得對算力的渴求不像以前那樣迫切,可以說過去十年AI的發展,是靠算法推動的。
隨著大數據、5G技術的發展,各式各樣的應用場景帶來AI的落地,當算法普及和數據累積達到一個新的程度時,原來的算力又不夠了,成為AI性能提升的硬指標。
算法和數據的不斷演進、交替上升,對更高算力的需求永不停歇。時至今日,算力依然成為制約AI進一步發展的關鍵因素。
人們從來沒有想到過芯片的算力會有到達極限的一天,至少從來沒有想到極限會這么快到來。
麻省理工學院的研究人員前年就曾發出算力警告:深度學習正在逼近計算極限。根據MIT的一項研究,深度學習的進展非常依賴算力的增長。
研究人員分析了預印本服務器Arxiv.org上的1058篇論文和其他基準資料,以理解深度學習性能和算力之間的聯系,主要分析了圖像分類、目標檢測、問題回答、命名實體識別和機器翻譯等領域如下兩方面的計算需求:
每一網絡遍歷的計算量,或給定深度學習模型中單次遍歷(即權值調整)所需的浮點運算數
訓練整個模型的硬件負擔,用處理器數量乘以計算速度和時間來估算
結論顯示,訓練模型的進步取決于算力的大幅提高,具體來說,計算能力提高10倍相當于3年的算法改進成果。
如同水利之于農業時代,電力之于工業時代,算力,已成為國民經濟發展的重要基礎設施。國家發展改革委高技術司解釋,算力是數字經濟的核心生產力。截至目前,我國數據中心規模已達500萬標準機架,算力達到130EFLOPS(每秒一萬三千億億次浮點運算)。隨著數字技術向經濟社會各領域全面持續滲透,全社會對算力需求仍十分迫切,預計每年仍將以20%以上的速度快速增長。
物聯網推動數據幾何級增長,人工智能和大數據技術,特別是企業級對算力的渴求,榨干了芯片企業每一絲算力,而且在算法紅利逐漸消失的現在,算力的增長就變成了貨真價實的真金白銀。
自2012年至今,AI算力需求已增長超30萬倍,以GPU為代表的AI加速芯片取代CPU,已經成為AI算力的主要提供者。GPU服務器相對CPU服務器來說是非常昂貴的,大約是美金和人民幣匯率的差距(以8卡GPU服務器為例),而且在芯片緊缺的年代,GPU到貨周期還比較長。
算力提高的背后,其實現目標所隱含的計算需求——硬件、環境和金錢等成本將變得無法承受。
由于當前粗放的使用及管理方式,大部分用戶的GPU利用率只有10%-30%,這就造成了這一寶貴資源的大量浪費,如何更好的利用和管理GPU資源就變得尤其關鍵。
算力分配失衡影響產業發展
算力高成本下的分配不均是影響AI產業發展的關鍵因素,下面是一些算力分配不均的典型場景:
場景一:
大多數的情況下采取的是為一個開發者分配一塊或幾塊GPU卡的方式來滿足開發調試的需求。這種情況下存在什么問題?卡和人綁定,卡分配之后,存在著較大的閑置,開發人員70%以上的時間都在讀論文、寫代碼,只有不到30%的時間在利用GPU資源進行運算調試。
場景二:
通過調查了解,絕大多數企業為了保證業務的隔離性,不受其它AI業務的干擾,保障服務的SLA,都是運行在獨立的GPU卡上。在這種情況下,GPU卡的算力和顯存使用往往不到20%,這樣造成了大量的資源浪費——近80%的算力和顯存其實是被白白消耗,而且還有與之相關的電費,運維費用。
場景三:
智能化自動駕駛汽車是人工智能技術落地的最大應用場景之一,智能化汽車很有可能成為未來萬物互聯的終端,成為繼智能手機之后,深刻改變社會形態的產品。
自動駕駛研發的每一個階段幾乎都要涉及到AI深度學習算法的參與,包括機器視覺、深度學習、增強學習、傳感器技術等均在自動駕駛領域發揮著重要的作用,自動駕駛發展的瓶頸主要在于這些人工智能底層技術上能否實現突破。
自動駕駛技術與AI流程圖
在自動駕駛領域的算力資源,往往分為車載邊端算力和數據中心算力:
車載算力目前以指數級方式快速增長,但仍不能滿足車上大量多模態AI業務的需求,所以目前關注重點仍然是算力硬件設備的優化
而數據中心端則是相較通用的AI開發、訓練和離線推理場景,為了迭代出更準確的算法,需要對每天的路測數據進行處理,讓自動駕駛模型反復訓練優化,并且進行大量驗證測試工作
大多數的AI開發涉及到從數據準備、預處理、模型訓練、調參、部署模型、線上推理、持續監控、數據收集、迭代優化的過程。在整個業務流程中,有些工作是需要大量CPU,不需要GPU資源的,在CPU運算的時候,其實GPU是閑置的。
AI 計算的下半場:軟件定義算力
正如前面闡述的,算力有多重要,就有多昂貴。巨大的算力需求,使得GPU價格一直居高不下。高昂的成本,讓更多的用戶在AI世界的大門面前望而卻步。
歷史的經驗告訴我們,一個產業的發展一般都有三個階段:
Make it work
Make it perform
Make it cheap
也就可用、好用、用得起,只有一項技術“飛入尋常百姓家”時,這項技術才能真正為全人類所用。
因此筆者認為:未來10年,算力平民化會成為AI的發展方向,也是必然趨勢。
如何實現普惠算力?正如我們前面提到的,通過軟件定義,實現算力資源池化是當下有效的辦法。
場景一的解決方案:
利用軟件定義GPU的技術,把卡和人解綁,當有任務調用GPU資源的時候才真正被占用,任務結束,資源釋放,回到資源池。
下圖是一個JupyterLab的開發場景,VSCode server/PyCharm的模式與這個類似,在實際的案例里,使用軟件定義的GPU之后,資源能縮減至25%左右!50個人的開發團隊,16張卡搞定。
場景二的解決方案:
通過軟件定義的方式,提供細顆粒度的GPU資源復用單卡,保障業務運行的隔離性,可靠性和性能。大部分采取趨動科技池化方案上線生產業務的客戶,可獲得3倍以上的提升收益。
場景三的解決方案:
打造一站式自動駕駛AI開發、訓練、運維的解決方案,提供CPU、物理GPU、OrionX vGPU、存儲等多種資源,實現界面化統一申請、調度、監控和運維,同時實現AI開發和訓練任務級別的界面化管理,提升車企或自動駕駛企業算法研發效率,兼顧算法工程師和運維工程師等不同人員對AI平臺的多樣化需求。
舉個例子:
如果把GPU比作大巴車,AI的計算任務比作旅游團。計算量最小的任務,就如同三五人的小團體;計算量大的任務自然是上百人的大型旅行團。在傳統的算力分配模式中,無論計算量大或者小,都會至少占用一個硬件單元。就像小團體出游,卻占用整個大巴車,剩余的座位都是空的。正是這種模式,浪費了大量算力,降低了GPU芯片的利用率。
我們是否可以對傳統算力分配模式顛覆。用最直觀的比喻來說,做出一款可以“隨需應變、動態伸縮”的大巴車。用戶不再使用物理AI芯片,取而代之的是隨需應變、動態伸縮的虛擬AI芯片。
數據中心也是算力池化非常合適的場景。在數據中心里,最主要是由服務器提供算力,但是因為GPU非常昂貴,一般來說,不會每臺服務器都配備GPU。如果能夠通過軟件定義AI算力可以幫助用戶讓應用跑在沒有GPU的服務器上,通過網絡使用其他服務器的GPU算力。未來網絡基礎設施會變得越來越好,如果網絡條件足夠好,大膽暢想,甚至可以幫助用戶在省、市的范圍內來調配算力。
幫助用戶根據需求來動態伸縮使用的資源。比如說,某一用戶的任務剛啟動時只需要一個甚至半個GPU,但是隨著運行的不斷推進,需要的計算量越來越大,就需要10個GPU,甚至更多。通過軟件可以根據具體需求,動態變化所使用的資源。
技術演進:GPU從虛擬化到資源池化
學術界和產業界一直在探索如何更優使用GPU資源,這些技術基本可以歸納為GPU池化發展的四個階段:
階段1,簡單虛擬化。將單物理GPU按固定比例切分成多個虛擬GPU,比如1/2或1/4,每個虛擬GPU的顯存相等,算力輪詢。最初是伴隨著服務器虛擬化的興起,解決虛擬機可以共享和使用GPU資源的問題
階段2,任意虛擬化。支持將物理GPU按照算力和顯存兩個維度靈活切分,實現自定義大小虛擬GPU(通常算力最小顆粒度1%,顯存最小顆粒度1MB),滿足AI應用差異化需求。切分后的小顆粒度虛擬GPU可以滿足虛擬機,容器的使用
階段3,遠程調用。重要技術突破在于支持GPU的跨節點調用,AI應用可以部署到數據中心的任意位置,不管所在的節點上有沒有GPU。在該階段,資源納管的范圍從單個節點擴展到由網絡互聯起來的整個數據中心,是從GPU虛擬化向GPU資源池化進化的關鍵一步
階段4,資源池化。關鍵點在于按需調用,動態伸縮,用完釋放。借助池化能力,AI應用可以根據負載需求調用任意大小的虛擬GPU,甚至可以聚合多個物理節點的GPU;在容器或虛機創建之后,仍然可以調整虛擬GPU的數量和大小;在AI應用停止的時候,立刻釋放GPU資源回到整個GPU資源池,以便于資源高效流轉,充分利用
GPU池化發展的四個階段
GPU池化:站在整個數據中心的高度解決問題。OrionX AI算力資源池化軟件不同組件的功能及邏輯架構,通過各組件“各司其職”,能為用戶實現單機多租戶細粒度切分、多機資源聚合、遠程算力調用、資源池彈性伸縮等目標;同時由于OrionX支持異構算力的管理和共享,所以能站在整個數據中心的高度解決GPU利用率低、成本高、分配與管理難等問題,建立數據中心級加速資源池。
OrionX基于API Forwarding的基本原理和邏輯架構
注:(本節內容選自趨動科技CEO Talk:GPU池化技術的演進與發展趨勢)
注:(本節內容選自趨動科技CEO Talk:GPU池化技術的演進與發展趨勢)
構建國家算力骨干網
2020年底,國家發展改革委、中央網信辦、工業和信息化部、國家能源局四部門聯合出臺《關于加快構建全國一體化大數據中心協同創新體系的指導意見》提出,到2025年,全國范圍內數據中心形成布局合理、綠色集約的基礎設施一體化格局。2021年5月,前述四部門正式印發《全國一體化大數據中心協同創新體系算力樞紐實施方案》(《實施方案》),明確提出布局全國算力網絡國家樞紐節點,啟動實施“東數西算”工程,構建國家算力網絡體系。
其實就像是電網和天然氣網,算力對于有些地方來說是完全不夠用的,而對于有的地方則是空有一手的「算力」卻無處使。簡單來說,興建人工智能計算中心之后會面臨三點問題:
不同區域AI算力使用存在波峰波谷,各地獨立的人工智能計算中心無法實現跨域的動態調配
全國人工智能發展不均衡,不同區域有各自優勢,各地獨立的人工智能計算中心無法實現跨區域的聯合科研和應用創新、資源互補
各地獨立的人工智能計算中心產生的AI模型、數據,難以實現全國范圍內順暢流動、交易,以產生更大的價值
算力網絡匯聚和共享算力、數據、算法資源,最終實現「一網絡,三匯聚」:
網絡:將人工智能計算中心的節點通過專線連接起來形成人工智能算力網絡
三匯聚:算力匯聚、數據匯聚、生態匯聚
算力匯聚:連接不同節點的高速網絡,實現跨節點之間的算力合理調度,資源彈性分配,從而提升各個人工智能計算中心的利用率,實現對于整體能耗的節省,后續可支持跨節點分布學習,為大模型的研究提供超級算力
數據匯聚:政府和企業共同推進人工智能領域的公共數據開放,基于人工智能計算中心匯聚高質量的開源開放的人工智能數據集,促進算法開發和行業落地
生態匯聚:采用節點互聯標準、應用接口標準,實現網絡內大模型能力開放與應用創新成果共享,強化跨區域科研和產業協作
各地算力中心就像大腦中數億個突觸,人工智能算力網絡正如神經網絡。如此看來,算力網絡的重要意義之一便是通過匯聚大數據+大算力,使能了大模型和重大科研創新,孵化新應用。進而實現算力網絡化,降低算力成本,提升計算能效。最終打造一張覆蓋全國的算力網絡,實現算力匯聚、生態匯聚、數據匯聚,進而達到各產業共融共生。