高文:中國算力網的需求與挑戰
中國算力網的需求與挑戰
(摘自高文在北京論壇開幕式上的演講實錄)
高文
意昂3体育官网信息與工程科學部主任
鵬城實驗室主任、中國工程院院士
今天我想跟大家介紹的,是名叫“中國算力網”的項目。“中國算力網”有三個重要部分,一是算力節點,二是網絡連接,三是資源調度。
算力應該是我們整個時代發展中非常重要的一個支撐要素,無論是人工智能還是互聯網的發展,都離不開算力。從整個經濟的發展來看,算力和GDP正相關。研究表明,GDP越大,算力指數越高,反之亦然。現在全球GDP最高的是美國,其算力指數也是最高,中國GDP是美國的70%左右,算力指數剛好比美國低了30%,經濟排名第三的日本算力指數也是世界第三。
這幾年,中國經濟發展速度非常快,算力發展的速度也在攀升,我們可以清晰地看到中國算力指數在所有國家中增長最快,平均年增長在13%左右。那麽,既然算力這麽重要,為了未來經濟科學和綠色地發展,我們需要考慮今後的算力怎麽布局?安放在哪裏?怎麽使用?未來算力能否像今天的電力一樣,不管放在哪裏,想用的時候插上就能用?
我們的設想是,希望在中國建立一張網,“這張網”可以把中國算力連接起來,任何人、任何企業、任何大學想使用算力時,可以將“接口”插到一個插座上面,這個插座就能把算力送到你的桌面。
在算力的布局方面,我們希望算力的計算放在西部,這需要解決很多問題,例如算力如何分裝,如何滿足設施要求,如何讓帶寬不受限製,這些都是我們必須回答的問題。
為此我們提出了“中國算力網”的概念——希望像建設電網一樣建立“算力網”,像運營互聯網一樣運營“算力網”,讓用戶像用電一樣方便地使用算力,這是我們設定這個項目的發展願景。而做到這一點需要面臨很多挑戰,包括算力的供給,越是在大城市,大學和企業越需要更多的算力。最近,工信部發布了《算力基礎設施高質量發展行動計劃》,提出了2025年發展量化指標,到2025年中國算力規模超過300EFLOPS,一個E就是10的18次方。這裏面的算力分三種,分為超算算力(超級計算機)、智能算力、雲算力,三種算力加在一起規模超過300EFLOPS,其中和AI有關的算力占到1/3,約為105EFLOPS。
第二個需要考慮的問題,就是如何把算力連接起來,讓它延遲最短。很多雲計算的算力中心、雲中心和用戶之間的距離不會超過200公裏,否則會導致實時響應不夠。如果要落實“東數西算”,把算力中心放在成都、重慶、青海,相互間相隔兩三千公裏以上的距離,我們需要超低延遲和超寬帶鏈接來保證傳輸的效率。當前,算力正在被不同的運營商、不同的互聯網廠商管理著,難以做到統一調度。因此亟需構建一個全新的調度網絡,像通過電網調度電力一樣,將算力調度到需要的地方。
鵬城實驗室正在牽頭做“中國算力網”,我們主要落實三件比較大的工作:
第一,建立超級算力節點,“超級算力”的概念大概是中國所需要的算力的1/6。
第二,建立比現在市場上連接速度更快的網絡連接,達到差不多100T到P級的連接,即10的15次方,目前這是現有技術無法實現的目標,我們正在研發該項技術,通過使用不同光纖,沖刺比現有任何速度快100倍的速度,甚至更快。
第三,做好算力調度,建立雲原生網絡的調度系統。我們在深圳建立智能超算平臺,“鵬城雲腦Ⅱ”智能算力平臺大概有1000P的算力,目前正在研發的下一代鵬城雲腦,預計能達到16,000P的算力,這個數字正好是2025年中國需要的智能算力的1/6。“鵬城雲腦Ⅱ”AI性能是全世界超級計算機裏面最好的,在全球IO500總榜單已經連續6次排名第一名,在AIPerf500連續3年排第一。這臺機器做出來後,我們支持了很多國內企業做大模型的計算,包括華為、百度等,他們很多大模型都是在我們的機器上進行訓練。除了提供給國內的合作夥伴外,我們實驗室還訓練了一批AI模型,這些模型大部分與意昂3体育官网、清華大學等高校合作,包括了自然語言模型、計算機視覺模型、生物醫學模型等。
最近,我們剛剛完成了一項工作,訓練了“鵬城·腦海”大模型,這個模型有200B的規模,2000億參數。鵬城實驗室通過開源的方式在做“鵬城·腦海”,最後都將變成Open Source模型,我們把上面可能需要的一些工具做完後,將開源開放,供大家使用。
目前“鵬城雲腦Ⅱ”上運行的200B的AI大模型,訓練一次需要幾個月的時間。為了讓效率更高,我們正在研發下一個版本、擁有16,000p算力的機器,叫做下一代鵬城雲腦,做出來之後將比現在的機器算力提高20倍。原本訓練AI大模型需要200天,現在10天就能訓練結束,這臺機器將會是算力節點。
還有幾個問題我們也在思考。關於光網絡,希望把所有的算力節點和樞紐用的光網絡連接起來。設計光網絡,要特別考慮在遠距離時,實現不低於100T的帶寬。設計光網絡有很多科學問題,既涉及到光,也涉及到通信,包括傳輸、交換、管控、光纖等等,我們設置了多芯光纖,一束光纖可以有若幹根“芯”,至少4根,也可能19根,使用的技術是SDM技術,它能使通信的速度呈19倍增長。由於光纖的成本增加很少,可以使用新的技術實現長距離、大帶寬的通信連接,目前我們已經完成了200T、2000公裏的光通信實驗。而網絡運營商現在提供的光纖網絡,單根光纖100G或者400G,一根纖上面一個波,一根線上可以用很多波,現在4根纖對應同一類設備成本大大降低,將使得整個傳輸系統更高效。
關於調度,不同的算力資源如何組合起來,讓用戶需要的時候直接拿到算力,這個需要實現跨地域異構算力。各類算力本身用的芯片系統不一樣,如何跨地域使用,存在比較難的封裝問題,不同類型的算力封裝方式不一樣,就如不同的發電廠和源不一樣,需要我們盡量去規範。算力原來是什麽不要緊,如果要入網重新封裝後加入成網並最終讓大家看到一樣的東西,第一步就要做好異構算力跨域調度的工作,這方面還是有很大的挑戰;第二步是統一提交同步做;第三步是跨中心異構做;第四步是把不同的算力源整合進來。
“中國算力網”所有的理念和以往的雲計算不一樣,我們引入了雲原生網絡,所有底層都采用同樣邏輯、一套體系,第一步在上面建立邏輯調度,對現有的網絡做重新梳理更換、提升。現在有很多案例,通過雲原生網絡可以把所有的數據變成源數據,通過源數據進行調度,通過調度可以就近選擇算力源。第二步做到“數”隨“算”走,第三步“算”隨“數”走,算力網要考慮數據的存在。
2019年我們開始做“中國算力網”的0.1版本,在國家發改委、科技部的支持下,用了不到3年時間,做了“中國算力網”第一期,把全國不同區域幾個算力中心整合到一起,通過調度打通,實現不同算力的分配和使用。“中國算力網”的1.0版,可以實現分布式協調訓練。
下一步,鵬城實驗室在推進“中國算力網”建設的過程中,將通盤考慮所有方面,為中國綠色發展、高效經濟發展、智能發展、數字發展提供技術支撐和支持。我們希望“中國算力網”這件事不僅僅在中國能做,還期待未來開展更廣泛的國際合作。