導(dǎo)航菜單

IBM14nm模擬AI芯片效率達(dá)14倍,GPU領(lǐng)域競(jìng)爭(zhēng)格局如何?

導(dǎo)讀 當(dāng)下的AI賽場(chǎng)上,英偉達(dá)無(wú)疑是最閃耀的一顆明星。英偉達(dá)在生產(chǎn)能夠執(zhí)行復(fù)雜AI任務(wù)的芯片方面,建立了幾乎無(wú)法撼動(dòng)的領(lǐng)先地位。超異構(gòu)計(jì)算,確實(shí)為國(guó)產(chǎn)芯片的“算力之困”撕

在當(dāng)前的AI舞臺(tái)上,英偉達(dá)無(wú)疑是最閃亮的明星。

十多年來(lái),英偉達(dá)在生產(chǎn)能夠執(zhí)行圖像、面部和語(yǔ)音識(shí)別等復(fù)雜人工智能任務(wù)的芯片方面幾乎建立了無(wú)可爭(zhēng)議的領(lǐng)先地位。

然而,一切總是會(huì)改變的。

近期,隨著谷歌、IBM等巨頭開(kāi)始在芯片上聯(lián)手,GPU領(lǐng)域的競(jìng)爭(zhēng)格局開(kāi)始發(fā)生一些微妙的變化。

近日,IBM推出了全新14nm模擬AI芯片,其效率比領(lǐng)先的GPU高14倍。

其最大的亮點(diǎn)是利用生物大腦中運(yùn)行的神經(jīng)網(wǎng)絡(luò)的關(guān)鍵特征來(lái)降低能耗。 從而最大限度地減少人們花在計(jì)算上的時(shí)間和精力。

同樣,科技巨頭谷歌也在8月底的Google Cloud Next 2023大會(huì)上發(fā)布了全新的AI芯片CloudTPUv5e,該芯片專為大型模型訓(xùn)練和推理而設(shè)計(jì)。

具體來(lái)說(shuō),CloudTPUv5e允許多達(dá)256個(gè)芯片互連,聚合帶寬超過(guò)400Tb/s,INT8性能達(dá)到100petaOps。

根據(jù)速度基準(zhǔn),在 CloudTPUv5e 上訓(xùn)練和運(yùn)行 AI 模型的速度提高了 5 倍。

可見(jiàn),各大巨頭并不甘心在算力問(wèn)題上永遠(yuǎn)被NVIDIA“卡住”,紛紛開(kāi)始紛紛推出自己的芯片,對(duì)NVIDIA的GPU霸權(quán)發(fā)起“圍攻”。

那么,面對(duì)英偉達(dá)的無(wú)底護(hù)城河,這樣的挑戰(zhàn)前景如何呢?

“霸主”的先見(jiàn)之明

英偉達(dá)還能繼續(xù)統(tǒng)治多久?

從某種程度上來(lái)說(shuō),決定這件事的不僅僅是英偉達(dá)自身的創(chuàng)新能力,還有技術(shù)發(fā)展的內(nèi)在規(guī)律。

摩爾定律作為計(jì)算機(jī)行業(yè)的黃金法則,一直指導(dǎo)著芯片的發(fā)展。

然而,隨著芯片技術(shù)升級(jí)速度放緩,圍繞這一法律的爭(zhēng)議也在擴(kuò)大。

所謂摩爾定律意味著集成電路上可容納的晶體管數(shù)量大約每18至24個(gè)月就會(huì)增加一倍。

然而,隨著芯片技術(shù)的不斷發(fā)展,摩爾定律正逐漸遇到瓶頸。

中投咨詢?cè)嘎?,由于芯片尺寸、光刻技術(shù)、隧道效應(yīng)、功耗及散熱、供電能力等問(wèn)題的物理限制,從5nm到3nm再到2nm的間隔已經(jīng)超過(guò)2年。

面對(duì)這種情況,就連以“劍術(shù)精湛”著稱的黃仁勛也無(wú)可奈何地宣稱“摩爾定律已死”,物價(jià)上漲已經(jīng)超出了他的控制范圍!

去年發(fā)布的AD102(RTX4090)芯片尺寸為608mm,僅比628mm的GA102(RTX3090Ti)略小。

按照這個(gè)技術(shù)路徑,傳統(tǒng)GPU的天花板似乎越來(lái)越近了。

正因?yàn)槿绱耍骷揖揞^在解決算力問(wèn)題的同時(shí),也在積極“另辟蹊徑”,尋找不同于傳統(tǒng)路線的解決方案。

前面提到的模仿人腦神經(jīng)結(jié)構(gòu)的IBM類腦芯片就是這樣的嘗試之一。

然而,面對(duì)傳統(tǒng)芯片的瓶頸,業(yè)界有很多不同的解決方案,比如量子芯片、光子芯片、類腦芯片等。 然而,正如GPU取代CPU成為當(dāng)今AI計(jì)算的主力一樣,技術(shù)路徑也有很多。 博弈中往往會(huì)出現(xiàn)一條“最優(yōu)”路徑,最終獲??勝,成為新時(shí)代通用的芯片范式。

這樣的“最優(yōu)”路徑應(yīng)該是兼顧技術(shù)成熟度、通用性和市場(chǎng)需求的解決方案。

從目前情況來(lái)看,量子芯片、光子芯片、類腦芯片仍處于研發(fā)階段,其技術(shù)成熟度還有待實(shí)踐檢驗(yàn)。

此外,量子芯片、光子芯片、類腦芯片等都是針對(duì)特定計(jì)算問(wèn)題而設(shè)計(jì)的,在通用性和兼容性方面往往存在一定的不足。

例如,量子芯片適合解決一些經(jīng)典計(jì)算機(jī)難以解決的重要問(wèn)題。 光子芯片適合解決一些高速數(shù)據(jù)處理和傳輸問(wèn)題,如光通信、光互連、光計(jì)算等。

綜合比較,目前最有可能勝出的方案是多芯片模塊組合的超異構(gòu)計(jì)算。

新曲目

什么是超異構(gòu)計(jì)算?

簡(jiǎn)單來(lái)說(shuō),它就像一個(gè)拼圖游戲,不同的芯片模塊(如CPU、GPU、FPGA等)按照不同的規(guī)則和目標(biāo)拼接在一起,形成不同的計(jì)算解決方案。 處理不同類型的數(shù)據(jù)和工作負(fù)載的技術(shù)。

超異構(gòu)計(jì)算的目的是優(yōu)化計(jì)算,即在性能、功耗、延遲等方面達(dá)到最佳平衡。

CPU同構(gòu)計(jì)算階段,100%的工作由CPU完成;

但在GPU異構(gòu)階段,80%的工作由GPU完成,CPU只完成剩下的20%的工作;

在超異構(gòu)計(jì)算階段,80%的工作由各種效率更高的DSA完成,而GPU只完成剩余20%工作的80%,即16%的工作,而剩下的4%交給CPU。

這里的DSA是針對(duì)特定領(lǐng)域和場(chǎng)景的計(jì)算單元,可以實(shí)現(xiàn)高效的數(shù)據(jù)處理和算法加速。 例如,神經(jīng)網(wǎng)絡(luò)處理器(NPU)、圖形處理單元(GPU)、數(shù)字信號(hào)處理器(DSP)、視覺(jué)處理器(VPU)、安全處理器(SPU)等。

這些專用芯片比傳統(tǒng) GPU 更快、更節(jié)能、更小且更靈活。

但同時(shí),高度專業(yè)化的DSA并不適合其他任務(wù)。 因此,還需要一些GPU和CPU來(lái)輔助和協(xié)調(diào)這些芯片,完成剩下的計(jì)算工作。

這樣,通過(guò)“專人專人”的分工和匹配,芯片可以實(shí)現(xiàn)計(jì)算的優(yōu)化,即在性能、功耗、延遲等方面達(dá)到最佳平衡。

當(dāng)面對(duì)AI大模型、自動(dòng)駕駛、元宇宙等新興領(lǐng)域和應(yīng)用場(chǎng)景時(shí),AI要做的事情越來(lái)越多,難度也越來(lái)越大,傳統(tǒng)同質(zhì)芯片已經(jīng)跟不上步伐人工智能。 為AI提供足夠的計(jì)算能力和速度是很困難的。

超異構(gòu)計(jì)算可以提供更高的靈活性和可擴(kuò)展性,可以根據(jù)不同的數(shù)據(jù)和工作負(fù)載動(dòng)態(tài)分配和調(diào)度計(jì)算資源,實(shí)現(xiàn)自適應(yīng)和智能計(jì)算。

具體來(lái)說(shuō),超異構(gòu)計(jì)算可以分為靜態(tài)超異構(gòu)計(jì)算和動(dòng)態(tài)超異構(gòu)計(jì)算兩種模式。

靜態(tài)超異構(gòu)計(jì)算是指在設(shè)計(jì)階段就確定各個(gè)處理器之間的分工和協(xié)作,適合一些穩(wěn)定且可預(yù)測(cè)的場(chǎng)景,例如視頻編解碼、圖像處理等;

動(dòng)態(tài)超異構(gòu)計(jì)算是指在運(yùn)行時(shí)根據(jù)實(shí)時(shí)數(shù)據(jù)和工作負(fù)載動(dòng)態(tài)選擇和調(diào)度最合適的處理器。 適合一些比較變化的場(chǎng)景,比如云計(jì)算、邊緣計(jì)算、物聯(lián)網(wǎng)等;

通過(guò)這種“動(dòng)靜結(jié)合”的方式,超異構(gòu)計(jì)算可以靈活調(diào)整負(fù)載,實(shí)現(xiàn)高效的算力調(diào)度。

此外,在成本方面,超級(jí)異構(gòu)計(jì)算也是降低大算力芯片成本的有效解決方案。

隨著傳統(tǒng)GPU芯片尺寸不斷縮小,人們需要更多的研發(fā)投入和更精密的制造設(shè)備,從而導(dǎo)致成本不斷上升。

知名半導(dǎo)體研究機(jī)構(gòu)Semiengingeering計(jì)算了不同工藝下芯片的成本。 其中,7nm節(jié)點(diǎn)的成本達(dá)到了2.97億美元;

然而,超異構(gòu)計(jì)算憑借多芯片之間的靈活分工和協(xié)作,巧妙地解決了這個(gè)問(wèn)題。

用一個(gè)形象的比喻來(lái)說(shuō),傳統(tǒng)的GPU芯片就像一輛跑車。 如果想讓它跑得更快,就需要不斷改進(jìn)發(fā)動(dòng)機(jī)、輪胎、剎車等部件,這樣制造成本就會(huì)成倍增加。

超異構(gòu)計(jì)算就像一輛多功能汽車。 它可以根據(jù)不同的路況和需求切換不同的駕駛模式,例如越野、運(yùn)輸、載客等,這樣就不需要盲目地改進(jìn)發(fā)動(dòng)機(jī)(縮小芯片尺寸)來(lái)提高性能。

彎道超車

正是因?yàn)檫@樣的優(yōu)勢(shì),超異構(gòu)計(jì)算不僅突破了傳統(tǒng)GPU的瓶頸,也為國(guó)產(chǎn)大功率芯片提供了“彎道超車”的歷史機(jī)遇。

目前來(lái)看,在超異構(gòu)計(jì)算的賽道上,NVIDIA等巨頭的布局也非常積極和全面。 他們推出了Hopper超級(jí)芯片,與GraceCPU和BluefieldDPU集成,形成完整的超異構(gòu)系統(tǒng)。

但國(guó)內(nèi)廠商也開(kāi)始朝這個(gè)方向努力。 例如,華為推出了鯤鵬920處理器,這是一款基于ARM架構(gòu)的高性能CPU,可與華為自研的升騰AI芯片、昆侖AI芯片搭配使用。 實(shí)現(xiàn)異構(gòu)協(xié)作,支持云、邊、端等多種場(chǎng)景。

還有一些國(guó)內(nèi)廠商也在研發(fā)自己的超異構(gòu)芯片。 例如,紫光展銳推出虎賁T7520處理器,這是一款集成了CPU、GPU、NPU、ISP等多個(gè)計(jì)算單元的超異構(gòu)芯片。 專為5G終端設(shè)計(jì)。

總體而言,超異構(gòu)計(jì)算能否為國(guó)產(chǎn)芯片廠商提供彎道超車的機(jī)會(huì)主要取決于以下因素:

·國(guó)內(nèi)芯片廠商在CPU、GPU、DPU、FPGA等不同類型計(jì)算單元上的技術(shù)水平和競(jìng)爭(zhēng)力,以及它們之間的協(xié)作和優(yōu)化能力。

·國(guó)內(nèi)芯片廠商在高速互連和先進(jìn)封裝(如2.5D和3D堆疊技術(shù))方面的創(chuàng)新能力和成本控制能力,以及與不同工藝節(jié)點(diǎn)和架構(gòu)的兼容性和擴(kuò)展性。

·國(guó)內(nèi)芯片廠商在統(tǒng)一軟件平臺(tái)上的開(kāi)發(fā)能力和生態(tài)建設(shè)能力,如支持多種異構(gòu)設(shè)備的編程框架和管理平臺(tái),以及適應(yīng)不同場(chǎng)景和應(yīng)用的能力。

在這三個(gè)方面,目前國(guó)內(nèi)企業(yè)雖然取得了一些探索和進(jìn)步,但總體而言,仍然面臨著相當(dāng)大的挑戰(zhàn)。

例如,我國(guó)各類計(jì)算單元的技術(shù)水平還存在一定的短板。 例如,華為鯤鵬920處理器雖然在性能上有所提升,但在兼容性和生態(tài)方面仍然存在不足。

在高速互連和先進(jìn)封裝方面,國(guó)內(nèi)芯片廠商尚未完全掌握2.5D、3D堆疊等關(guān)鍵技術(shù),仍依賴國(guó)外供應(yīng)商。

目前國(guó)內(nèi)廠商最大的突破和最具潛力的方向是軟件平臺(tái)的開(kāi)發(fā)能力。

因?yàn)槌?jí)異構(gòu)計(jì)算的硬件多樣性和復(fù)雜性給開(kāi)發(fā)者帶來(lái)了巨大的挑戰(zhàn)。

如果有一個(gè)統(tǒng)一的軟件平臺(tái),能夠屏蔽底層細(xì)節(jié),提供高效的編譯、調(diào)度、優(yōu)化等功能,就可以大大減輕開(kāi)發(fā)者的負(fù)擔(dān),提高超異構(gòu)計(jì)算的可用性和普及度。

現(xiàn)階段阿里云異構(gòu)計(jì)算產(chǎn)品家族,包括GPU云服務(wù)器、FPGA云服務(wù)器、彈性加速計(jì)算實(shí)例EAIS等,提供了一系列異構(gòu)計(jì)算服務(wù)和解決方案。

華為Atlas異構(gòu)計(jì)算平臺(tái)基于自研升騰AI處理器,還提供從芯片到云服務(wù)的全棧異構(gòu)計(jì)算解決方案。

綜合考慮上述因素以及英偉達(dá)自身研發(fā)能力的“動(dòng)態(tài)變量”,未來(lái)芯片市場(chǎng)的競(jìng)爭(zhēng)格局將大致呈現(xiàn)以下情況:

未來(lái)五年,國(guó)內(nèi)芯片廠商在超異構(gòu)計(jì)算方面的競(jìng)爭(zhēng)水平將得到一定程度的提升,并能在解決部分算力的“卡脖子”問(wèn)題上取得突破,但無(wú)法徹底擺脫對(duì)Nvidia等國(guó)外巨頭的依賴。

在一些特定場(chǎng)景和應(yīng)用中,國(guó)內(nèi)芯片廠商可以有效與英偉達(dá)等巨頭競(jìng)爭(zhēng)。 例如,在5G、物聯(lián)網(wǎng)、邊緣計(jì)算等領(lǐng)域,國(guó)內(nèi)芯片廠商可能會(huì)推出更適合本土化需求和環(huán)境的超差異化芯片。 計(jì)算解決方案。

可以說(shuō),超異構(gòu)計(jì)算確實(shí)為國(guó)產(chǎn)芯片的“計(jì)算難”打開(kāi)了一個(gè)缺口,但從長(zhǎng)遠(yuǎn)來(lái)看,還需要徹底解決“卡脖子”問(wèn)題,形成對(duì)等的計(jì)算能力。與Nvidia等巨頭競(jìng)爭(zhēng),還有很長(zhǎng)的路要走。

免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

猜你喜歡:

最新文章: