英偉達(dá)老黃祭出「超級(jí)核彈」B200芯片:相當(dāng)于30倍的H100,單機(jī)可訓(xùn)練15個(gè)GPT-4模型參數(shù)總和
今天一大早,英偉達(dá)老黃又來(lái)打破摩爾定律了:英偉達(dá)新核彈B200,一塊能頂5個(gè)H100。30倍推理加速,能訓(xùn)萬(wàn)億參數(shù)大模型!
同時(shí)推出的AI推理微服務(wù)NIM,號(hào)稱讓全世界用上AI。
當(dāng)?shù)貢r(shí)間3月18日的2024年GTC人工智能大會(huì)上,英偉達(dá)的新一代性能巨獸Backwell誕生了!
Blackwell B200 GPU,是如今世界上最強(qiáng)大的AI芯片,旨在「普惠萬(wàn)億參數(shù)的AI」。
本來(lái),H100已經(jīng)使英偉達(dá)成為價(jià)值數(shù)萬(wàn)億美元的公司,趕超了谷歌和亞馬遜,但現(xiàn)在,憑著Blackwell B200和GB200,英偉達(dá)的領(lǐng)先優(yōu)勢(shì)還要繼續(xù)領(lǐng)先。
老黃表示——「H100很好,但我們需要更大的GPU」!
新的B200 GPU,從2080億個(gè)晶體管中能提供高達(dá)20 petaflops的FP4性能。(H100僅為4 petaflops)
而將兩個(gè)B200與單個(gè)Grace CPU相結(jié)合的GB200,則可以為L(zhǎng)LM推理工作負(fù)載提供30倍的性能,同時(shí)大大提高效率。
比起H100,GB200的成本和能耗降低了25倍!
這種額外的處理能力,就能讓AI公司訓(xùn)練更大、更復(fù)雜的模型,甚至可以部署一個(gè)27萬(wàn)億參數(shù)的模型。
更大的參數(shù),更多的數(shù)據(jù),未來(lái)的AI模型,無(wú)疑會(huì)解鎖更多新功能,涌現(xiàn)出更多新的能力。
現(xiàn)在,老黃拿在手里的,或許是100億美元。
新一代性能巨獸,深夜重磅登場(chǎng)
憑借H100成為全球市值第三大公司的英偉達(dá),今天再次推出了性能野獸——Blackwell B200 GPU和GB200「超級(jí)芯片」。
它以著名數(shù)學(xué)家David Blackwell(1919-2010)命名。他一生中對(duì)博弈論、概率論做出了重要的貢獻(xiàn)。
老黃表示,「30年來(lái),我們一直在追求加速計(jì)算,目標(biāo)是實(shí)現(xiàn)深度學(xué)習(xí)和AI等變革性突破。生成式AI已然成為我們這個(gè)時(shí)代的標(biāo)志性技術(shù),而Blackwell將是推動(dòng)這場(chǎng)新工業(yè)革命的引擎」。
「我們認(rèn)為這是個(gè)完美的博弈概率」。
全新B200 GPU擁有2080億個(gè)晶體管,采用臺(tái)積電4NP工藝節(jié)點(diǎn),提供高達(dá)20 petaflops FP4的算力。
與H100相比,B200的晶體管數(shù)量是其(800億)2倍多。而單個(gè)H100最多提供4 petaflops算力,直接實(shí)現(xiàn)了5倍性能提升。
而GB200是將2個(gè)Blackwell GPU和1個(gè)Grace CPU結(jié)合在一起,能夠?yàn)長(zhǎng)LM推理工作負(fù)載提供30倍性能,同時(shí)還可以大大提高效率。
值得一提的是,與H100相比,它的成本和能耗「最多可降低25倍」。
過(guò)去,訓(xùn)練一個(gè)1.8萬(wàn)億參數(shù)的模型,需要8000個(gè)Hopper GPU和15MW的電力。
如今,2000個(gè)Blackwell GPU就能完成這項(xiàng)工作,耗電量?jī)H為4MW。
在GPT-3(1750億參數(shù))大模型基準(zhǔn)測(cè)試中,GB200的性能是H100的7倍,訓(xùn)練速度是H100的4倍。
全新芯片其中一個(gè)關(guān)鍵改進(jìn)是,采用了第二代Transformer引擎。
對(duì)每個(gè)神經(jīng)元使用4位(20 petaflops FP4)而不是8位,直接將算力、帶寬和模型參數(shù)規(guī)模提高了一倍。
與此同時(shí),英偉達(dá)還推出了第五代NVLink網(wǎng)絡(luò)技術(shù)。
最新的NVLink迭代增強(qiáng)了數(shù)萬(wàn)億參數(shù)AI模型的性能,提供了突破性的每GPU雙向吞吐量,促進(jìn)了無(wú)縫高速通信。
這也就是第二個(gè)關(guān)鍵區(qū)別,只有當(dāng)你連接大量這些GPU時(shí)才會(huì)出現(xiàn):新一代NVLink交換機(jī)可以讓576個(gè)GPU相互通信,雙向帶寬高達(dá)1.8TB/秒。
這就要求英偉達(dá)打造一個(gè)全新的網(wǎng)絡(luò)交換芯片,其中包含500億個(gè)晶體管和一些自己的板載計(jì)算:擁有3.6 teraflops FP8處理能力。
在此之前,由16個(gè)GPU組成的集群,有60%的時(shí)間用于相互通信,只有40%的時(shí)間用于實(shí)際計(jì)算。
另外,Blackwell還配備了RAS引擎。
為了確??煽啃浴⒖捎眯院涂删S護(hù)性,Blackwell GPU集成了專用引擎和基于AI的預(yù)防性維護(hù)功能,以最大限度地延長(zhǎng)系統(tǒng)正常運(yùn)行時(shí)間并最大限度地降低運(yùn)營(yíng)成本。
老黃表示,「過(guò)去8年,計(jì)算規(guī)模擴(kuò)展已經(jīng)增加了1000倍」。
網(wǎng)友們紛紛驚嘆,Blackwell再一次改變了摩爾定律。
英偉達(dá)高級(jí)科學(xué)家Jim Fan表示:Blackwell,城里的新野獸。
- DGX Grace-Blackwell GB200:?jiǎn)螜C(jī)架計(jì)算能力超過(guò)1 Exaflop。
- 從這個(gè)角度來(lái)看:老黃交付給OpenAI的第一臺(tái)DGX是0.17 Petaflops。
- GPT-4-1.8T參數(shù)在2000張Blackwell上可在90天內(nèi)完成訓(xùn)練。
新摩爾定律誕生了。
賈揚(yáng)清回憶道:「我記得在Meta,當(dāng)年(2017年)我們?cè)谝恍r(shí)內(nèi)訓(xùn)練ImageNet時(shí),總計(jì)算量約為1exaflop。這意味著有了新的DGX,理論上你可以在一秒鐘內(nèi)訓(xùn)練ImageNet」。
還有網(wǎng)友表示:「這簡(jiǎn)直就是野獸,比H100強(qiáng)太多」。
另有網(wǎng)友戲稱:「老黃確認(rèn)GPT-4是1.8萬(wàn)億參數(shù)」。
所以,GB200的成本是多少呢?英偉達(dá)目前并沒(méi)有公布。
此前據(jù)分析師估計(jì),英偉達(dá)基于Hopper的H100芯片,每顆的成本在25.000美元到40.000美元之間,整個(gè)系統(tǒng)的成本高達(dá)200.000美元。
而GB200的成本,只可能更高。
當(dāng)然,有了Blackwell超級(jí)芯片,當(dāng)然還會(huì)有Blackwell組成的DGX超算。
這樣,公司就會(huì)大量購(gòu)入這些GPU,并將它們封裝在更大的設(shè)計(jì)中。
GB200 NVL72是將36個(gè)Grace CPU和72個(gè)Blackwell GPU集成到一個(gè)液冷機(jī)柜中,可實(shí)現(xiàn)總計(jì)720 petaflops的AI訓(xùn)練性能,或是1.440 petaflops(1.4 exaflops)的推理性能。
它內(nèi)部共有5000條獨(dú)立電纜,長(zhǎng)度近兩英里。
它的背面效果如下圖所示。
機(jī)柜中的每個(gè)機(jī)架包含兩個(gè)GB200芯片,或兩個(gè)NVLink交換機(jī)。一共有18個(gè)GB200芯片托盤,9個(gè)NVLink交換機(jī)托盤有。
老黃現(xiàn)場(chǎng)表示,「一個(gè)GB200 NVL72機(jī)柜可以訓(xùn)練27萬(wàn)億參數(shù)的模型」。
此前傳言稱,GPT-4的參數(shù)規(guī)模達(dá)1.8萬(wàn)億,相當(dāng)于能訓(xùn)練近15個(gè)這樣的模型。
與H100相比,對(duì)于大模型推理工作負(fù)載,GB200超級(jí)芯片提供高達(dá)30倍的性能提升。
那么,由8個(gè)系統(tǒng)組合在一起的就是DGX GB200。
總共有288個(gè)Grace CPU、576個(gè)Blackwell GPU、240 TB內(nèi)存和11.5 exaflop FP4計(jì)算。
這一系統(tǒng)可以擴(kuò)展到數(shù)萬(wàn)個(gè)GB200超級(jí)芯片,通過(guò)Quantum-X800 InfiniBand(最多144個(gè)連接)或Spectrum-X800ethernet(最多64個(gè)連接)與800Gbps網(wǎng)絡(luò)連接在一起。
配備DGX GB200系統(tǒng)的全新DGX SuperPod采用統(tǒng)一的計(jì)算架構(gòu)。
除了第五代NVIDIA NVLink,該架構(gòu)還包括NVIDIA Bluefield-3 DPU,并將支持Quantum-X800 InfiniBand網(wǎng)絡(luò)。
這種架構(gòu)可以為平臺(tái)中的每個(gè)GPU提供高達(dá)每秒1800GB的帶寬。
除此之外,英偉達(dá)還發(fā)布了統(tǒng)一的超算平臺(tái)DGX B200.用于AI模型訓(xùn)練、微調(diào)和推理。
它包括8個(gè)Blackwell GPU和2個(gè)第五代Intel Xeon處理器,包含F(xiàn)P4精度功能,提供高達(dá)144 petaflops的AI性能、1.4TB的GPU內(nèi)存和64TB/s的內(nèi)存帶寬。
這使得萬(wàn)億參數(shù)模型的實(shí)時(shí)推理速度,比上一代產(chǎn)品提高了15倍。
用戶還可以使用DGX B200系統(tǒng)構(gòu)建DGX SuperPOD,創(chuàng)建人工智能卓越中心,為運(yùn)行多種不同工作的大型開(kāi)發(fā)團(tuán)隊(duì)提供動(dòng)力。
目前,亞馬遜、谷歌、微軟已經(jīng)成為最新芯片超算的首批用戶。
亞馬遜網(wǎng)絡(luò)服務(wù),將建立一個(gè)擁有20000顆GB200芯片的服務(wù)器集群。
自從ChatGPT于2022年底掀起AI熱潮以來(lái),英偉達(dá)的股價(jià)已經(jīng)上漲了五倍之多,總銷售額增長(zhǎng)了兩倍多。
因?yàn)橛ミ_(dá)的GPU對(duì)于訓(xùn)練和部署大型AI模型至關(guān)重要,微軟、Meta等大公司都已紛紛豪擲數(shù)十億購(gòu)買。
如今各大公司和軟件制造商還在爭(zhēng)先恐后地?fù)屬?gòu)Hopper H100等芯片呢,GB200就已經(jīng)出了。
老黃表示:Blackwell不是一個(gè)芯片,而是一個(gè)平臺(tái)的名稱。
從此,英偉達(dá)不再是芯片供應(yīng)商,而更像是微軟、蘋果這樣的平臺(tái)提供商,可以讓其他公司在平臺(tái)上構(gòu)建軟件。
英偉達(dá)副總裁Manuvir Das表示,GPU是可銷售的商業(yè)產(chǎn)品,而軟件,是為了幫人們用不同的方式使用GPU。
雖然英偉達(dá)現(xiàn)在仍然售賣GPU,但真正不同的是,英偉達(dá)現(xiàn)在有了商業(yè)軟件業(yè)務(wù)。
新軟件NIM,代表著英偉達(dá)的推理微服務(wù)。
NIM使得在英偉達(dá)的任何GPU上運(yùn)行程序都變得更容易,即使是可能更適合部署但不適合構(gòu)建AI的舊GPU。
也就是說(shuō),假如一名開(kāi)發(fā)者有一個(gè)有趣的模型,希望向人們推廣,就可以把它放到NIM中。英偉達(dá)會(huì)確保它可以在所有的GPU上運(yùn)行,這樣模型的受眾就大大擴(kuò)展了。
NIM使得部署AI變得更容易,這就更加增加了客戶使用英偉達(dá)芯片的粘性。
并且,與新AI模型的初始訓(xùn)練相比,NIM的推理需要更少的算力。
這樣,想要運(yùn)行自己AI模型的公司,就能運(yùn)行自己的AI模型,而不是從OpenAI等公司購(gòu)買對(duì)AI結(jié)果的訪問(wèn)權(quán)。
需要購(gòu)買基于英偉達(dá)服務(wù)器的客戶,需要注冊(cè)NVIDIA企業(yè)版,每個(gè)GPU每年需要花費(fèi)4500美元。
英偉達(dá)將與微軟或Hugging Face等人工智能公司合作,確保他們的人工智能模型經(jīng)過(guò)調(diào)整,可以在所有兼容的英偉達(dá)芯片上運(yùn)行。
然后,使用NIM,開(kāi)發(fā)者可以在自己的服務(wù)器或基于云的英偉達(dá)服務(wù)器上,高效運(yùn)行模型,而無(wú)需冗長(zhǎng)的配置過(guò)程。
Das介紹說(shuō),在自己調(diào)用OpenAI的代碼中,他只替換了一行代碼,就指向了NIM。
另外,NIM軟件還將幫助AI在配備GPU的筆記本電腦上運(yùn)行,而不是在云端的服務(wù)器上。
NIM支持跨多個(gè)領(lǐng)域的AI用例,包括LLMs、視覺(jué)語(yǔ)言模型(VLM)以及用于語(yǔ)音、圖像、視頻、3D、藥物發(fā)現(xiàn)、醫(yī)學(xué)成像等的模型。
AI API就是未來(lái)的軟件。在未來(lái),所有LLM都可以從云端獲取,從云上下載,運(yùn)行它的工作站。
而現(xiàn)在,整個(gè)行業(yè)都已經(jīng)為Blackwell準(zhǔn)備好了。
2012年,將一只小貓的圖片輸入,AlexNet識(shí)別后輸出「cat」,讓世界所有人為之震驚,并高呼這改變了一切。
而現(xiàn)在從三個(gè)字「cat」輸出10 million 像素成為了可能。僅用了10年時(shí)間,我們就可以識(shí)別文本、圖像、視頻。
萬(wàn)物都皆可數(shù)字化。
網(wǎng)友表示,老黃向我們展示了GenAI的終極游戲:多模態(tài)輸入→多模態(tài)輸出。
「這是我們總有一天都會(huì)使用的最終模型。它可以獲取任何模態(tài)并生成任何模態(tài)。同時(shí),它還能在沒(méi)有每個(gè)部件的情況下工作」。
數(shù)字化的目的是讓所有的目標(biāo)都能成為機(jī)器學(xué)習(xí)的目標(biāo),從而讓它們都能被AI生成。
比如,數(shù)字孿生地球,可以很好地幫助我們了解全球氣象氣候的變化。
將基因、蛋白質(zhì)、氨基酸數(shù)字化,可以讓人類去理解生命的力量。
近期文章
更多