亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁  >  資訊  >  文章
2024-03-19 10:04

重磅!英偉達(dá)正式官宣「AI核彈級」芯片B100,性能比H100強(qiáng)兩倍的H200將于2024年第二季度出貨

以下文章節(jié)選自丨騰訊科技


牢牢掌握算力分配權(quán)的英偉達(dá)是人工智能領(lǐng)域當(dāng)仁不讓的“炸子雞”。英偉達(dá)在發(fā)布H200時就透露,下一代B100芯片將在2024年推出,性能已經(jīng)“望不到頭”,全網(wǎng)直呼炸裂。

當(dāng)?shù)貢r間3月18日,英偉達(dá)舉行一年一度的GTC2024新品發(fā)布會,黃仁勛將發(fā)表主題演講《見證AI的變革時刻》,并發(fā)布了新一代的AI算力芯片B100。B100將作為英偉達(dá)在2023年11月推出的H200的升級版本,稍后上市。

作為經(jīng)典型號H100的下一代,H200擁有141GB的內(nèi)存、4.8TB/秒的帶寬,能夠與H100相互兼容,在推理速度上幾乎達(dá)到了H100的兩倍,預(yù)計將于2024年二季度開始交付。

英偉達(dá)通過為包括OpenAI、Meta等人工智能企業(yè)提供包括H200、H100、A100等不同規(guī)格的GPU,一躍成為全球市值增速最快的企業(yè)之一,也因此被外界稱之為人工智能時代的”賣水人“。

今年的GTC2024上,黃仁勛的AI“核武庫”正式上新,B200將成為科技巨頭們追逐的“算力明星”——它不僅會成為新的AI算力底座,也將成為英偉達(dá)市值繼續(xù)攀升的業(yè)績底座。

作為NVIDIA Blackwell架構(gòu)首款新產(chǎn)品,B200采用雙芯片設(shè)計,晶體管數(shù)量達(dá)到2080億個,基于Blackwell架構(gòu)的B100.英偉達(dá)還提供了包括GB200、DGX GB200 NVL 72.以及基于GB200和B200打造的DGX SuperPOD超算平臺。

軟件服務(wù)方面,英偉達(dá)發(fā)布了集成AI開發(fā)軟件微服務(wù)系統(tǒng)NIM,通過直接提供多行業(yè)、多模態(tài)的專有模型,以及基于NeMo Retriver的專有數(shù)據(jù)注入系統(tǒng),企業(yè)可借由NIM快捷部署公司級專有模型。

除了通過軟硬件賦能AI技術(shù)之外,英偉達(dá)也推出了加速AI仿生機(jī)器人落地的解決方案——GR00T機(jī)器人項目——世界首款人形機(jī)器人模型,支持通過語言、視頻和人類演示,為機(jī)器人的生成行動指令。

以下為核心要點:

● B200芯片:采用雙芯片設(shè)計,晶體管數(shù)量達(dá)到2080億個。單GPU AI性能達(dá)20 PFLOPS(即每秒2萬萬億次)。內(nèi)存192GB,基于第五代NVLink,帶寬達(dá)到8TB/s。

● DGX GB200 NVL 72:內(nèi)置36顆GRACE CPU和72顆Blackwell架構(gòu)GPU,AI訓(xùn)練性能可達(dá)720PFLOPs(即每秒72萬萬億次),推理性能為1440PFLOPs(每秒144萬萬億次)。

● 基于GB200的DGX SuperPOD超算:搭載8顆DGX GB200.即288顆Grace CPU和576顆B200 GPU,內(nèi)存達(dá)到240TB,F(xiàn)P4精度計算性能達(dá)到11.5EFLOPs(每秒11.5百億億次)

● Project GR00T:人型機(jī)器人項目——包含了人型機(jī)器人基礎(chǔ)模型,ISAAC Lab開發(fā)工具庫和Jetson Thor SoC片上系統(tǒng)開發(fā)硬件,帶寬達(dá)到100GB/s,AI計算性能達(dá)到800TFLOPs。

● NIM軟件:針對AI推理系統(tǒng)的新軟件,開發(fā)人員可以在其中直接選擇模型來構(gòu)建利用自己數(shù)據(jù)的人工智能應(yīng)用程序。

具體來說,英偉達(dá)最近幾代架構(gòu),在名稱上都有致敬科學(xué)家的慣例。比如,上一代產(chǎn)品Hopper架構(gòu)則是致敬格蕾絲·霍珀,這一代架構(gòu)Blackwel則是致敬的是統(tǒng)計學(xué)家兼數(shù)學(xué)家大衛(wèi)·布萊克韋威爾。

圖片

黃仁勛展示Blackwell和Hopper架構(gòu)GPU對比,左邊為Blackwell架構(gòu)的B200芯片

在新一代的GPU正式亮相之前,關(guān)于架構(gòu)、雙芯片設(shè)計等已經(jīng)有不少傳聞,關(guān)注點在于,黃仁勛會把手中的“AI核彈”性能提升到多少?

現(xiàn)在,官方的答案給出來了——基于Blackwell架構(gòu)的B200采用雙芯片設(shè)計,基于臺積電4nm工藝,晶體管數(shù)量達(dá)到2080億個,上一代Hopper架構(gòu)的H100同樣是4nm工藝,但由于沒有上雙芯片設(shè)計,晶體管數(shù)量只有800億。

B200搭配8顆HBM3e內(nèi)存(比Hopper架構(gòu)的H200多了2顆),內(nèi)存達(dá)到192GB,基于第五代NVLink,帶寬達(dá)到8TB/s,相比Hopper架構(gòu)和Ampere架構(gòu),有了巨幅提升,最大可支持10萬億參數(shù)的模型的訓(xùn)練。

作為對比,OpenAI 的 GPT-3 由 1750 億個參數(shù)組成,GPT-4參數(shù)為1.8萬億。

圖片

黃仁勛還介紹稱,B200平臺可以向下兼容,支持與上一代Hopper架構(gòu)的H100/H200 HGX系統(tǒng)硬件適配。

此前,被稱之為OpenAI勁敵的Inflection AI,官宣建立了一套22000顆英偉達(dá)H100 GPU的世界最大人工智能數(shù)據(jù)中心集群,接下來要看看OpenAI,能不能借助B200反超了。


這里再插一句英偉達(dá)的NVLink和NVLink Switch技術(shù)。

其中NVLink是英偉達(dá)開發(fā)的CPU和GPU之間高速互聯(lián)通道,在內(nèi)存墻無法突破的情況下,最大化提升CPU和GPU之間通信的效率,于2016年在基于Pascal架構(gòu)的GP100芯片和P100運算卡上率先采用,當(dāng)時的帶寬為160GB/s,到H100采用的第四代NVLink,其帶寬已經(jīng)達(dá)到900GB/s,而B200采用的第五代NVLink 帶寬已經(jīng)突破1.8TB/s。

NVLink Switch支持與多個NVLink連接,實現(xiàn)NVLink在單節(jié)點、節(jié)點之間互聯(lián),進(jìn)而創(chuàng)建更高帶寬的GPU集群,基于最新的NVLink Switch芯片(基于臺積電的4nm工藝,500億個晶體管),可實現(xiàn)576顆GPU組成計算集群,上一代產(chǎn)品僅支持到256個GPU。


根據(jù)官方公布的數(shù)據(jù),B200支持第二代Transformer引擎,Tensor核支持FP4、FP6精度計算,單顆B200 GPU的AI性能達(dá)20 PFLOPs(即每秒2億億次)。

圖片

另外,英偉達(dá)還在主題演講中展示了全新的加速計算平臺DGX GB200 NVL 72擁有9個機(jī)架,總共搭載18個GB200加速卡,即36顆GRACE CPU和72顆Blackwell架構(gòu)GPU(英偉達(dá)也提供了HGX B200版本,簡單來說就是用Intel的Xeon CPU,替換了Grace CPU)。

黃仁勛說,一套DGX版GB200 NVL 72總共內(nèi)置了5000條NVLink銅制線纜,總長度達(dá)到2公里,可以減少20kW的計算能耗。

舉個例子,8000個GPU組成的GH100系統(tǒng),90天內(nèi)可以訓(xùn)練一個1.8萬億參數(shù)的GPT-Moe模型,功耗15兆瓦,而使用一套2000顆GPU的GB200 NVL72加速卡,只需要4兆瓦。

據(jù)介紹,DGX版GB200  NVL 72加速計算平臺AI訓(xùn)練性能(FP8精度計算)可達(dá)720PFLOPs(即每秒72億億次),F(xiàn)P4精度推理性能為1440PFLOPs(每秒144億億次)。官方稱GB200的推理性能在Hopper平臺的基礎(chǔ)上提升6倍,尤其是采用相同數(shù)量的GPU,在萬億參數(shù)Moe模型上進(jìn)行基準(zhǔn)測試,GB200的性能是Hopper平臺的30倍。

演講環(huán)節(jié),黃仁勛還公布了搭載64個800Gb/s端口、且配備RoCE自適應(yīng)路由的NVIDIA Quantum-X800 InfiniBand 交換機(jī),以及搭載144個800Gb/s端口,網(wǎng)絡(luò)內(nèi)計算性能達(dá)到14.4TFLOPs(每秒14.4萬億次)的Spectrum-X800交換機(jī)。兩者應(yīng)對的客戶需求群體略有差異,如果追求超大規(guī)模、高性能可采用NVLink+InfiniBand網(wǎng)絡(luò);如果是多租戶、工作負(fù)載多樣性,需融入生成式AI,則用高性能Spectrum-X以太網(wǎng)架構(gòu)。

另外,英偉達(dá)還推出了基于GB200的DGX Super Pod一站式AI超算解決方案,采用高效液冷機(jī)架,搭載8套DGX GB200系統(tǒng),即288顆Grace CPU和576顆B200 GPU,內(nèi)存達(dá)到240TB,F(xiàn)P4精度計算性能達(dá)到11.5ELOPs(每秒11.5百億億次),相比上一代產(chǎn)品的推理性能提升30倍,訓(xùn)練性能提升4倍。

黃仁勛說,如果你想獲得更多的性能,也不是不可以——發(fā)揮鈔能力——在DGX Super Pod中整合更多的機(jī)架,搭載更多的DGX GB200加速卡。

10
查看相關(guān)話題: #英偉達(dá) #B100 #AI算力 #AI芯片

相關(guān)文章