2023成都積分入學(xué)什么時(shí)候開始申請(qǐng)
2023-01-31
更新時(shí)間:2022-09-21 16:05:22作者:智慧百科
機(jī)器之心報(bào)道
編輯:澤南、杜偉
最高端的 RTX4090 性價(jià)比最高,你沒想到吧?
雖然因?yàn)楫a(chǎn)品太貴而被吐槽,但提起最強(qiáng) AI 芯片、高端游戲 GPU,人們還是首先要看英偉達(dá)。9 月 20 日晚,GTC 大會(huì)在線上召開,萬眾期待的 RTX 40 系列顯卡終于正式發(fā)布了。
與以往稍有不同,這場重要的 Keynote 顯得樸實(shí)無華而且「簡短」,黃仁勛直接站在空曠的元宇宙里開講:
一個(gè)半小時(shí)收工。
在這場活動(dòng)中,英偉達(dá)展示了 RTX、AI 芯片和元宇宙產(chǎn)品線 Omniverse 的最新進(jìn)展,還包括它們對(duì)人工智能領(lǐng)域新突破的幫助,以及大量應(yīng)用落地。
在一切開始之前,老黃先展示了一段全可交互的模擬環(huán)境 RacerX,它用 Omniverse 構(gòu)建,物理材質(zhì)特性、光線追蹤、煙霧火焰一個(gè)不少。最重要的是「全部沒有預(yù)渲染過,是跑在單塊 GPU 上的」:
黃仁勛說,全部實(shí)時(shí)處理,這才是未來游戲的該有的樣子。
能跑得起 RacerX 的肯定是最新 RTX 40 系顯卡,AMD 也要發(fā)布新一代 GPU 了,英偉達(dá)這次會(huì)保持領(lǐng)先嗎?如果 N 卡性能更強(qiáng),代價(jià)是什么?
RTX 40 系列 GPU:性能翻倍,光追能力翻倍
這就是英偉達(dá)的第三代 RTX 顯卡,采用全新的 Ada Lovelace 架構(gòu)。
英偉達(dá)轉(zhuǎn)投臺(tái)積電后,使用定制版 4N 制程加成的 RTX40 系 GPU 被塞進(jìn)了 760 億個(gè)晶體管,比上一代 Ampere 多了 70%。
25 年前,英偉達(dá)推出了可編程著色的 GPU,徹底改變了計(jì)算機(jī) 3D 圖形的世界。到 2018 年,英偉達(dá)推出 RTX 架構(gòu),新增的 RT Core 用于加速實(shí)時(shí)光線追蹤,Tensor Core 用于處理矩陣運(yùn)算,又實(shí)現(xiàn)了前所未有的效果。在剛剛推出的 Ada Lovelace 架構(gòu)中,三種處理器均有改進(jìn)和提升,其中:
1、SM 流處理器新增著色器重排序執(zhí)行能力(Shader Execution Recording),可以實(shí)時(shí)重新調(diào)度任務(wù),把光追速度提升 2-3 倍,在 4090 上能輸出 90TFLOPS,性能較上代提升兩倍。
2、第三代 RT Core 實(shí)現(xiàn)了兩倍的光線與三角形求交性能,全新的 Opacity Micromap 引擎可以把 Alpha-test 幾何性能提升 2 倍,Micro-Mesh 引擎可提升幾何圖形的豐富度,而不會(huì)帶來 BVH 構(gòu)建和存儲(chǔ)資源的更多消耗。
3、新的第四代 Tensor Core 可以實(shí)現(xiàn) 1.4 petaFLOPs 算力,AI 性能翻倍。
「Shader Execution Recording 和當(dāng)年的 CPU 亂序執(zhí)行一樣,是一項(xiàng)重大創(chuàng)新,」黃仁勛說道?!腹饩€追蹤很難并行處理,而 GPU 具有高度并行性,SER 通過即時(shí)重新安排著色器負(fù)載來提升效率,可以提升 2 到 3 倍光追性能,游戲性能提升 25%?!?/p>
但我們知道,光線追蹤曾經(jīng)被英偉達(dá)前首席科學(xué)家 David Krik 說成是「永遠(yuǎn)不會(huì)到來」的技術(shù),性能翻倍也不能讓 GPU 保證在如今的各種大型單機(jī)游戲中保持高幀率,這個(gè)時(shí)候就需要 AI 算法了。
DLSS 使用卷積自動(dòng)編碼器 AI 模型,可以在 GPU 輸出的低分辨率畫面基礎(chǔ)上自動(dòng)腦補(bǔ)出高分辨率,大幅降低性能需求。英偉達(dá)在 Ada 架構(gòu)中引入了 DLSS 3,其可以在分辨率提升的同時(shí)自動(dòng)補(bǔ)幀。DLSS 3 包含四個(gè)組件:新的光流加速器、游戲引擎運(yùn)動(dòng)矢量、卷積自動(dòng)編碼 AI 幀生成器和 Reflex 低延遲流水線。
DLSS 3 同時(shí)處理當(dāng)前幀和上一幀,光流加速器為神經(jīng)網(wǎng)絡(luò)提供運(yùn)動(dòng)方向和速度信息,結(jié)合圖形和像素的運(yùn)動(dòng)矢量,輸入神經(jīng)網(wǎng)絡(luò)就可以生成中間幀了。
「DLSS 3 在不涉及圖形管線處理的前提下生成全新幀,相較于單純的渲染可以將性能提升多至 4 倍,」黃仁勛表示?!付也徽?CPU 還是 GPU 有瓶頸的游戲都可以從中受益?!?/p>
英偉達(dá)展示了開 DLSS 3 的賽博朋克 2077、微軟模擬飛行等游戲的運(yùn)行效果:
4 年來,RTX 的數(shù)據(jù)量提升了 16 倍,現(xiàn)在的一些像素是計(jì)算得出,大多數(shù)是 AI 推測出來的。
在演示中,幾個(gè)游戲都是幀數(shù)直接乘以二。但值得注意的是,DLSS 3 和新硬件特性高度綁定,30 和 20 系的用戶無法享受這樣的性能。
英偉達(dá)公布了 40 系顯卡的多項(xiàng)常規(guī)硬件規(guī)格:RTX 4090 采用 AD102 GPU,擁有 16384 個(gè) CUDA 核心和 24GB GDDR6X 顯存,默認(rèn) TDP 為 450W;RTX 4080 16GB 版擁有 9728 個(gè) CUDA 核心,TDP 為 320W;RTX 4080 12G 版擁有 7680 個(gè) CUDA 核心,TDP 為 285W。從功耗上看,從三星 8nm 換到臺(tái)積電 4N 工藝效率提升顯著,同級(jí)性能提升了,電源要求沒有提升。
性能相比上代提升了多少?通過 SER 優(yōu)化、更大規(guī)模芯片,再加上芯片加速頻率從 1.7GHz 提升到 2.52GHz,綜合起來可以讓 RTX 4090 相比 3090Ti 性能翻一倍;如果看光線追蹤,性能則提升了 4 倍。黃仁勛表示,Ada 的同功耗性能是 Ampere 的兩倍。
再往下,RTX 4080 可在開 DLSS 時(shí)達(dá)到 3080Ti 的兩倍性能。
最后是價(jià)格:RTX 4090 公版售價(jià) 1599 美元,10 月 12 日開始售賣;RTX 4080 16GB 售價(jià) 1199 美元,12GB 版售價(jià) 899 美元。
總結(jié)一下就是 90 的價(jià)格幾乎沒漲,80 的價(jià)格漲了 500 美元。對(duì)于國內(nèi)用戶來說,RTX 40 系的售價(jià)是這個(gè)樣子:4090 12999 元起,4080(16GB)9499 元,4080(12GB)7199 元。
看起來非公版的 RTX 4090 價(jià)格將在 15000 左右。
不過,這一代顯卡有個(gè)需要注意的地方:看起來 12G 版的 4080 似乎是把原定的 70Ti 改了名字。
英偉達(dá) Omniverse 連接了 3D 世界
除了 GPU 和 AI,英偉達(dá)也是元宇宙的引領(lǐng)者,黃仁勛介紹了 Omniverse 的一系列進(jìn)步。
Omniverse 是英偉達(dá)構(gòu)建和運(yùn)行元宇宙應(yīng)用的平臺(tái),在數(shù)字和現(xiàn)實(shí)世界交匯之處產(chǎn)生作用。Omniverse 還是一個(gè)實(shí)時(shí)的大型 3D 數(shù)據(jù)庫,構(gòu)建一個(gè)可共享的 3D 世界。Omniverse 更是一個(gè)計(jì)算平臺(tái),你可以編寫在其上運(yùn)行的應(yīng)用,這些應(yīng)用成為進(jìn)入虛擬世界的門戶。
今日,黃仁勛發(fā)布了關(guān)于其 Omniverse 平臺(tái)的一系列重大更新,它支持了 Ada Lovelace GPU,在光線追蹤和大型場景性能方面實(shí)現(xiàn)巨大飛躍。
首先是基于 GAN 和擴(kuò)散模型的新型神經(jīng)渲染工具。OmniGraph 是一個(gè)圖形渲染引擎,通過程序化的方式控制行為、動(dòng)作和行動(dòng)。
其次是 Omniverse Physics 的重大更新,它可以用來處理復(fù)雜的多連接部件對(duì)象的運(yùn)動(dòng)情況。
然后是全新的 Cloud XR,支持在 VR 中實(shí)現(xiàn) Ada 的強(qiáng)大光線追蹤功能。還有首個(gè)用于數(shù)據(jù)生成和數(shù)字孿生模擬的 SimReady 素材庫。
Replicator 是備受青睞的 Omniverse 應(yīng)用之一,用來生成合成數(shù)據(jù),從而訓(xùn)練自動(dòng)駕駛汽車、機(jī)器人和各種計(jì)算機(jī)視覺模型。最后是新的 Omniverse JT 連接器,它是一款大型應(yīng)用,使得工業(yè)和制造業(yè)可以運(yùn)用 Omniverse。
可以這么說,Omniverse 是一個(gè)企業(yè)平臺(tái),適用于從產(chǎn)品設(shè)計(jì)和造型到工程策劃、制造、營銷和運(yùn)營的整個(gè)產(chǎn)品生命周期。正如互聯(lián)網(wǎng)連接了各個(gè)網(wǎng)站,Omniverse 連接了 3D 世界。
黃仁勛在會(huì)上了展示了一些公司利用 Omniverse 為工廠、物流倉庫、自動(dòng)化生產(chǎn)線和工業(yè)廠房創(chuàng)建數(shù)字孿生的情況。我們可以從以下一些場景案例中探知一二。
Omniverse 計(jì)算平臺(tái)由三部分組成:RTX 計(jì)算機(jī),供創(chuàng)作者、設(shè)計(jì)師和工程師使用;OVX 服務(wù)器,用來托管與 Nucleus 數(shù)據(jù)庫的連接并運(yùn)行虛擬世界模擬;NVIDIA GDN,進(jìn)入 Omniverse 的門戶。
通過 GeForce Now,英偉達(dá)構(gòu)建了一個(gè)全球圖形交付網(wǎng)絡(luò)(即 GDN)。該網(wǎng)絡(luò)覆蓋了 100 個(gè)地區(qū),提供響應(yīng)靈敏的超快 RTX 圖形內(nèi)容交付網(wǎng)絡(luò)(即 CDN),高效串聯(lián)互聯(lián)網(wǎng)視頻。而 NVIDIA GDN 能夠高效串聯(lián)交互式圖形,并結(jié)合 NVIDIA RTX PC、云端的 NVIDIA GPU 打造覆蓋全球的 Omniverse 計(jì)算平臺(tái)。
NVIDIA Omniverse Cloud 則是一套軟件和基礎(chǔ)設(shè)施即服務(wù)套件,用于隨時(shí)隨地在任何設(shè)備上設(shè)計(jì)、發(fā)布和體驗(yàn)元宇宙應(yīng)用。黃仁勛在會(huì)上展示了超級(jí)跑車和高級(jí)電動(dòng)車解決方案的先行者 Rimac 公司,以及它是如何利用 Omniverse Cloud 為 3D 團(tuán)隊(duì)實(shí)現(xiàn)協(xié)作工作流,并為用戶提供先進(jìn)的 3D 體驗(yàn)。
黃仁勛表示,NVIDIA Omniverse Cloud 是一款 IaaS 產(chǎn)品,可以連接在云上、本地和單個(gè)設(shè)備上,運(yùn)行 Omniverse 應(yīng)用。Replicator 和 Farm 也可以在云上運(yùn)行,其中 Farm 是渲染農(nóng)場的擴(kuò)展引擎。目前,用戶可以在 AWS 上使用 Replicator 和 Farm 容器。
新一代自動(dòng)駕駛芯片 Drive Thor
在自動(dòng)駕駛領(lǐng)域,車企都需求更強(qiáng)的算力,而英偉達(dá)產(chǎn)品的每代性能都要翻倍。
當(dāng)前,智能機(jī)器開發(fā)掀起了一波 AI 浪潮,深度學(xué)習(xí)的參與更為系統(tǒng)能力的提升打開了新的大門。從軟件的開發(fā)方式到運(yùn)行方式,一切都變得截然不同。因此,打造新一代處理器勢(shì)在必行。英偉達(dá) Xavier 是世界上第一款專為深度學(xué)習(xí)設(shè)計(jì)的自動(dòng)駕駛超級(jí)芯片,之后每兩年便在處理器性能上完成一次巨大飛躍。
同時(shí),為了拓展自動(dòng)駕駛領(lǐng)域,提升駕駛的安全性,傳感器在數(shù)量和分辨率上面臨同步增長。同時(shí)引入更復(fù)雜的 AI 模型,所有這些因素都驅(qū)使英偉達(dá)不斷提升性能。
2021 年,英偉達(dá)推出了 1000 TOPS 的 SoC——Atlan。今天,黃仁勛表示它的位置已被 Thor 取代。Thor 的吞吐量是 Atlan 的兩倍,交付性能也是 Atlan 的兩倍以上。實(shí)現(xiàn)這些目標(biāo)離不開三個(gè)因素:Grace、Hopper 和 Ada Lovelace,其中 Grace 提供了令人驚嘆的 Transformer 引擎、ViT 的快速變革,Ada 中的多實(shí)例 GPU 有助于車載計(jì)算資源的集中化,將成本降低數(shù)百美元。
Nvidia Drive Thor 采用很多新技術(shù),它可以被配置為多種模式,將其 2000 TOPS 和 2000 TFLOPs 全部用于自動(dòng)駕駛工作流。同時(shí)可以將其配置為一部分用于駕駛艙 AI 和信息娛樂,一部分用于輔助駕駛。Thor 中的多計(jì)算域隔離允許并發(fā)、對(duì)時(shí)間敏感的多進(jìn)程無中斷運(yùn)行。你可以在一臺(tái)計(jì)算機(jī)上同時(shí)運(yùn)行 Linux、QNX 和 Android。
此外,Thor 還集中了眾多計(jì)算資源,降低成本與功耗的同時(shí)實(shí)現(xiàn)功能飛躍。目前,汽車的停車、主動(dòng)安全、駕駛員監(jiān)控、攝像頭鏡像、集群和信息娛樂均由不同的計(jì)算設(shè)備控制。而未來,這些功能將不再由單獨(dú)的計(jì)算設(shè)備控制,而是由在 Thor 上運(yùn)行、并隨時(shí)間推移不斷改進(jìn)的軟件統(tǒng)一控制。
Thor 芯片預(yù)計(jì) 2025 年上車使用。
NVIDIA Drive 是一個(gè)面向自動(dòng)駕駛汽車開發(fā)與部署的端到端平臺(tái),在開發(fā)方面包含了 Replicator 合成數(shù)據(jù)生成、Drive Sim 和 Drive Map,在部署方面包含了全棧駕駛和車內(nèi) AI 應(yīng)用、AI 計(jì)算機(jī)和 Hyperion 自動(dòng)駕駛汽車參考架構(gòu)。
NVIDIA Drive 迎來了一系列功能更新,首先是名為 Neural Reconstruction Engine 的 AI 工作流,已成為了 Drive Sim 的一項(xiàng)主要功能。它可以根據(jù)記錄的傳感器數(shù)據(jù)構(gòu)建 3D 場景,在將 3D 場景導(dǎo)入 Drive Sim 之后通過人工創(chuàng)建或 AI 生成的內(nèi)容對(duì)其進(jìn)行增強(qiáng)。另外,這個(gè)從視頻到 3D 幾何圖形的工作流可以在 OVX 系統(tǒng)上運(yùn)行。
從視頻到 3D 工作流的動(dòng)態(tài)展示。
Drive Sim 的另一項(xiàng)重要功能是硬件在環(huán),意味著我們可以在 AI 工廠運(yùn)行整個(gè)車載軟件棧。它還可以模擬車內(nèi)環(huán)境,未來的汽車不僅有簡單的儀表板,還有將數(shù)字設(shè)計(jì)與物理設(shè)計(jì)相結(jié)合的環(huán)繞顯示屏,這樣汽車工程師、軟件工程師和電子工程師可以在 Drive Sim 中展開協(xié)作,同時(shí)運(yùn)行所有的實(shí)際計(jì)算機(jī)與軟件棧。
Drive Sim 成為了虛擬設(shè)計(jì)工作室。
此外,英偉達(dá)還在開發(fā) Drive 端到端自動(dòng)駕駛系統(tǒng)的其他方面取得了出色進(jìn)展,比如 Replicator 合成數(shù)據(jù)生成、AI 模型改進(jìn)、Drive Map 自動(dòng)駕駛車隊(duì)地圖構(gòu)建、城市和高速公路駕駛及停車。
Drive Map 的自動(dòng)駕駛車隊(duì)地圖構(gòu)建。
全新微型機(jī)器人系統(tǒng)級(jí)模塊
Drive Orin 是英偉達(dá)推出的第二代自動(dòng)駕駛汽車計(jì)算芯片,目前看來非常成功,已經(jīng)被 40 多家汽車、卡車和無人駕駛出租車使用。Jetson 是英偉達(dá)的機(jī)器人計(jì)算機(jī),擁有 100 萬開發(fā)者,使用的公司約為 6000 家。
今日的 GTC 大會(huì)上,黃仁勛宣布推出一款微型機(jī)器人系統(tǒng)級(jí)模塊芯片 Jetson Orin Nano,它的速度較之前的 Jetson Nano 快了 80 倍。Jetson Orin Nano 可以運(yùn)行 NVIDIA Isaac 機(jī)器人堆棧,并具有 ROS 2 GPU 加速框架。
黃仁勛還介紹了其邊緣 AI 平臺(tái) Metropolis,它可解讀攝像頭、激光雷達(dá)和其他物聯(lián)網(wǎng)傳感器的數(shù)據(jù),提高倉庫、工廠、零售商店和城市的安全性與效率。
從工業(yè)到科研,自動(dòng)駕駛到元宇宙,英偉達(dá)的業(yè)務(wù)早已從 GPU 拓展到了無數(shù)領(lǐng)域,并在很多地方都有引領(lǐng)地位。對(duì)于普通消費(fèi)者來說,顯卡也早已不是玩游戲用的了。
現(xiàn)在,新一代 GPU 已經(jīng)推出,你會(huì)選擇降價(jià)后的 RTX30,還是買新不買舊呢?