今年AI領(lǐng)域流行的熱詞無疑是Agentic AI和Physical AI。通常我們認(rèn)為Agentic AI的下一個市場突破點(diǎn)就是Physical AI:Physical AI是將AI應(yīng)用到現(xiàn)實世界實體的技術(shù)基礎(chǔ)。從這個角度來看,汽車、機(jī)器人,乃至更多工業(yè)自動化應(yīng)用都屬于Physical AI范疇。今年Computex臺北電腦展上,NVIDIA CEO黃仁勛說Physical AI是機(jī)器人革命的基石;而通用機(jī)器人將開啟下一個萬億美元行業(yè)。
在NVIDIA FY2024年報中,黃仁勛寫了一篇長達(dá)7頁的致股東信,主要是在談行業(yè)發(fā)展熱點(diǎn)與未來:其中的最后一條就是“機(jī)器人的ChatGPT時刻即將到來”。所以近幾年的GTC開發(fā)者大會及更多頂會之上,黃仁勛的主題演講一定有一部分是特別分配給機(jī)器人的。
關(guān)注NVIDIA機(jī)器人生態(tài)敘事的讀者應(yīng)該知道,NVIDIA在這一領(lǐng)域的努力、成果及延續(xù)自AI技術(shù)的絕對領(lǐng)先地位,絕不僅限于為機(jī)器人提供大腦芯片,而更大程度上在于建立起的一整套生態(tài)——構(gòu)建生態(tài)的思路,也是NVIDIA在加速計算市場近幾十年來致勝的法寶。而傳說中的“三臺計算機(jī)”生態(tài),藉由AI學(xué)習(xí)、模擬仿真、機(jī)器人本體部署三位一體,打造端到端生態(tài),才真正全面直擊了當(dāng)代具身智能機(jī)器人開發(fā)的痛點(diǎn)。
圖1:NVIDIA面向機(jī)器人的三臺計算機(jī) 圖片來源:英偉達(dá)
在前年的GTC開發(fā)者大會上,NVIDIA在媒體會上曾大致談過,面向Physical AI的“三臺計算機(jī)”生態(tài)中,對NVIDIA而言更大的盈利點(diǎn)恐怕在前兩臺計算機(jī)上——也就是用于AI學(xué)習(xí)和模擬仿真的兩臺計算機(jī);只不過顯然這兩臺計算機(jī)都是要為第三臺計算機(jī),也就是機(jī)器人本體服務(wù)的。
值得注意的是,在過去2-3年包括CES、SIGGRAPH、ISC等在內(nèi)的會議上,黃仁勛的主題演講多少都會提到Jetson Thor——且這顆芯片和平臺也有機(jī)會在今年下半年及后續(xù)數(shù)年成為新爆點(diǎn)。而Jetson就是第三臺計算機(jī)。近期有關(guān)Jetson Thor平臺的消息已經(jīng)開始頻繁活躍于網(wǎng)絡(luò)及媒體,借著這個機(jī)會,我們也有機(jī)會更進(jìn)一步理清NVIDIA在機(jī)器人領(lǐng)域的生態(tài)規(guī)劃。
未來的機(jī)器人大腦
目前NVIDIA面向嵌入式應(yīng)用的平臺主要有Jetson, DRIVE AGX, Clara AGX三者。后兩者分別是面向汽車與醫(yī)療應(yīng)用的,而Jetson目前的定位是邊緣與機(jī)器人。實際上,機(jī)器人可被看作邊緣應(yīng)用的一個子集。這三者都可以視作NVIDIA針對Physical AI布局“三臺計算機(jī)”生態(tài)的第三臺計算機(jī),只不過作為不同應(yīng)用的“大腦”存在。
所謂的“第三臺計算機(jī)”,其核心用途就是將在前兩臺計算機(jī)上完成的算法與結(jié)果部署到機(jī)器人或其他Physical AI設(shè)備本體之上。所以Jetson芯片也就成為了機(jī)器人的大腦——它可能需要負(fù)責(zé)機(jī)器人的定位導(dǎo)航、運(yùn)動軌跡規(guī)劃、全身步態(tài)控制,以及現(xiàn)代化的視覺感知、LLM/VLM/VLA大模型參與機(jī)器人的交互與任務(wù)編排等等。
從硬件角度來看,NVIDIA面向機(jī)器人提供的“大腦”芯片主要就是Jetson系列產(chǎn)品,包括更早采用Pascal、Maxwell架構(gòu)的Jetson,以及相對更偏近代Volta架構(gòu)的Jetson Xavier,和現(xiàn)在更加為人所知基于Ampere架構(gòu)的Jetson Orin。去年的ROSCon機(jī)器人大會上,我們看到現(xiàn)場超過半數(shù)的機(jī)器人及模組廠商都在用Jetson Orin,幾個月前《國際電子商情》姊妹刊《電子工程專輯》體驗過的Jetson Orin Nano也屬于其中一員。
而預(yù)計將在今年下半年推向市場的Jetson Thor將借助最新的Blackwell架構(gòu),持續(xù)強(qiáng)化機(jī)器人大腦的能力——傳說中的Isaac GR00T人形機(jī)器人開發(fā)平臺就基于Jetson Thor。雖說截止到發(fā)稿前,NVIDIA還未完全公開Jetson Thor的全部信息,但汽車應(yīng)用方向上的DRIVE AGX Thor卻已經(jīng)在今年上半年量產(chǎn),不少車廠也都已經(jīng)準(zhǔn)備將其應(yīng)用到汽車中;基于NVIDIA芯片面向不同應(yīng)用采用同架構(gòu)的特點(diǎn),Jetson Thor理論上也當(dāng)與DRIVE AGX Thor有著相似的配方。
圖2:英偉達(dá)Thor SoC架構(gòu)介紹 圖片來源:英偉達(dá)
實際在今年早些時間,NVIDIA也已經(jīng)公開談?wù)撨^Jetson Thor:預(yù)計其GPU算力為8.064 TFLOPS@FP32,1035 TOPS@FP8,以及Blackwell架構(gòu)原生支持的2070 TOPS FP4算力。更重要的是Jetson Thor的GPU采用MIG隔離技術(shù),也就是多實例GPU特性,或?qū)Y源高效利用、隔離及任務(wù)并行有幫助;以及Blackwell架構(gòu)更加適配現(xiàn)代化的AI模型,尤其是Transformer結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)的加速。
換用Blackwell架構(gòu)之所以重要,也在于今年Computex臺北電腦展上黃仁勛談到Physical AI越來越需要具備理解現(xiàn)實世界的能力,包括對象永續(xù)性在內(nèi)的各種物理世界規(guī)則——而對這些有更好的理解能力,一定程度上需要依托Agentic AI及邏輯推理(reason)。Ampere架構(gòu)受制于較老的NVDLA神經(jīng)網(wǎng)絡(luò)加速單元,在處理這類工作方面的能力顯然是不及算力水平更高且加入Transformer引擎的Blackwell架構(gòu)的。同時,在“三臺計算機(jī)”生態(tài)中,作為第三臺計算機(jī)的Jetson與另外兩臺保持Blackwell架構(gòu)同步,在部署和遷移上大概于開發(fā)者也更友好。
相關(guān)Jetson Thor尤為值得一提的是,其CPU部分將會是14個基于ARMv9架構(gòu)的Poseidon-AE核心,也就是Neoverse V3AE。CPU性能提升2倍以上,讓Jetson更大程度上作為機(jī)器人腦獨(dú)當(dāng)一面,尤其強(qiáng)化實時控制的能力,包括電機(jī)驅(qū)動、傳感器融合等。
另外,再加上內(nèi)存帶寬提升(LPDDR5X)、安全子系統(tǒng)升級、更多加速器集群、IO擴(kuò)展能力加強(qiáng)、適配更小的體積等等,基于Blackwell架構(gòu)的Jetson Thor在我們看來,是讓“Physical AI”“具身智能”及AI機(jī)器人等稱謂真正名副其實的芯片及平臺——而“機(jī)器人的ChatGPT時刻”也將從這里開始。
開發(fā)生態(tài)可能才是殺招
但這些不是Jetson的全部。黃仁勛總說,NVIDIA是一家軟件公司。這話在作為機(jī)器人第三臺計算機(jī)的Jetson平臺同樣適用。要知道,此前《電子工程專輯》在體驗Jetson Orin Nano的過程中,在完全零基礎(chǔ)、零代碼的情況下達(dá)成了對象識別、與機(jī)器人對話的功能開發(fā),這與Jetson完善的開發(fā)生態(tài)是分不開的,也是任何其他同類競品平臺做不到的——尤其在加上另外兩臺計算機(jī)的情況下。
2019年NVIDIA發(fā)布的Isaac SDK正是基于AI的機(jī)器人開發(fā)平臺——當(dāng)時我們在GTC之上看到的Isaac還比較初級。而到去年NVIDIA參加ROSCon,我們再見Isaac,其完善程度已不可同日而語了。
圖3:Isaac GR00T開放式人形機(jī)器人開發(fā)平臺,其中Isaac是生態(tài)關(guān)鍵 圖片來源:英偉達(dá)
Isaac本身的核心構(gòu)成組件及NVIDIA為此搭建起的參考工作流尤為多樣化。受限于篇幅,本文不打算對其做完整介紹。不過,有個例子在我們看來是頗具代表性的,也代表真正可投入生產(chǎn)的機(jī)器人開發(fā)流程會是怎樣。當(dāng)時的主題演講中,NVIDIA工程師特別談到了機(jī)械臂的隨機(jī)深框抓取,也就是機(jī)械臂藉由視覺感知去抓取雜亂無章的對象,同時要將其以特定位姿擺到下游的生產(chǎn)線上。
NVIDIA針對這一問題采用的是名為Isaac Manipulator的參考工作流,特別面向工業(yè)機(jī)械臂。其大致工作流程是這樣的:首先將來自3D相機(jī)的RGBD數(shù)據(jù)流喂給檢測算法,將所有實例的mask識別出來;后續(xù)的決策算法根據(jù)設(shè)計好的排序規(guī)則,對不同實例打分,打分最高的mask喂給FoundationPose(6D位姿估計算法);然后基于高精度要求,接入精匹配(fine matching)算法來修正6D位姿估計結(jié)果。
最后將識別到的、需要抓取目標(biāo)的6D位姿,發(fā)給碰撞檢測模塊——cuMotion是可用于在復(fù)雜動態(tài)環(huán)境中進(jìn)行無碰撞軌跡規(guī)劃的算法,根據(jù)機(jī)械臂狀態(tài)、目標(biāo)6D位姿、環(huán)境中的障礙物,來求解是否存在無碰撞的全局軌跡——若沒有,則注冊為失敗的mask,決策算法會給出對應(yīng)懲罰;如果有,則調(diào)用Motion Generation算法,生成機(jī)械臂的低層級控制,發(fā)往控制器完成動作。
圖4:英偉達(dá)隨機(jī)無序抓取解決方案架構(gòu)設(shè)計 圖片來源:英偉達(dá)
上面這兩段內(nèi)容可能有一些晦澀難懂,總的來說這套流程包含了感知、決策、控制三部分。這套工作流的關(guān)鍵組成部分包括了3個基礎(chǔ)模型:實時目標(biāo)檢測算法SyntheticaDETR、6D位姿估計和追蹤的預(yù)訓(xùn)練模型FoundationPose、無碰撞軌跡的cuMotion;硬件層面會藉由GPU并行加速。借此,我們大致能看到生成式AI在當(dāng)代機(jī)器人開發(fā)解決方案中的重要性。
作為參考工作流,Isaac Manipulator著眼于讓開發(fā)者快速部署和驗證已有算法,機(jī)器人開發(fā)者當(dāng)然可以選擇參考其中的部分模塊或整個工作流,并將自己的產(chǎn)品集成到其中。目前采用Isaac Manipulator方案的機(jī)器人企業(yè)已經(jīng)不少( 當(dāng)時會上列舉的如Franka Robotics, intrinsic, Picknik, Solomon, Yaskawa等)。
將這個例子套用到NVIDIA的“三臺計算機(jī)”生態(tài)上,情況就變成了這樣:第一臺做AI模型訓(xùn)練——包括感知、抓取、6D位姿估計與追蹤等——NVIDIA在其中也提供不少預(yù)訓(xùn)練模型;第二臺則是仿真計算機(jī),底層是Omniverse,更具體地說建基于Isaac Sim機(jī)器人仿真軟件;第三臺就是采用Jetson芯片及Isaac ROS的機(jī)器人,將前兩臺計算機(jī)得到的算法與結(jié)果部署到機(jī)器人本體。
可以說,一方面Isaac作為綜合完整的機(jī)器人開發(fā)平臺,真正加速了AI機(jī)器人的模型構(gòu)建、模擬仿真、部署,即加速了具身智能的潛在大規(guī)模落地;另一方面,Isaac構(gòu)建起的機(jī)器人開發(fā)生態(tài)系統(tǒng),涵蓋的軟件框架、仿真環(huán)境、AI模型、硬件加速庫等,達(dá)成的完整性、易用性、可擴(kuò)展和定制性,幾乎沒有其他機(jī)器人開發(fā)平臺可比擬——構(gòu)建閉環(huán)生態(tài)和標(biāo)準(zhǔn)的思路,就是NVIDIA在諸多應(yīng)用領(lǐng)域百戰(zhàn)不殆的典型。
達(dá)成萬億市場規(guī)模的潛力
受限于篇幅,本文對于NVIDIA構(gòu)建機(jī)器人生態(tài)的側(cè)重點(diǎn)還是放在了第三臺計算機(jī)上。實際上,另外兩臺現(xiàn)階段更能產(chǎn)生價值的計算機(jī)也向來是我們關(guān)注的重點(diǎn),包括以DGX為代表的第一臺計算機(jī),用于AI模型預(yù)訓(xùn)練或后訓(xùn)練;以及負(fù)責(zé)跑Omniverse + Cosmos的第二臺計算機(jī),用于對AI模型做訓(xùn)練、測試、驗證和模擬仿真更是我們以往探討的核心。
加上最終落地部署到Jetson Thor及機(jī)器人本體之上,這些共同構(gòu)成了潛在的萬億美元行業(yè)規(guī)模,及人類與機(jī)器人共生、具身智能參與到大量生產(chǎn)工作中的未來。
圖5:今年GTC發(fā)布的GR00T N1模型 圖片來源:英偉達(dá)
在走向這一目標(biāo)的過程中,有這樣一個基本邏輯:以人形機(jī)器人為代表的、更具泛化和通用性的機(jī)器人,將有機(jī)會真正實現(xiàn)機(jī)器人技術(shù)的規(guī)?;?。
就像Computex上黃仁勛說的“人形機(jī)器人令人驚嘆之處,并不僅在于它能做什么,而更在于它相當(dāng)通用(versatile)。”“技術(shù)需要規(guī)?;?scale)。絕大部分已有的機(jī)器人系統(tǒng),到目前為止,量都還太少。
量少的系統(tǒng)很難做到技術(shù)的規(guī)模化,并最終走得夠遠(yuǎn)、夠快。”這是人形機(jī)器人現(xiàn)在如此受追捧,并讓機(jī)器人技術(shù)做到規(guī)?;推占暗牡讓舆壿嫛?span style=display:none>GYSesmc
所以去年NVIDIA也推出了Isaac GR00T(當(dāng)時還叫Project GR00T)人形機(jī)器人開發(fā)平臺,及著眼于開發(fā)通用機(jī)器人基礎(chǔ)模型的主旨。今年GTC上,開源的Isaac GR00T N1模型就問世了——基于合成數(shù)據(jù)做生成、學(xué)習(xí)和模擬仿真;后續(xù)更新的Isaac GR00T N1.5今年6月份Computex期間也已經(jīng)達(dá)到6,000次下載量。
Computex上,NVIDIA發(fā)布Isaac GR00T-Dreams這一參考工作流,建基于Cosmos,用于大規(guī)模合成軌跡數(shù)據(jù)生成,更是依托Omniverse + Cosmos第二臺計算機(jī)、借助生成未來世界狀態(tài)的夢境(Dreams)嘗試解決機(jī)器人開發(fā)當(dāng)下缺數(shù)據(jù)的問題。GTC期間發(fā)布的開源Physical AI數(shù)據(jù)集更是NVIDIA嘗試解決行業(yè)缺數(shù)據(jù)痛點(diǎn)的身體力行。
且在NVIDIA自身生態(tài)建設(shè)努力之外,我們也看到Jetson平臺與Isaac生態(tài)正持續(xù)添磚加瓦:比如智元機(jī)器人用GR00T Teleop + GR00T Mimic打造仿真遙操作數(shù)據(jù)采集和擴(kuò)增方案;群核空間智能平臺SpatialVerse則基于Isaac Sim構(gòu)建具身智能“世界模擬器”;堅米智能藉由Isaac Lab構(gòu)建仿真訓(xùn)練模型,加速四足機(jī)器人開發(fā);銀河通用借助Isaac Lab建起大規(guī)模機(jī)器人靈巧抓握數(shù)據(jù)集和仿真測試環(huán)境,加速靈巧手泛化抓取技能的落地......
相對的,更落地的成果表現(xiàn)在諸如光輪智能開始將GR00T N1和N1.5模型部署到汽車制造生產(chǎn)線;傅里葉推出的GR-2人形機(jī)器人借助Isaac Gym(現(xiàn)在的Isaac Lab)進(jìn)行強(qiáng)化學(xué)習(xí)和場景仿真,還有我們在ROSCon上看到的諸多已經(jīng)應(yīng)用在科研領(lǐng)域的機(jī)器人成品。
隨著Jetson Thor的上市,預(yù)計越來越多的機(jī)器人都會用上Jetson Thor芯片與Isaac開發(fā)平臺,享受“三臺計算機(jī)”帶來的開發(fā)便利,并在Blackwell新架構(gòu)的加持下達(dá)成
更高水平的機(jī)器人智能。圍繞三臺計算機(jī)生態(tài),從底層算力基礎(chǔ),到模型、算法、數(shù)據(jù)、開發(fā)工具鏈,及具體上層應(yīng)用的參考工作流,層層覆蓋并解決機(jī)器人開發(fā)遭遇的挑戰(zhàn)和痛點(diǎn),在形成開發(fā)粘性與生態(tài)依賴的同時,協(xié)同上下游及外圍合作伙伴,全面加速具身智能、機(jī)器人在商業(yè)生產(chǎn)上的應(yīng)用,推動機(jī)器人在人類社會的普及——現(xiàn)在真正做到了這一點(diǎn)的,大概也只有NVIDIA了。