“我的特殊技能是,理解你的意圖、解答你的問題,幫你取放物品,你看看需要我做什么呢?”
在眾人的注視下,人形機器人“夸父”依次完成了識別華為云相關物品、問答互動、擊掌等動作。
令人驚訝的是,通過對話,“夸父”理解了口渴的情境,在擺放著瓶裝水、白色盒子、蘋果的桌面,選擇了“可以解渴”的瓶裝水并成功拿起遞給指令者。
走進華為開發(fā)者大會(HDC 2024)現(xiàn)場,可以看到,以掃地機器人、機械臂、無人機為代表的傳統(tǒng)機器人敘事已經被徹底顛覆。給類人身體的機器人安裝上大模型大腦,打開了無限的想象空間。
人類對機器人的終極期待是什么,答案已經呼之欲出。
但技能操作訓練數(shù)據(jù)的獲取和機器人技能操作的泛化和可遷移性,依然是具身智能演進過程中的難題。
對此,華為常務董事、華為云CEO張平安指出,“多模態(tài)大模型的理解與生成能力的快速發(fā)展,讓具身智能機器人成為了可能。 ”
“正如大家所期望的,讓機器人幫助我們去洗衣、做飯、掃地,我們會有更多的時間去看書,寫詩,作畫?!?/p>
當機器人擁有“大腦”
“人形機器人真正的爆發(fā),需要強人工智能支撐它走入場景中?!边@個觀點,樂聚董事長冷曉琨堅持了很多年。
“人形機器人爆發(fā)必須要滿足兩個條件:像博士一樣聰明,像家電一樣便宜。像家電一樣便宜,是機器人本體企業(yè)要做的產業(yè)化,像博士一樣聰明,則需要強智能去解決不同場景的泛化問題?!?/p>
冷曉琨知道自己的長處,自2016年創(chuàng)立樂聚機器人以來,他一直在“小腦”的部分發(fā)力,控制人形機器人的成本、研究算法讓機器人兩條腿穩(wěn)定行走,“產業(yè)化”成為公司的核心優(yōu)勢。
但他明白,更重要的“0-1”的奇點時刻還未到來,自己還需要等待。直到大模型出現(xiàn),他很快就意識到,人形機器人的“大腦”來了。
一方面,通過多模態(tài)環(huán)境感知信息的整合,大模型可以幫助人形機器人進行更高效的決策和規(guī)劃;另一方面,大模型提供了高層級的視覺和語言智能,形成行為數(shù)字化、知識遷移的良好路徑。
在他看來,知識遷移、行為數(shù)字化正是人形機器人和大模型結合最核心的點。
冷曉琨感到機會臨近,自己必須加快步伐,尋求和大模型廠商的合作。一方面,旗下機器人需要大模型解決泛化問題;另一方面,構建機器人大模型,需要收集大規(guī)模機器人操作數(shù)據(jù)集、攻關基礎大模型架構、算力平臺、云端平臺,是一個投入巨大的工作,他需要找到一個有深厚積累的合作方。
恰在此時,華為云盤古大模型出現(xiàn)在他面前。初步接洽后,雙方很快就確定了合作方向,除了打造人形機器人產品,更重要的是孵化出一套通用的具身智能機器人解決方案。
“‘人形機器人+大模型’的工作流程,從本體控制、數(shù)據(jù)采集、模型訓練、部署、邊端側部署、云端訓練,需要一套完善的工作鏈,構建持續(xù)演進的數(shù)據(jù)飛輪?!?/p>
合作中,雙方將打通技術路線,聯(lián)合構建人形機器人標準數(shù)據(jù)集、系統(tǒng)和工具鏈,孵化出面向家居、工業(yè)等多場景的解決方案。在HDC 2024現(xiàn)場,這套解決方案的階段性成果首次亮相。
“如果沒有大模型的爆發(fā),人形機器人可能還追不上這波熱潮。”冷曉琨說。
“AI新貴”
包括冷曉琨在內,許多人都意識到了大模型的到來,給人形機器人提供了關鍵的發(fā)展契機。近一年來,具身智能成為了AI領域討論熱度最高的概念之一。
當然,人形機器人不能和具身智能劃等號,具身智能涵蓋的范圍應該更廣。具體應該如何理解具身智能,清華大學交叉信息研究院助理教授許華哲認為,可以從三個層面理解:首先是具有身體的智能,再深一層是通過和現(xiàn)實世界的交互來提升智能,更深一層是擁有“我”的主體,感官、傳感器、經歷都是私有的,所有數(shù)據(jù)都來自于自己。
業(yè)界普遍認為,具身智能將是人工智能領域的下一波浪潮,這股樂觀的情緒也傳遞到了資本市場。
高盛研究報告最新預測,到2035年,全球人形機器人的市場容量將達到380億美元,是此前預期的60億美元的6倍以上。影響這一增長的關鍵因素,是機器人大語言模型的進步。
數(shù)據(jù)顯示,近半年,國內出現(xiàn)了近百家機器人公司,許多非機器人背景企業(yè)也爭相涌入賽道。
為何會在此時掀起一波具身智能熱潮,對于其背后的技術驅動因素,許華哲認為,有兩點值得關注,一個是本體積累到了一定的水平,機器人制造成本下降,性能并沒有降低。
另一個,更加核心的在于智能技術的突破,包括大模型和算法。
在具身智能中,大模型主要扮演三重角色:一是理解,承擔具身智能里語義理解和判斷規(guī)劃的部分;二是扮演“老師”,大模型起到了很好的示范作用,讓大家看到,神經網絡能產生一種規(guī)模效應,只要算法和目標函數(shù)足夠好,隨著數(shù)據(jù)增多,具身智能的表現(xiàn)也會線性增強;三是產生新的具身智能模型算法架構,比如VLA(Vision Language Action),就是以原生多模態(tài)大模型的方式去訓練視覺、語言、動作,將這三個模態(tài)聯(lián)合在一起。
另外,模仿學習和談話學習等相關技術的算法突破,讓研究者擁有了更好的數(shù)據(jù)擬合能力和在仿真里做遷移、往現(xiàn)實中做遷移的能力。
“看起來,具身智能離真正部署到現(xiàn)實場景中更近了。”
亦有隱憂
大模型到來盡管加速了發(fā)展,但距離真正的具身智能落地,似乎還有不容忽視的距離。
長期以來,具身智能都面對著高質量訓練數(shù)據(jù)缺失、復雜具身長序任務規(guī)劃難、可泛化的雙臂協(xié)同多任務處理不易、缺乏統(tǒng)一的開發(fā)工具套件等難題。
數(shù)據(jù)方面,物理世界的數(shù)字化還處于很初級的階段,具身智能需要現(xiàn)實世界數(shù)據(jù)來進行訓練,但從現(xiàn)實角度看,目前還很難獲取足夠的數(shù)據(jù)。
對此,許華哲舉了個例子,來說明具身智能的“數(shù)據(jù)困境”。對大模型而言,網上的每一段對話、書里的所有文字,人類的知識都是高質量的數(shù)據(jù)。但就具身智能而言,理想數(shù)據(jù)是人在各種場景下的行為數(shù)據(jù)。短時間內,我們還無法直接用人體數(shù)據(jù)去訓練,只能利用具身智能本體。
“不過,因為智能性不夠,沒有人愿意用,不使用就采不了數(shù)據(jù),采不了數(shù)據(jù)智能性就提升不上去,這有點像雞生蛋蛋生雞的悖論。”
現(xiàn)在,國內“機器人大腦”廠商都在努力驅動這個數(shù)據(jù)飛輪的構建,以促進具身智能大模型的涌現(xiàn)能力出現(xiàn)。
有聲音提倡使用仿真合成數(shù)據(jù)去喂養(yǎng)機器人,但另一種聲音堅持,數(shù)據(jù)需要從現(xiàn)實世界獲取,不能靠虛擬合成。截至目前,業(yè)內還未形成同一的共識,這直接導致,具身智能大模型的泛化性與智能涌現(xiàn)成為下一個痛點。
隨著具身智能本體形態(tài)從傳統(tǒng)的協(xié)作機械臂、復合工業(yè)機器人、四足機器人向雙足類人形的發(fā)展,對“大腦”提出了極高的挑戰(zhàn)。
但就眼下的情況來看,許多大模型的語料缺乏物理世界交互的數(shù)據(jù),無法勝任對物理空間任職要求高的任務,也無法理解和預測當前執(zhí)行序列對環(huán)境的作用和影響,無法勝任環(huán)境動態(tài)性強的長序列規(guī)劃。
與此同時,現(xiàn)有的通用大模型多采用單個模型實現(xiàn)單個任務,沒有在單模型下對多任務的大規(guī)模數(shù)據(jù)進行訓練,現(xiàn)有技術對任務、新環(huán)境泛化能力差,對于新任務,只能重新訓練模型,無法微調。
如何讓機器人像人一樣思考并根據(jù)實際情況作出長序列自主規(guī)劃,成為了桎梏具身智能走向應用的關鍵問題。
盤古大模型的解決之道
對于以上痛點,盤古大模型采取的核心解決之道是,融合多種具身領域的不同模態(tài)數(shù)據(jù),借助大模型對物理世界的通用知識理解,構建具身智能領域大模型。
據(jù)介紹,盤古大模型5.0能夠精準理解和重構物理世界,支持在10k×10k的圖片中準確理解微小的細節(jié)內容,能夠根據(jù)行業(yè)的要求,生成出符合物理規(guī)律的內容。機器人等智能設備可以從人類的示范中學習,從物理世界的反饋中成長。
為了讓機器人更快的學習和應用到復雜的場景,盤古大模型5.0還新增了多模態(tài)視頻生成能力,使用視頻生成大模型生成機器人需要的訓練數(shù)據(jù),從而具備更多場景下的泛化能力。
面對多場景的綜合具身長序任務規(guī)劃的難題,業(yè)界當前只能規(guī)劃1-2步,但盤古大模型5.0,可以讓機器人能夠完成10步以上的復雜任務規(guī)劃。
這背后依賴于多模態(tài)具身XoT能力,能減少幻覺,提升任務規(guī)劃的可靠性,以及基于環(huán)境交互的自演進能力,通過構建任務驅動的多模態(tài)值函數(shù)評估與本體和環(huán)境的匹配度,進而迭代大腦適配小腦的任務規(guī)劃能力。
面向工業(yè)、家居等場景,具身智能缺乏可泛化的雙臂協(xié)同多任務處理能力,就必須對單個技能進行訓練。
盤古大模型5.0基于可擴展的Diffusion Transformer架構,很好地解決了動作多樣性問題,同時擴展輸入輸出和網絡規(guī)模,滿足大規(guī)模數(shù)據(jù)訓練需求、確保圖像標記專注于語言指令。
另一邊,盤古大模型5.0還使用了大規(guī)模開源數(shù)據(jù)集以及仿真環(huán)境數(shù)據(jù)進行自監(jiān)督預訓練,對真實數(shù)據(jù)進行圖像物體和背景增強,并在新任務下進行高效微調,以實現(xiàn)泛化的、雙臂協(xié)同的、多任務并發(fā)處理。
通過通用的具身Agent框架,盤古大模型5.0還可以賦能不同的生態(tài)伙伴來快速構建適配自己的本體硬件的場景化智能應用。
這樣的思路無疑是正確的,許華哲提到,多模態(tài)是具身智能大模型的必備屬性,如果沒有語言和視覺,就很難理解真實的世界。生成能力也非常重要,雖然通過大模型生成的數(shù)據(jù)質量不如仿真器,但勝在量極大、成本低且受真實條件限制少。
對于當初選中盤古大模型的原因,冷曉琨提到,一個是技術寬度,盤古大模型是一系列大規(guī)模預訓練模型,包含自然語言處理、計算機視覺、科學計算等領域。經過有效整合,可以對人形機器人能力極大賦能。
另一個是技術深度,盤古大模型在多模態(tài)理解、生成等領域的持續(xù)創(chuàng)新與投入,使其具備了為人形機器人提供“聰明大腦”的基礎,從而提升其在復雜任務場景下的操作水平。此外,盤古大模型在多個行業(yè)垂直領域大模型的實踐上,已有豐富的成果與應用,他期待其后續(xù)能帶動人形機器人走入更多的應用場景。
張平安表示,除了人形機器人,盤古大模型還可以賦能工業(yè)機器人和服務機器人等多形態(tài)機器人, 讓它們幫助人類去從事危險和繁重的工作。
另外,除了具身智能行業(yè),依賴多模態(tài)特性,盤古大模型還在重塑各行各業(yè),形成了鋼鐵大模型、高鐵大模型、氣象大模型、媒體大模型等,重塑自動駕駛、工業(yè)設計、建筑設計等流程,和更多應用場景得到結合。
落地已不再遙遠
就像大模型發(fā)展到一定程度路徑會分化一樣,具身智能行業(yè)如今也出現(xiàn)了兩方意見,理想派喜歡談AI與具身智能,將人形機器人視為終極形態(tài)與最高理想;現(xiàn)實派則更看重AI機器人與商業(yè)應用場景的結合,講究短期內的商業(yè)回報。
一個核心事實是,相比于大模型,具身智能的商業(yè)化道路更直接、也更易實現(xiàn)。
通用大模型往往要達到“涌現(xiàn)”后,才能產生商業(yè)價值,但對于具身智能,即便大腦未達到“涌現(xiàn)”,只要匹配了合適的場景和形態(tài),就能帶來商業(yè)利潤。
許華哲指出,短期來看,雖然具身智能還無法擁有巨大的能力,但是它可以在一些局部的場景產生能力,進而帶來收益,甚至失效之后帶來的損失也沒有那么大。
根據(jù)媒體此前報道,多位行業(yè)人士表示,盡管初等泛化能力的AI機器人還沒有頂尖聰明,但也有望在短期內落地。
“人形機器人本體運動這部分,大家做得很好了,大模型智能性部分也足夠了,現(xiàn)在我們看到的問題,更多是因兩者融合產生的。關于融合的創(chuàng)新性工作不是很多,這些需要時間才能磨出來?!崩鋾早硎尽?/p>
在這場時間的賽跑中,中國已經顯現(xiàn)出了一定的基礎優(yōu)勢。《人形機器人技術專利分析報告》顯示,近10年,我國在人形機器人技術專利上實現(xiàn)了從落后到跟跑乃至領跑,人形機器人專利申請數(shù)量和有效專利數(shù)量均位居全球第一。
更重要的是,作為制造業(yè)大國,中國擁有良好的工業(yè)基礎,供應鏈優(yōu)勢明顯,企業(yè)能以更低的成本完成更高性能的本體。
冷曉琨深刻體會到了這一變化,2018年公司做第一臺全尺寸人形機器人時,成本接近300萬,且核心的零部件都來源于進口。但等到和華為一起發(fā)布夸父,不僅制造成本降低了90%,而且零部件基本實現(xiàn)了國產化,沒有一個依賴進口。
而且,因為制造業(yè)發(fā)達,所以中國對工業(yè)機器人的需求量也比較大,市場前景非常樂觀。
在此背景下,中國也在從頂端設計方面加緊具身智能布局,去年11月,工信部發(fā)布《人形機器人創(chuàng)新發(fā)展指導意見》,提出到2025年,人形機器人創(chuàng)新體系初步建立;到2027年,綜合實力達到世界先進水平,成為重要的經濟增長新引擎。
《意見》明確提出,人形機器人集成人工智能、高端制造、新材料等先進技術,有望成為繼計算機、智能手機、新能源汽車后的顛覆性產品,將深刻變革人類生產生活方式,重塑全球產業(yè)發(fā)展格局。當前,人形機器人技術加速演進,已成為科技競爭的新高地、未來產業(yè)的新賽道、經濟發(fā)展的新引擎。
看起來,中國將在全球具身智能競賽中扮演重要的角色。有觀點稱,具身智能創(chuàng)業(yè)理應在中國發(fā)生,而不是大洋彼岸的硅谷——相比之下,中國不僅有更強大的機器人生產能力、也有機器人應用場景,需求供給都比硅谷更強勢。
許華哲認可這種聲音,“幾十年工業(yè)體系帶來的積累,其他人確實比較難追趕。”
與此同時,擁有更高泛化能力的具身智能,始終是行業(yè)追求的方向。
提到理想的具身智能,許華哲覺得,一方面它的智商和情感要和現(xiàn)有大模型水平匹配,另一方面應該擁有基礎的工作能力。
這樣的具身智能應該匹配怎樣的大模型,許華哲作出了設想,在訓練端,大模型應該可以給具身智能提供合成數(shù)據(jù),作為具身智能的規(guī)劃器和場景理解器;部署時,大模型可能會是一個云上的超級大腦。
“就像我們遇到一個事搞不定了,給一個專家朋友打電話一樣,大模型就是那個專家朋友。”
為了實現(xiàn)這樣的理想大模型,盡管道路曲折,但以華為為代表的企業(yè),已經走在了正確的方向上。