五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

新商業(yè)
AI的下一波浪潮,具身智能需要怎樣的大模型?

“我的特殊技能是,理解你的意圖、解答你的問題,幫你取放物品,你看看需要我做什么呢?”

在眾人的注視下,人形機(jī)器人“夸父”依次完成了識(shí)別華為云相關(guān)物品、問答互動(dòng)、擊掌等動(dòng)作。

令人驚訝的是,通過對(duì)話,“夸父”理解了口渴的情境,在擺放著瓶裝水、白色盒子、蘋果的桌面,選擇了“可以解渴”的瓶裝水并成功拿起遞給指令者。

走進(jìn)華為開發(fā)者大會(huì)(HDC 2024)現(xiàn)場(chǎng),可以看到,以掃地機(jī)器人、機(jī)械臂、無人機(jī)為代表的傳統(tǒng)機(jī)器人敘事已經(jīng)被徹底顛覆。給類人身體的機(jī)器人安裝上大模型大腦,打開了無限的想象空間。

人類對(duì)機(jī)器人的終極期待是什么,答案已經(jīng)呼之欲出。

但技能操作訓(xùn)練數(shù)據(jù)的獲取和機(jī)器人技能操作的泛化和可遷移性,依然是具身智能演進(jìn)過程中的難題。

對(duì)此,華為常務(wù)董事、華為云CEO張平安指出,“多模態(tài)大模型的理解與生成能力的快速發(fā)展,讓具身智能機(jī)器人成為了可能。 ”

“正如大家所期望的,讓機(jī)器人幫助我們?nèi)ハ匆?、做飯、掃地,我們?huì)有更多的時(shí)間去看書,寫詩,作畫?!?/p>

當(dāng)機(jī)器人擁有“大腦”

“人形機(jī)器人真正的爆發(fā),需要強(qiáng)人工智能支撐它走入場(chǎng)景中?!边@個(gè)觀點(diǎn),樂聚董事長冷曉琨堅(jiān)持了很多年。

“人形機(jī)器人爆發(fā)必須要滿足兩個(gè)條件:像博士一樣聰明,像家電一樣便宜。像家電一樣便宜,是機(jī)器人本體企業(yè)要做的產(chǎn)業(yè)化,像博士一樣聰明,則需要強(qiáng)智能去解決不同場(chǎng)景的泛化問題?!?/p>

冷曉琨知道自己的長處,自2016年創(chuàng)立樂聚機(jī)器人以來,他一直在“小腦”的部分發(fā)力,控制人形機(jī)器人的成本、研究算法讓機(jī)器人兩條腿穩(wěn)定行走,“產(chǎn)業(yè)化”成為公司的核心優(yōu)勢(shì)。

但他明白,更重要的“0-1”的奇點(diǎn)時(shí)刻還未到來,自己還需要等待。直到大模型出現(xiàn),他很快就意識(shí)到,人形機(jī)器人的“大腦”來了。

一方面,通過多模態(tài)環(huán)境感知信息的整合,大模型可以幫助人形機(jī)器人進(jìn)行更高效的決策和規(guī)劃;另一方面,大模型提供了高層級(jí)的視覺和語言智能,形成行為數(shù)字化、知識(shí)遷移的良好路徑。

在他看來,知識(shí)遷移、行為數(shù)字化正是人形機(jī)器人和大模型結(jié)合最核心的點(diǎn)。

冷曉琨感到機(jī)會(huì)臨近,自己必須加快步伐,尋求和大模型廠商的合作。一方面,旗下機(jī)器人需要大模型解決泛化問題;另一方面,構(gòu)建機(jī)器人大模型,需要收集大規(guī)模機(jī)器人操作數(shù)據(jù)集、攻關(guān)基礎(chǔ)大模型架構(gòu)、算力平臺(tái)、云端平臺(tái),是一個(gè)投入巨大的工作,他需要找到一個(gè)有深厚積累的合作方。

恰在此時(shí),華為云盤古大模型出現(xiàn)在他面前。初步接洽后,雙方很快就確定了合作方向,除了打造人形機(jī)器人產(chǎn)品,更重要的是孵化出一套通用的具身智能機(jī)器人解決方案。

“‘人形機(jī)器人+大模型’的工作流程,從本體控制、數(shù)據(jù)采集、模型訓(xùn)練、部署、邊端側(cè)部署、云端訓(xùn)練,需要一套完善的工作鏈,構(gòu)建持續(xù)演進(jìn)的數(shù)據(jù)飛輪。”

合作中,雙方將打通技術(shù)路線,聯(lián)合構(gòu)建人形機(jī)器人標(biāo)準(zhǔn)數(shù)據(jù)集、系統(tǒng)和工具鏈,孵化出面向家居、工業(yè)等多場(chǎng)景的解決方案。在HDC 2024現(xiàn)場(chǎng),這套解決方案的階段性成果首次亮相。

“如果沒有大模型的爆發(fā),人形機(jī)器人可能還追不上這波熱潮?!崩鋾早f。

“AI新貴”

包括冷曉琨在內(nèi),許多人都意識(shí)到了大模型的到來,給人形機(jī)器人提供了關(guān)鍵的發(fā)展契機(jī)。近一年來,具身智能成為了AI領(lǐng)域討論熱度最高的概念之一。

當(dāng)然,人形機(jī)器人不能和具身智能劃等號(hào),具身智能涵蓋的范圍應(yīng)該更廣。具體應(yīng)該如何理解具身智能,清華大學(xué)交叉信息研究院助理教授許華哲認(rèn)為,可以從三個(gè)層面理解:首先是具有身體的智能,再深一層是通過和現(xiàn)實(shí)世界的交互來提升智能,更深一層是擁有“我”的主體,感官、傳感器、經(jīng)歷都是私有的,所有數(shù)據(jù)都來自于自己。

業(yè)界普遍認(rèn)為,具身智能將是人工智能領(lǐng)域的下一波浪潮,這股樂觀的情緒也傳遞到了資本市場(chǎng)。

高盛研究報(bào)告最新預(yù)測(cè),到2035年,全球人形機(jī)器人的市場(chǎng)容量將達(dá)到380億美元,是此前預(yù)期的60億美元的6倍以上。影響這一增長的關(guān)鍵因素,是機(jī)器人大語言模型的進(jìn)步。

數(shù)據(jù)顯示,近半年,國內(nèi)出現(xiàn)了近百家機(jī)器人公司,許多非機(jī)器人背景企業(yè)也爭(zhēng)相涌入賽道。

為何會(huì)在此時(shí)掀起一波具身智能熱潮,對(duì)于其背后的技術(shù)驅(qū)動(dòng)因素,許華哲認(rèn)為,有兩點(diǎn)值得關(guān)注,一個(gè)是本體積累到了一定的水平,機(jī)器人制造成本下降,性能并沒有降低。

另一個(gè),更加核心的在于智能技術(shù)的突破,包括大模型和算法。

在具身智能中,大模型主要扮演三重角色:一是理解,承擔(dān)具身智能里語義理解和判斷規(guī)劃的部分;二是扮演“老師”,大模型起到了很好的示范作用,讓大家看到,神經(jīng)網(wǎng)絡(luò)能產(chǎn)生一種規(guī)模效應(yīng),只要算法和目標(biāo)函數(shù)足夠好,隨著數(shù)據(jù)增多,具身智能的表現(xiàn)也會(huì)線性增強(qiáng);三是產(chǎn)生新的具身智能模型算法架構(gòu),比如VLA(Vision Language Action),就是以原生多模態(tài)大模型的方式去訓(xùn)練視覺、語言、動(dòng)作,將這三個(gè)模態(tài)聯(lián)合在一起。

另外,模仿學(xué)習(xí)和談話學(xué)習(xí)等相關(guān)技術(shù)的算法突破,讓研究者擁有了更好的數(shù)據(jù)擬合能力和在仿真里做遷移、往現(xiàn)實(shí)中做遷移的能力。

“看起來,具身智能離真正部署到現(xiàn)實(shí)場(chǎng)景中更近了?!?br>
亦有隱憂

大模型到來盡管加速了發(fā)展,但距離真正的具身智能落地,似乎還有不容忽視的距離。

長期以來,具身智能都面對(duì)著高質(zhì)量訓(xùn)練數(shù)據(jù)缺失、復(fù)雜具身長序任務(wù)規(guī)劃難、可泛化的雙臂協(xié)同多任務(wù)處理不易、缺乏統(tǒng)一的開發(fā)工具套件等難題。

數(shù)據(jù)方面,物理世界的數(shù)字化還處于很初級(jí)的階段,具身智能需要現(xiàn)實(shí)世界數(shù)據(jù)來進(jìn)行訓(xùn)練,但從現(xiàn)實(shí)角度看,目前還很難獲取足夠的數(shù)據(jù)。

對(duì)此,許華哲舉了個(gè)例子,來說明具身智能的“數(shù)據(jù)困境”。對(duì)大模型而言,網(wǎng)上的每一段對(duì)話、書里的所有文字,人類的知識(shí)都是高質(zhì)量的數(shù)據(jù)。但就具身智能而言,理想數(shù)據(jù)是人在各種場(chǎng)景下的行為數(shù)據(jù)。短時(shí)間內(nèi),我們還無法直接用人體數(shù)據(jù)去訓(xùn)練,只能利用具身智能本體。

“不過,因?yàn)橹悄苄圆粔颍瑳]有人愿意用,不使用就采不了數(shù)據(jù),采不了數(shù)據(jù)智能性就提升不上去,這有點(diǎn)像雞生蛋蛋生雞的悖論?!?/p>

現(xiàn)在,國內(nèi)“機(jī)器人大腦”廠商都在努力驅(qū)動(dòng)這個(gè)數(shù)據(jù)飛輪的構(gòu)建,以促進(jìn)具身智能大模型的涌現(xiàn)能力出現(xiàn)。

有聲音提倡使用仿真合成數(shù)據(jù)去喂養(yǎng)機(jī)器人,但另一種聲音堅(jiān)持,數(shù)據(jù)需要從現(xiàn)實(shí)世界獲取,不能靠虛擬合成。截至目前,業(yè)內(nèi)還未形成同一的共識(shí),這直接導(dǎo)致,具身智能大模型的泛化性與智能涌現(xiàn)成為下一個(gè)痛點(diǎn)。

隨著具身智能本體形態(tài)從傳統(tǒng)的協(xié)作機(jī)械臂、復(fù)合工業(yè)機(jī)器人、四足機(jī)器人向雙足類人形的發(fā)展,對(duì)“大腦”提出了極高的挑戰(zhàn)。

但就眼下的情況來看,許多大模型的語料缺乏物理世界交互的數(shù)據(jù),無法勝任對(duì)物理空間任職要求高的任務(wù),也無法理解和預(yù)測(cè)當(dāng)前執(zhí)行序列對(duì)環(huán)境的作用和影響,無法勝任環(huán)境動(dòng)態(tài)性強(qiáng)的長序列規(guī)劃。

與此同時(shí),現(xiàn)有的通用大模型多采用單個(gè)模型實(shí)現(xiàn)單個(gè)任務(wù),沒有在單模型下對(duì)多任務(wù)的大規(guī)模數(shù)據(jù)進(jìn)行訓(xùn)練,現(xiàn)有技術(shù)對(duì)任務(wù)、新環(huán)境泛化能力差,對(duì)于新任務(wù),只能重新訓(xùn)練模型,無法微調(diào)。

如何讓機(jī)器人像人一樣思考并根據(jù)實(shí)際情況作出長序列自主規(guī)劃,成為了桎梏具身智能走向應(yīng)用的關(guān)鍵問題。

盤古大模型的解決之道

對(duì)于以上痛點(diǎn),盤古大模型采取的核心解決之道是,融合多種具身領(lǐng)域的不同模態(tài)數(shù)據(jù),借助大模型對(duì)物理世界的通用知識(shí)理解,構(gòu)建具身智能領(lǐng)域大模型。

據(jù)介紹,盤古大模型5.0能夠精準(zhǔn)理解和重構(gòu)物理世界,支持在10k×10k的圖片中準(zhǔn)確理解微小的細(xì)節(jié)內(nèi)容,能夠根據(jù)行業(yè)的要求,生成出符合物理規(guī)律的內(nèi)容。機(jī)器人等智能設(shè)備可以從人類的示范中學(xué)習(xí),從物理世界的反饋中成長。

為了讓機(jī)器人更快的學(xué)習(xí)和應(yīng)用到復(fù)雜的場(chǎng)景,盤古大模型5.0還新增了多模態(tài)視頻生成能力,使用視頻生成大模型生成機(jī)器人需要的訓(xùn)練數(shù)據(jù),從而具備更多場(chǎng)景下的泛化能力。

面對(duì)多場(chǎng)景的綜合具身長序任務(wù)規(guī)劃的難題,業(yè)界當(dāng)前只能規(guī)劃1-2步,但盤古大模型5.0,可以讓機(jī)器人能夠完成10步以上的復(fù)雜任務(wù)規(guī)劃。

這背后依賴于多模態(tài)具身XoT能力,能減少幻覺,提升任務(wù)規(guī)劃的可靠性,以及基于環(huán)境交互的自演進(jìn)能力,通過構(gòu)建任務(wù)驅(qū)動(dòng)的多模態(tài)值函數(shù)評(píng)估與本體和環(huán)境的匹配度,進(jìn)而迭代大腦適配小腦的任務(wù)規(guī)劃能力。

面向工業(yè)、家居等場(chǎng)景,具身智能缺乏可泛化的雙臂協(xié)同多任務(wù)處理能力,就必須對(duì)單個(gè)技能進(jìn)行訓(xùn)練。

盤古大模型5.0基于可擴(kuò)展的Diffusion Transformer架構(gòu),很好地解決了動(dòng)作多樣性問題,同時(shí)擴(kuò)展輸入輸出和網(wǎng)絡(luò)規(guī)模,滿足大規(guī)模數(shù)據(jù)訓(xùn)練需求、確保圖像標(biāo)記專注于語言指令。

另一邊,盤古大模型5.0還使用了大規(guī)模開源數(shù)據(jù)集以及仿真環(huán)境數(shù)據(jù)進(jìn)行自監(jiān)督預(yù)訓(xùn)練,對(duì)真實(shí)數(shù)據(jù)進(jìn)行圖像物體和背景增強(qiáng),并在新任務(wù)下進(jìn)行高效微調(diào),以實(shí)現(xiàn)泛化的、雙臂協(xié)同的、多任務(wù)并發(fā)處理。

通過通用的具身Agent框架,盤古大模型5.0還可以賦能不同的生態(tài)伙伴來快速構(gòu)建適配自己的本體硬件的場(chǎng)景化智能應(yīng)用。

這樣的思路無疑是正確的,許華哲提到,多模態(tài)是具身智能大模型的必備屬性,如果沒有語言和視覺,就很難理解真實(shí)的世界。生成能力也非常重要,雖然通過大模型生成的數(shù)據(jù)質(zhì)量不如仿真器,但勝在量極大、成本低且受真實(shí)條件限制少。

對(duì)于當(dāng)初選中盤古大模型的原因,冷曉琨提到,一個(gè)是技術(shù)寬度,盤古大模型是一系列大規(guī)模預(yù)訓(xùn)練模型,包含自然語言處理、計(jì)算機(jī)視覺、科學(xué)計(jì)算等領(lǐng)域。經(jīng)過有效整合,可以對(duì)人形機(jī)器人能力極大賦能。

另一個(gè)是技術(shù)深度,盤古大模型在多模態(tài)理解、生成等領(lǐng)域的持續(xù)創(chuàng)新與投入,使其具備了為人形機(jī)器人提供“聰明大腦”的基礎(chǔ),從而提升其在復(fù)雜任務(wù)場(chǎng)景下的操作水平。此外,盤古大模型在多個(gè)行業(yè)垂直領(lǐng)域大模型的實(shí)踐上,已有豐富的成果與應(yīng)用,他期待其后續(xù)能帶動(dòng)人形機(jī)器人走入更多的應(yīng)用場(chǎng)景。

張平安表示,除了人形機(jī)器人,盤古大模型還可以賦能工業(yè)機(jī)器人和服務(wù)機(jī)器人等多形態(tài)機(jī)器人, 讓它們幫助人類去從事危險(xiǎn)和繁重的工作。

另外,除了具身智能行業(yè),依賴多模態(tài)特性,盤古大模型還在重塑各行各業(yè),形成了鋼鐵大模型、高鐵大模型、氣象大模型、媒體大模型等,重塑自動(dòng)駕駛、工業(yè)設(shè)計(jì)、建筑設(shè)計(jì)等流程,和更多應(yīng)用場(chǎng)景得到結(jié)合。

落地已不再遙遠(yuǎn)

就像大模型發(fā)展到一定程度路徑會(huì)分化一樣,具身智能行業(yè)如今也出現(xiàn)了兩方意見,理想派喜歡談AI與具身智能,將人形機(jī)器人視為終極形態(tài)與最高理想;現(xiàn)實(shí)派則更看重AI機(jī)器人與商業(yè)應(yīng)用場(chǎng)景的結(jié)合,講究短期內(nèi)的商業(yè)回報(bào)。

一個(gè)核心事實(shí)是,相比于大模型,具身智能的商業(yè)化道路更直接、也更易實(shí)現(xiàn)。

通用大模型往往要達(dá)到“涌現(xiàn)”后,才能產(chǎn)生商業(yè)價(jià)值,但對(duì)于具身智能,即便大腦未達(dá)到“涌現(xiàn)”,只要匹配了合適的場(chǎng)景和形態(tài),就能帶來商業(yè)利潤。

許華哲指出,短期來看,雖然具身智能還無法擁有巨大的能力,但是它可以在一些局部的場(chǎng)景產(chǎn)生能力,進(jìn)而帶來收益,甚至失效之后帶來的損失也沒有那么大。

根據(jù)媒體此前報(bào)道,多位行業(yè)人士表示,盡管初等泛化能力的AI機(jī)器人還沒有頂尖聰明,但也有望在短期內(nèi)落地。

 “人形機(jī)器人本體運(yùn)動(dòng)這部分,大家做得很好了,大模型智能性部分也足夠了,現(xiàn)在我們看到的問題,更多是因兩者融合產(chǎn)生的。關(guān)于融合的創(chuàng)新性工作不是很多,這些需要時(shí)間才能磨出來?!崩鋾早硎?。

在這場(chǎng)時(shí)間的賽跑中,中國已經(jīng)顯現(xiàn)出了一定的基礎(chǔ)優(yōu)勢(shì)?!度诵螜C(jī)器人技術(shù)專利分析報(bào)告》顯示,近10年,我國在人形機(jī)器人技術(shù)專利上實(shí)現(xiàn)了從落后到跟跑乃至領(lǐng)跑,人形機(jī)器人專利申請(qǐng)數(shù)量和有效專利數(shù)量均位居全球第一。

更重要的是,作為制造業(yè)大國,中國擁有良好的工業(yè)基礎(chǔ),供應(yīng)鏈優(yōu)勢(shì)明顯,企業(yè)能以更低的成本完成更高性能的本體。

冷曉琨深刻體會(huì)到了這一變化,2018年公司做第一臺(tái)全尺寸人形機(jī)器人時(shí),成本接近300萬,且核心的零部件都來源于進(jìn)口。但等到和華為一起發(fā)布夸父,不僅制造成本降低了90%,而且零部件基本實(shí)現(xiàn)了國產(chǎn)化,沒有一個(gè)依賴進(jìn)口。

而且,因?yàn)橹圃鞓I(yè)發(fā)達(dá),所以中國對(duì)工業(yè)機(jī)器人的需求量也比較大,市場(chǎng)前景非常樂觀。

在此背景下,中國也在從頂端設(shè)計(jì)方面加緊具身智能布局,去年11月,工信部發(fā)布《人形機(jī)器人創(chuàng)新發(fā)展指導(dǎo)意見》,提出到2025年,人形機(jī)器人創(chuàng)新體系初步建立;到2027年,綜合實(shí)力達(dá)到世界先進(jìn)水平,成為重要的經(jīng)濟(jì)增長新引擎。

《意見》明確提出,人形機(jī)器人集成人工智能、高端制造、新材料等先進(jìn)技術(shù),有望成為繼計(jì)算機(jī)、智能手機(jī)、新能源汽車后的顛覆性產(chǎn)品,將深刻變革人類生產(chǎn)生活方式,重塑全球產(chǎn)業(yè)發(fā)展格局。當(dāng)前,人形機(jī)器人技術(shù)加速演進(jìn),已成為科技競(jìng)爭(zhēng)的新高地、未來產(chǎn)業(yè)的新賽道、經(jīng)濟(jì)發(fā)展的新引擎。

看起來,中國將在全球具身智能競(jìng)賽中扮演重要的角色。有觀點(diǎn)稱,具身智能創(chuàng)業(yè)理應(yīng)在中國發(fā)生,而不是大洋彼岸的硅谷——相比之下,中國不僅有更強(qiáng)大的機(jī)器人生產(chǎn)能力、也有機(jī)器人應(yīng)用場(chǎng)景,需求供給都比硅谷更強(qiáng)勢(shì)。

許華哲認(rèn)可這種聲音,“幾十年工業(yè)體系帶來的積累,其他人確實(shí)比較難追趕?!?/p>

與此同時(shí),擁有更高泛化能力的具身智能,始終是行業(yè)追求的方向。

提到理想的具身智能,許華哲覺得,一方面它的智商和情感要和現(xiàn)有大模型水平匹配,另一方面應(yīng)該擁有基礎(chǔ)的工作能力。

這樣的具身智能應(yīng)該匹配怎樣的大模型,許華哲作出了設(shè)想,在訓(xùn)練端,大模型應(yīng)該可以給具身智能提供合成數(shù)據(jù),作為具身智能的規(guī)劃器和場(chǎng)景理解器;部署時(shí),大模型可能會(huì)是一個(gè)云上的超級(jí)大腦。

 “就像我們遇到一個(gè)事搞不定了,給一個(gè)專家朋友打電話一樣,大模型就是那個(gè)專家朋友?!?/p>

為了實(shí)現(xiàn)這樣的理想大模型,盡管道路曲折,但以華為為代表的企業(yè),已經(jīng)走在了正確的方向上。