99国产精品九九视频免费看,五月婷婷在线影院

AI的下一波浪潮，具身智能需要怎樣的大模型？

新商業(yè) | 新浪蜂鳥

“我的特殊技能是，理解你的意圖、解答你的問題，幫你取放物品，你看看需要我做什么呢？”

在眾人的注視下，人形機(jī)器人“夸父”依次完成了識(shí)別華為云相關(guān)物品、問答互動(dòng)、擊掌等動(dòng)作。

令人驚訝的是，通過對(duì)話，“夸父”理解了口渴的情境，在擺放著瓶裝水、白色盒子、蘋果的桌面，選擇了“可以解渴”的瓶裝水并成功拿起遞給指令者。

走進(jìn)華為開發(fā)者大會(huì)（HDC 2024）現(xiàn)場(chǎng)，可以看到，以掃地機(jī)器人、機(jī)械臂、無人機(jī)為代表的傳統(tǒng)機(jī)器人敘事已經(jīng)被徹底顛覆。給類人身體的機(jī)器人安裝上大模型大腦，打開了無限的想象空間。

人類對(duì)機(jī)器人的終極期待是什么，答案已經(jīng)呼之欲出。

但技能操作訓(xùn)練數(shù)據(jù)的獲取和機(jī)器人技能操作的泛化和可遷移性，依然是具身智能演進(jìn)過程中的難題。

對(duì)此，華為常務(wù)董事、華為云CEO張平安指出，“多模態(tài)大模型的理解與生成能力的快速發(fā)展，讓具身智能機(jī)器人成為了可能。 ”

“正如大家所期望的，讓機(jī)器人幫助我們?nèi)ハ匆?、做飯、掃地，我們?huì)有更多的時(shí)間去看書，寫詩，作畫?！?/p>

當(dāng)機(jī)器人擁有“大腦”

“人形機(jī)器人真正的爆發(fā)，需要強(qiáng)人工智能支撐它走入場(chǎng)景中?！边@個(gè)觀點(diǎn)，樂聚董事長冷曉琨堅(jiān)持了很多年。

“人形機(jī)器人爆發(fā)必須要滿足兩個(gè)條件：像博士一樣聰明，像家電一樣便宜。像家電一樣便宜，是機(jī)器人本體企業(yè)要做的產(chǎn)業(yè)化，像博士一樣聰明，則需要強(qiáng)智能去解決不同場(chǎng)景的泛化問題?！?/p>

冷曉琨知道自己的長處，自2016年創(chuàng)立樂聚機(jī)器人以來，他一直在“小腦”的部分發(fā)力，控制人形機(jī)器人的成本、研究算法讓機(jī)器人兩條腿穩(wěn)定行走，“產(chǎn)業(yè)化”成為公司的核心優(yōu)勢(shì)。

但他明白，更重要的“0-1”的奇點(diǎn)時(shí)刻還未到來，自己還需要等待。直到大模型出現(xiàn)，他很快就意識(shí)到，人形機(jī)器人的“大腦”來了。

一方面，通過多模態(tài)環(huán)境感知信息的整合，大模型可以幫助人形機(jī)器人進(jìn)行更高效的決策和規(guī)劃；另一方面，大模型提供了高層級(jí)的視覺和語言智能，形成行為數(shù)字化、知識(shí)遷移的良好路徑。

在他看來，知識(shí)遷移、行為數(shù)字化正是人形機(jī)器人和大模型結(jié)合最核心的點(diǎn)。

冷曉琨感到機(jī)會(huì)臨近，自己必須加快步伐，尋求和大模型廠商的合作。一方面，旗下機(jī)器人需要大模型解決泛化問題；另一方面，構(gòu)建機(jī)器人大模型，需要收集大規(guī)模機(jī)器人操作數(shù)據(jù)集、攻關(guān)基礎(chǔ)大模型架構(gòu)、算力平臺(tái)、云端平臺(tái)，是一個(gè)投入巨大的工作，他需要找到一個(gè)有深厚積累的合作方。

恰在此時(shí)，華為云盤古大模型出現(xiàn)在他面前。初步接洽后，雙方很快就確定了合作方向，除了打造人形機(jī)器人產(chǎn)品，更重要的是孵化出一套通用的具身智能機(jī)器人解決方案。

“‘人形機(jī)器人+大模型’的工作流程，從本體控制、數(shù)據(jù)采集、模型訓(xùn)練、部署、邊端側(cè)部署、云端訓(xùn)練，需要一套完善的工作鏈，構(gòu)建持續(xù)演進(jìn)的數(shù)據(jù)飛輪。”

合作中，雙方將打通技術(shù)路線，聯(lián)合構(gòu)建人形機(jī)器人標(biāo)準(zhǔn)數(shù)據(jù)集、系統(tǒng)和工具鏈，孵化出面向家居、工業(yè)等多場(chǎng)景的解決方案。在HDC 2024現(xiàn)場(chǎng)，這套解決方案的階段性成果首次亮相。

“如果沒有大模型的爆發(fā)，人形機(jī)器人可能還追不上這波熱潮?！崩鋾早f。

“AI新貴”

包括冷曉琨在內(nèi)，許多人都意識(shí)到了大模型的到來，給人形機(jī)器人提供了關(guān)鍵的發(fā)展契機(jī)。近一年來，具身智能成為了AI領(lǐng)域討論熱度最高的概念之一。

當(dāng)然，人形機(jī)器人不能和具身智能劃等號(hào)，具身智能涵蓋的范圍應(yīng)該更廣。具體應(yīng)該如何理解具身智能，清華大學(xué)交叉信息研究院助理教授許華哲認(rèn)為，可以從三個(gè)層面理解：首先是具有身體的智能，再深一層是通過和現(xiàn)實(shí)世界的交互來提升智能，更深一層是擁有“我”的主體，感官、傳感器、經(jīng)歷都是私有的，所有數(shù)據(jù)都來自于自己。

業(yè)界普遍認(rèn)為，具身智能將是人工智能領(lǐng)域的下一波浪潮，這股樂觀的情緒也傳遞到了資本市場(chǎng)。

高盛研究報(bào)告最新預(yù)測(cè)，到2035年，全球人形機(jī)器人的市場(chǎng)容量將達(dá)到380億美元，是此前預(yù)期的60億美元的6倍以上。影響這一增長的關(guān)鍵因素，是機(jī)器人大語言模型的進(jìn)步。

數(shù)據(jù)顯示，近半年，國內(nèi)出現(xiàn)了近百家機(jī)器人公司，許多非機(jī)器人背景企業(yè)也爭(zhēng)相涌入賽道。

為何會(huì)在此時(shí)掀起一波具身智能熱潮，對(duì)于其背后的技術(shù)驅(qū)動(dòng)因素，許華哲認(rèn)為，有兩點(diǎn)值得關(guān)注，一個(gè)是本體積累到了一定的水平，機(jī)器人制造成本下降，性能并沒有降低。

另一個(gè)，更加核心的在于智能技術(shù)的突破，包括大模型和算法。

在具身智能中，大模型主要扮演三重角色：一是理解，承擔(dān)具身智能里語義理解和判斷規(guī)劃的部分；二是扮演“老師”，大模型起到了很好的示范作用，讓大家看到，神經(jīng)網(wǎng)絡(luò)能產(chǎn)生一種規(guī)模效應(yīng)，只要算法和目標(biāo)函數(shù)足夠好，隨著數(shù)據(jù)增多，具身智能的表現(xiàn)也會(huì)線性增強(qiáng)；三是產(chǎn)生新的具身智能模型算法架構(gòu)，比如VLA（Vision Language Action），就是以原生多模態(tài)大模型的方式去訓(xùn)練視覺、語言、動(dòng)作，將這三個(gè)模態(tài)聯(lián)合在一起。

另外，模仿學(xué)習(xí)和談話學(xué)習(xí)等相關(guān)技術(shù)的算法突破，讓研究者擁有了更好的數(shù)據(jù)擬合能力和在仿真里做遷移、往現(xiàn)實(shí)中做遷移的能力。

“看起來，具身智能離真正部署到現(xiàn)實(shí)場(chǎng)景中更近了?！?br>
亦有隱憂

大模型到來盡管加速了發(fā)展，但距離真正的具身智能落地，似乎還有不容忽視的距離。

長期以來，具身智能都面對(duì)著高質(zhì)量訓(xùn)練數(shù)據(jù)缺失、復(fù)雜具身長序任務(wù)規(guī)劃難、可泛化的雙臂協(xié)同多任務(wù)處理不易、缺乏統(tǒng)一的開發(fā)工具套件等難題。

數(shù)據(jù)方面，物理世界的數(shù)字化還處于很初級(jí)的階段，具身智能需要現(xiàn)實(shí)世界數(shù)據(jù)來進(jìn)行訓(xùn)練，但從現(xiàn)實(shí)角度看，目前還很難獲取足夠的數(shù)據(jù)。

對(duì)此，許華哲舉了個(gè)例子，來說明具身智能的“數(shù)據(jù)困境”。對(duì)大模型而言，網(wǎng)上的每一段對(duì)話、書里的所有文字，人類的知識(shí)都是高質(zhì)量的數(shù)據(jù)。但就具身智能而言，理想數(shù)據(jù)是人在各種場(chǎng)景下的行為數(shù)據(jù)。短時(shí)間內(nèi)，我們還無法直接用人體數(shù)據(jù)去訓(xùn)練，只能利用具身智能本體。

“不過，因?yàn)橹悄苄圆粔颍瑳]有人愿意用，不使用就采不了數(shù)據(jù)，采不了數(shù)據(jù)智能性就提升不上去，這有點(diǎn)像雞生蛋蛋生雞的悖論?！?/p>

現(xiàn)在，國內(nèi)“機(jī)器人大腦”廠商都在努力驅(qū)動(dòng)這個(gè)數(shù)據(jù)飛輪的構(gòu)建，以促進(jìn)具身智能大模型的涌現(xiàn)能力出現(xiàn)。

有聲音提倡使用仿真合成數(shù)據(jù)去喂養(yǎng)機(jī)器人，但另一種聲音堅(jiān)持，數(shù)據(jù)需要從現(xiàn)實(shí)世界獲取，不能靠虛擬合成。截至目前，業(yè)內(nèi)還未形成同一的共識(shí)，這直接導(dǎo)致，具身智能大模型的泛化性與智能涌現(xiàn)成為下一個(gè)痛點(diǎn)。

隨著具身智能本體形態(tài)從傳統(tǒng)的協(xié)作機(jī)械臂、復(fù)合工業(yè)機(jī)器人、四足機(jī)器人向雙足類人形的發(fā)展，對(duì)“大腦”提出了極高的挑戰(zhàn)。

但就眼下的情況來看，許多大模型的語料缺乏物理世界交互的數(shù)據(jù)，無法勝任對(duì)物理空間任職要求高的任務(wù)，也無法理解和預(yù)測(cè)當(dāng)前執(zhí)行序列對(duì)環(huán)境的作用和影響，無法勝任環(huán)境動(dòng)態(tài)性強(qiáng)的長序列規(guī)劃。

與此同時(shí)，現(xiàn)有的通用大模型多采用單個(gè)模型實(shí)現(xiàn)單個(gè)任務(wù)，沒有在單模型下對(duì)多任務(wù)的大規(guī)模數(shù)據(jù)進(jìn)行訓(xùn)練，現(xiàn)有技術(shù)對(duì)任務(wù)、新環(huán)境泛化能力差，對(duì)于新任務(wù)，只能重新訓(xùn)練模型，無法微調(diào)。

如何讓機(jī)器人像人一樣思考并根據(jù)實(shí)際情況作出長序列自主規(guī)劃，成為了桎梏具身智能走向應(yīng)用的關(guān)鍵問題。

盤古大模型的解決之道

對(duì)于以上痛點(diǎn)，盤古大模型采取的核心解決之道是，融合多種具身領(lǐng)域的不同模態(tài)數(shù)據(jù)，借助大模型對(duì)物理世界的通用知識(shí)理解，構(gòu)建具身智能領(lǐng)域大模型。

據(jù)介紹，盤古大模型5.0能夠精準(zhǔn)理解和重構(gòu)物理世界，支持在10k×10k的圖片中準(zhǔn)確理解微小的細(xì)節(jié)內(nèi)容，能夠根據(jù)行業(yè)的要求，生成出符合物理規(guī)律的內(nèi)容。機(jī)器人等智能設(shè)備可以從人類的示范中學(xué)習(xí)，從物理世界的反饋中成長。

為了讓機(jī)器人更快的學(xué)習(xí)和應(yīng)用到復(fù)雜的場(chǎng)景，盤古大模型5.0還新增了多模態(tài)視頻生成能力，使用視頻生成大模型生成機(jī)器人需要的訓(xùn)練數(shù)據(jù)，從而具備更多場(chǎng)景下的泛化能力。

面對(duì)多場(chǎng)景的綜合具身長序任務(wù)規(guī)劃的難題，業(yè)界當(dāng)前只能規(guī)劃1-2步，但盤古大模型5.0，可以讓機(jī)器人能夠完成10步以上的復(fù)雜任務(wù)規(guī)劃。

這背后依賴于多模態(tài)具身XoT能力，能減少幻覺，提升任務(wù)規(guī)劃的可靠性，以及基于環(huán)境交互的自演進(jìn)能力，通過構(gòu)建任務(wù)驅(qū)動(dòng)的多模態(tài)值函數(shù)評(píng)估與本體和環(huán)境的匹配度，進(jìn)而迭代大腦適配小腦的任務(wù)規(guī)劃能力。

面向工業(yè)、家居等場(chǎng)景，具身智能缺乏可泛化的雙臂協(xié)同多任務(wù)處理能力，就必須對(duì)單個(gè)技能進(jìn)行訓(xùn)練。

盤古大模型5.0基于可擴(kuò)展的Diffusion Transformer架構(gòu)，很好地解決了動(dòng)作多樣性問題，同時(shí)擴(kuò)展輸入輸出和網(wǎng)絡(luò)規(guī)模，滿足大規(guī)模數(shù)據(jù)訓(xùn)練需求、確保圖像標(biāo)記專注于語言指令。

另一邊，盤古大模型5.0還使用了大規(guī)模開源數(shù)據(jù)集以及仿真環(huán)境數(shù)據(jù)進(jìn)行自監(jiān)督預(yù)訓(xùn)練，對(duì)真實(shí)數(shù)據(jù)進(jìn)行圖像物體和背景增強(qiáng)，并在新任務(wù)下進(jìn)行高效微調(diào)，以實(shí)現(xiàn)泛化的、雙臂協(xié)同的、多任務(wù)并發(fā)處理。

通過通用的具身Agent框架，盤古大模型5.0還可以賦能不同的生態(tài)伙伴來快速構(gòu)建適配自己的本體硬件的場(chǎng)景化智能應(yīng)用。

這樣的思路無疑是正確的，許華哲提到，多模態(tài)是具身智能大模型的必備屬性，如果沒有語言和視覺，就很難理解真實(shí)的世界。生成能力也非常重要，雖然通過大模型生成的數(shù)據(jù)質(zhì)量不如仿真器，但勝在量極大、成本低且受真實(shí)條件限制少。

對(duì)于當(dāng)初選中盤古大模型的原因，冷曉琨提到，一個(gè)是技術(shù)寬度，盤古大模型是一系列大規(guī)模預(yù)訓(xùn)練模型，包含自然語言處理、計(jì)算機(jī)視覺、科學(xué)計(jì)算等領(lǐng)域。經(jīng)過有效整合，可以對(duì)人形機(jī)器人能力極大賦能。

另一個(gè)是技術(shù)深度，盤古大模型在多模態(tài)理解、生成等領(lǐng)域的持續(xù)創(chuàng)新與投入，使其具備了為人形機(jī)器人提供“聰明大腦”的基礎(chǔ)，從而提升其在復(fù)雜任務(wù)場(chǎng)景下的操作水平。此外，盤古大模型在多個(gè)行業(yè)垂直領(lǐng)域大模型的實(shí)踐上，已有豐富的成果與應(yīng)用，他期待其后續(xù)能帶動(dòng)人形機(jī)器人走入更多的應(yīng)用場(chǎng)景。

張平安表示，除了人形機(jī)器人，盤古大模型還可以賦能工業(yè)機(jī)器人和服務(wù)機(jī)器人等多形態(tài)機(jī)器人，讓它們幫助人類去從事危險(xiǎn)和繁重的工作。

另外，除了具身智能行業(yè)，依賴多模態(tài)特性，盤古大模型還在重塑各行各業(yè)，形成了鋼鐵大模型、高鐵大模型、氣象大模型、媒體大模型等，重塑自動(dòng)駕駛、工業(yè)設(shè)計(jì)、建筑設(shè)計(jì)等流程，和更多應(yīng)用場(chǎng)景得到結(jié)合。

落地已不再遙遠(yuǎn)

就像大模型發(fā)展到一定程度路徑會(huì)分化一樣，具身智能行業(yè)如今也出現(xiàn)了兩方意見，理想派喜歡談AI與具身智能，將人形機(jī)器人視為終極形態(tài)與最高理想；現(xiàn)實(shí)派則更看重AI機(jī)器人與商業(yè)應(yīng)用場(chǎng)景的結(jié)合，講究短期內(nèi)的商業(yè)回報(bào)。

一個(gè)核心事實(shí)是，相比于大模型，具身智能的商業(yè)化道路更直接、也更易實(shí)現(xiàn)。

通用大模型往往要達(dá)到“涌現(xiàn)”后，才能產(chǎn)生商業(yè)價(jià)值，但對(duì)于具身智能，即便大腦未達(dá)到“涌現(xiàn)”，只要匹配了合適的場(chǎng)景和形態(tài)，就能帶來商業(yè)利潤。

許華哲指出，短期來看，雖然具身智能還無法擁有巨大的能力，但是它可以在一些局部的場(chǎng)景產(chǎn)生能力，進(jìn)而帶來收益，甚至失效之后帶來的損失也沒有那么大。

根據(jù)媒體此前報(bào)道，多位行業(yè)人士表示，盡管初等泛化能力的AI機(jī)器人還沒有頂尖聰明，但也有望在短期內(nèi)落地。

“人形機(jī)器人本體運(yùn)動(dòng)這部分，大家做得很好了，大模型智能性部分也足夠了，現(xiàn)在我們看到的問題，更多是因兩者融合產(chǎn)生的。關(guān)于融合的創(chuàng)新性工作不是很多，這些需要時(shí)間才能磨出來?！崩鋾早硎?。

在這場(chǎng)時(shí)間的賽跑中，中國已經(jīng)顯現(xiàn)出了一定的基礎(chǔ)優(yōu)勢(shì)?！度诵螜C(jī)器人技術(shù)專利分析報(bào)告》顯示，近10年，我國在人形機(jī)器人技術(shù)專利上實(shí)現(xiàn)了從落后到跟跑乃至領(lǐng)跑，人形機(jī)器人專利申請(qǐng)數(shù)量和有效專利數(shù)量均位居全球第一。

更重要的是，作為制造業(yè)大國，中國擁有良好的工業(yè)基礎(chǔ)，供應(yīng)鏈優(yōu)勢(shì)明顯，企業(yè)能以更低的成本完成更高性能的本體。

冷曉琨深刻體會(huì)到了這一變化，2018年公司做第一臺(tái)全尺寸人形機(jī)器人時(shí)，成本接近300萬，且核心的零部件都來源于進(jìn)口。但等到和華為一起發(fā)布夸父，不僅制造成本降低了90%，而且零部件基本實(shí)現(xiàn)了國產(chǎn)化，沒有一個(gè)依賴進(jìn)口。

而且，因?yàn)橹圃鞓I(yè)發(fā)達(dá)，所以中國對(duì)工業(yè)機(jī)器人的需求量也比較大，市場(chǎng)前景非常樂觀。

在此背景下，中國也在從頂端設(shè)計(jì)方面加緊具身智能布局，去年11月，工信部發(fā)布《人形機(jī)器人創(chuàng)新發(fā)展指導(dǎo)意見》，提出到2025年，人形機(jī)器人創(chuàng)新體系初步建立；到2027年，綜合實(shí)力達(dá)到世界先進(jìn)水平，成為重要的經(jīng)濟(jì)增長新引擎。

《意見》明確提出，人形機(jī)器人集成人工智能、高端制造、新材料等先進(jìn)技術(shù)，有望成為繼計(jì)算機(jī)、智能手機(jī)、新能源汽車后的顛覆性產(chǎn)品，將深刻變革人類生產(chǎn)生活方式，重塑全球產(chǎn)業(yè)發(fā)展格局。當(dāng)前，人形機(jī)器人技術(shù)加速演進(jìn)，已成為科技競(jìng)爭(zhēng)的新高地、未來產(chǎn)業(yè)的新賽道、經(jīng)濟(jì)發(fā)展的新引擎。

看起來，中國將在全球具身智能競(jìng)賽中扮演重要的角色。有觀點(diǎn)稱，具身智能創(chuàng)業(yè)理應(yīng)在中國發(fā)生，而不是大洋彼岸的硅谷——相比之下，中國不僅有更強(qiáng)大的機(jī)器人生產(chǎn)能力、也有機(jī)器人應(yīng)用場(chǎng)景，需求供給都比硅谷更強(qiáng)勢(shì)。

許華哲認(rèn)可這種聲音，“幾十年工業(yè)體系帶來的積累，其他人確實(shí)比較難追趕?！?/p>

與此同時(shí)，擁有更高泛化能力的具身智能，始終是行業(yè)追求的方向。

提到理想的具身智能，許華哲覺得，一方面它的智商和情感要和現(xiàn)有大模型水平匹配，另一方面應(yīng)該擁有基礎(chǔ)的工作能力。

這樣的具身智能應(yīng)該匹配怎樣的大模型，許華哲作出了設(shè)想，在訓(xùn)練端，大模型應(yīng)該可以給具身智能提供合成數(shù)據(jù)，作為具身智能的規(guī)劃器和場(chǎng)景理解器；部署時(shí)，大模型可能會(huì)是一個(gè)云上的超級(jí)大腦。

“就像我們遇到一個(gè)事搞不定了，給一個(gè)專家朋友打電話一樣，大模型就是那個(gè)專家朋友?！?/p>

為了實(shí)現(xiàn)這樣的理想大模型，盡管道路曲折，但以華為為代表的企業(yè)，已經(jīng)走在了正確的方向上。

上一篇： AI時(shí)代，探索影像創(chuàng)作的新模式

下一篇：當(dāng)盤古大模型遇到鐵路檢測(cè)，中國鐵路“智變”加速度

五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

解難題做難事，AI重塑千行萬業(yè)

解難題做難事，AI重塑千行萬業(yè)

本期雜志

往期推薦

第20期

目錄

五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

解難題做難事，AI重塑千行萬業(yè)

解難題做難事，AI重塑千行萬業(yè)

本期雜志

往期推薦

第20期

目錄

解難題做難事，AI重塑千行萬業(yè)