2025WAIC上,王鶴展示銀河通用的人形機(jī)器人。人民網(wǎng) 呂騫攝
在今年的世界人工智能大會(huì)(WAIC)上,超150臺(tái)人形機(jī)器人同臺(tái)“出道”。它們正走出實(shí)驗(yàn)室,走上春晚舞臺(tái)成為“網(wǎng)紅”,走進(jìn)工廠商超成為真正干活的“勞動(dòng)力”。這不僅是“數(shù)字大腦”向“物理智能”的躍遷,也意味著中國制造在全球新一輪產(chǎn)業(yè)競賽中的起跑。
本期播客邀請了北京大學(xué)助理教授、銀河通用機(jī)器人創(chuàng)始人及CTO、智源學(xué)者王鶴,他帶領(lǐng)團(tuán)隊(duì)用兩年多的時(shí)間,把“端到端VLA大模型”第一次搬上了真實(shí)產(chǎn)線、真實(shí)貨架——不靠軌跡預(yù)編程,而是靠眼睛、大腦和手的實(shí)時(shí)配合,就能在擁擠的零售貨架前完成抓取、避障、交付。下一個(gè)十年,機(jī)器人會(huì)如何走進(jìn)現(xiàn)實(shí)?答案正在上海這座展館里萌芽。
對話AI摘編:
主持人:觀眾最關(guān)心的是,這次WAIC銀河通用到底帶來了什么“能上手”的新東西?
王鶴:一句話——全球首個(gè)真正跑在端到端VLA大模型上的智慧零售機(jī)器人:觀眾在iPad上下單,機(jī)器人自己走過去、用“手眼腦”實(shí)時(shí)閉環(huán),把指定商品取下來,再遞到你手里。整個(gè)過程不依賴任何預(yù)置軌跡,完全靠視覺和語言指令實(shí)時(shí)生成動(dòng)作。
主持人:這和藥房自動(dòng)取藥的機(jī)械臂有何區(qū)別?
王鶴:關(guān)鍵在“非結(jié)構(gòu)化”。傳統(tǒng)藥房的自動(dòng)化滑道類似巨型自動(dòng)售貨機(jī),需要中心大藥房、統(tǒng)一滑道,空間、資金門檻都很高。我們把人形機(jī)器人做成“即插即用”的勞動(dòng)力,夜間值守、白天補(bǔ)貨,成本大幅下降,而且不需要改造原有店面結(jié)構(gòu)。
主持人:您把人形機(jī)器人演進(jìn)分成“三個(gè)時(shí)代”,能再通俗解釋一次嗎?
王鶴:1967-2017是“雛形時(shí)代”,ASIMO、Atlas全靠提前寫軌跡,拍視頻可以,落地沒戲;
2022起進(jìn)入“運(yùn)動(dòng)時(shí)代”,用強(qiáng)化學(xué)習(xí)在仿真里訓(xùn)、再遷移到真機(jī),春晚跳舞、半馬跑步全是這代,但基本是“蒙眼”運(yùn)動(dòng);
2024之后進(jìn)入“手眼腦時(shí)代”,VLA(Vision-Language-Action)大模型讓機(jī)器人隨時(shí)用眼睛看、用大腦理解、用手干活,這才有了今天零售、工廠、藥房的多場景落地。
主持人:說到泛化干活,亞馬遜倉儲(chǔ)里機(jī)器人數(shù)量已經(jīng)快趕上人類員工了,這跟我們今天談的人形機(jī)器人有什么本質(zhì)區(qū)別?
王鶴:亞馬遜那套是AGV+結(jié)構(gòu)化改造,本質(zhì)仍是上一代自動(dòng)化思路:集中大倉、地面貼二維碼、貨物統(tǒng)一尺寸。中國一二線城市寸土寸金,小藥店、小倉庫根本做不起這樣的改造。而人形機(jī)器人直接走進(jìn)人類環(huán)境,用視覺理解千奇百怪的物體,用“手”完成抓取、搬運(yùn),這才是下一代方案。
主持人:很多聽眾來自制造業(yè),他們會(huì)問:打螺絲這種“簡單”動(dòng)作,機(jī)器人為啥還搞不定?
王鶴:關(guān)鍵看結(jié)構(gòu)化程度。如果螺絲孔位固定、電批垂直往下,傳統(tǒng)自動(dòng)化早就解決了;難的是手持小產(chǎn)品、雙手協(xié)作、孔位每次不同——這叫非結(jié)構(gòu)化操作。我們從最簡單的“抓—放”做起,逐步提升精度,未來再去攻克更復(fù)雜的裝配。
主持人:您剛提到“逐步”,正好有組數(shù)據(jù):2023年中國研發(fā)總投入3.3萬億元,77%來自企業(yè);今年上半年,人形機(jī)器人行業(yè)融資已超60億元。怎么看資本這么密集地涌進(jìn)來?
王鶴:AI正從象牙塔走向產(chǎn)業(yè)化。文本、圖文大模型已經(jīng)證明:能落地的模型都靠產(chǎn)業(yè)界重投入。具身智能還在早期,銀河通用成立兩年就拿下了最大單筆融資,原因只有一個(gè):我們在真實(shí)場景里跑通了商業(yè)化閉環(huán)——藥店、工廠、零售店。
主持人:普通人什么時(shí)候能在家里見到這些“鋼鐵伙伴”?
王鶴:先B后C。我們已和宣武醫(yī)院、華西二院合作,讓機(jī)器人給老人量血壓、做認(rèn)知測試,再逐步過渡到夜間查房。工商業(yè)先跑1萬臺(tái),硬件、安全、成本磨到“無感”后,才會(huì)真正走進(jìn)千家萬戶。樂觀估計(jì),10年內(nèi)會(huì)出現(xiàn)家用普及拐點(diǎn)。
主持人:最后一個(gè)輕松問題,您手機(jī)里用得最多的AI應(yīng)用是什么?
王鶴:Deepseek和ChatGPT。不過需注意的是,前沿內(nèi)容模型會(huì)“想當(dāng)然”,但5-10年前的技術(shù)點(diǎn)基本都了如指掌。