作為人工智能與機器人交叉領域的核心方向,具身智能正引領全球科技變革。其中,機器人大模型作為“智能中樞”,正在推動機器人突破單一任務限制,向復雜環境下的自主學習與進化邁進。近期,中美兩國具身智能企業幾乎同步開源模型,標志著這一領域的技術生態進入爆發期。
9月8日,中國自變量機器人公司開源了具身模型WALL-OSS;次日,美國Physical Intelligence(PI)公司也發布了π?.?模型。這一“巧合”引發行業熱議,被視為具身智能邁向成熟的關鍵信號。回顧語言大模型發展路徑,從2018年開源社區初步探索,到2020年ChatGPT-3引發全球關注,技術迭代用了三年。如今,機器人大模型是否也站在了“GPT-3時刻”的門檻上?
在近期的一場技術對話中,自變量機器人CTO王昊與PI研究員柯麗一鳴(π?、π?.?論文作者)深入探討了這一話題。他們認為,2025年機器人模型領域最顯著的突破是“泛化能力”與“長程任務”的突破。柯麗一鳴以疊衣服任務為例:“過去二十年,機器人疊衣服始終面臨挑戰,因為衣物褶皺、折疊順序的多樣性遠超想象。但到2025年,模型已能將π?.?部署到陌生家庭環境中,完成抓取、移動等基礎操作,盡管表現不完美,卻展現出類似人類的適應性。”
王昊進一步指出,通用機器人基礎模型的發展,使機器人從“單任務專家”轉向“多任務學習者”。例如,2023年前,機器人需針對每個任務單獨優化;如今,統一模型可同時學習數百種任務,優化目標從“單一任務極致”轉向“全局任務平均成功率”。這種指數效應讓機器人能處理包含連續步驟、需多步推理的復雜任務(如整理餐桌、布置餐具),成為行業最令人興奮的現象。
然而,泛化能力的提升仍面臨三大挑戰。首先是物理世界的“長尾效應”:光照變化、桌布褶皺、透明物體反光等微小擾動,可能導致任務失敗。人類能憑直覺適應,但依賴數據驅動的AI模型仍需突破。其次是長程任務中的誤差累積:微小擾動可能像滾雪球一樣放大,最終導致任務失敗。王昊強調,需構建理解物理常識的模型基礎,讓機器人具備空間推理與因果推理能力。最后是數據質量與數量的平衡:高質量數據需精心設計,但追求數量時難以兼顧細節;低質量數據則可能影響模型性能。
數據采集的“真機維護”問題也被頻繁提及。柯麗一鳴笑稱:“做機器人研究,每天都在擰螺絲。”她回憶,早期研究時,硬件故障頻發,新人常因維修壓力而放棄。如今,盡管硬件穩定性提升,但真機維護仍是門檻。王昊補充道,機器人數據采集受限于硬件場地、操作員效率,成本高昂。為此,行業探索了多種解決方案:低成本本體、穿戴式傳感器、人類視頻數據等。其中,人類視頻數據規模大、成本低,但僅能提供高級語義理解與任務規劃,難以直接生成動作級數據。
在模型架構上,中美企業呈現出不同路徑。自變量機器人主張“端到端”訓練,將語言、視覺、動作模態統一表征,避免分層導致的信息損失。王昊解釋:“訓練時,模型可同時學習理解推理與動作生成;部署時,將動作部分壓縮蒸餾,語言推理部分放在云端,通過梯度回傳更新參數。”而PI則保持開放態度,柯麗一鳴認為:“當前機器人大模型尚未達到GPT-2水平,數據驅動是核心,但具體架構(如雙系統分離或端到端)并非首要問題。”
商業化方面,中美企業展現出差異化策略。美國企業傾向于“自上而下”,優先構建超大規模通用模型,再探索應用場景。這得益于其算力優勢——頂級芯片與大規模算力集群集中在美國。而中國企業則采取“上下結合”的雙軌路徑:一方面迭代通用基礎模型,另一方面在養老、公共服務等泛化場景中落地,形成數據飛輪。王昊強調:“必須先有大而通用的基礎,才能實現小而精的垂直部署。”柯麗一鳴則觀察到,中國制造業的硬件需求與場景優勢,為機器人商業化提供了獨特土壤。
對于家用機器人的落地時間,兩位專家給出不同預測。王昊認為,5年內機器人可進入家庭,完成廚房簡單任務(如洗碗、切菜),但需人類協作;柯麗一鳴則保守估計5-10年,她以掃地機器人為例:“早期產品不完美,但用戶明確其能力邊界,這種模式值得借鑒。”他們一致認為,機器人需跨越數據、算法、供應鏈、商業模式等多重門檻,才能真正實現規模化應用。