2024 年人形機器人最具突破性的進展主要體現在具身智能領域:3 月,Covariant 發 布端到端具身大模型 RFM-1,具身智能創業團隊 Sergey Levine 和 Chelsea Finn 創 立 Pi(Physical Intelligence),Figure AI 發布接入 OpenAI GPT-4V 的 Figure 01 demo。4 月,李飛飛創立 World Labs,致力於解決 AI 在三維空間感知和理解方麵的 難題。5 月,特斯拉發布視頻,展示 Optimus 精準分揀特斯拉電動車 4680 電池的場 景,使用完全端到端神經網絡,隻利用 2D 攝像頭視頻和機載自傳感器,直接生成關 節控製序列,完全靠視覺輔助和人類示範進行訓練。國內人形機器人產業硬件供應鏈 優勢明顯,在具身智能、數據采集、人才領域的短板需要補齊。
分層端到端是目前具身智能的主要路徑。大模型分為非具身大模型(基礎大模型)、 具身智能大模型(機器人大模型),區別是能否生成運動姿態。非具身大模型如 GPT、 Sora 等,輸入和輸出的模態都是語言、圖片和視頻。具身智能大模型輸入視覺、語 言信號,輸出三維物理世界的操作,其中,端到端的具身大模型對數據和算力要求高, 如 Tesla FSD、穀歌 RT 模型;Figure AI 等大多數公司都采取了分層端到端的具身 大模型,一般分為三層:基礎大模型(LLM 或 VLM)、決策大模型、操作大模型,其中 決策大模型以 ChatGPT for Robotics、穀歌 PaLM-E 為代表,技術方向從 LLM 向強 化學習(RL)演進,基於 RL 的範式可以使模型能夠在不同環境和任務中學習和適應, 實現更高級的決策能力。操作大模型根據決策大模型的輸出執行具體動作,需要與機器人硬件深度集成,且必須通過數據采集來實現,技術方向從“MPC+WBC”向“RL+仿 真”演進,MPC 更適合具有精確模型和短期優化目標的場景,RL 更適用於不確定性 高、需要長期學習和自適應的環境。在操作大模型領域,大多數廠商都剛起步。
數據采集的主要方式:遠程操作、仿真合成數據。互聯網上各類文本、圖像和視頻數 據集龐大,機器人的場景和交互有價值的數據量小,限製了 AI 模型在人形機器人上 的泛化能力。特斯拉 Tesla Bot 開發團隊使用人類的真實運動方式來訓練機器人,英 偉達推出 MimicGen 和 Robocasa 模型,通過真人的遙操作數據捕獲,再通過生成合成運動數據和模擬環境,加速機器人技術的研發和應用。國內人形機器人創新中心加速建設人形機器人訓練場。
具身智能估值邏輯:硬件、數據、模型、人才。硬件是一切的基礎,如果沒有自己的 硬件,就無法根據算法和數據進行硬件的快速優化和修改。涉及數據的采集、組織管 理以及與模型的閉環開發,需要有強大組織能力的團隊,核心團隊需要具備組織大規模工程師的經驗;越來越多的算法陸續開源,開源算法可以提供基礎的功能和技術, 但要實現高質量、高性能的人形機器人,需要專業的算法團隊進行深入研究和開發。
機器人底盤Disinfection Robot消毒機器人講解機器人迎賓機器人移動機器人底盤商用機器人智能垃圾站智能服務機器人大屏機器人霧化消毒機器人紫外線消毒機器人消毒機器人價格展廳機器人服務機器人底盤核酸采樣機器人智能配送機器人導覽機器人 |