當前位置：首頁 > 新聞資訊 > 機器人開發 > 大模型在機器人L域研究與應用案例彙總

大模型在機器人L域研究與應用案例彙總

來源：G工機器人編輯：創澤時間：2024/10/17 主題：其他 [加盟]

目前大模型技術已從單純的大語言模型（LLM）發展到圖像-語言多模態模型（VLM）乃至圖像-語言-動作多模態模型（VLA），其中圖像-語言-動作多模態模型（VLA）的推出，實現了數據與處理任務的躍升。從文本到圖像再到現實世界，大模型的數據模態逐漸豐富，數據規模的數量級迅速增長，大模型的應用場景和價值量也成比例擴張。

在人形機器人L域，AI 大模型將會從感知（語音、視覺）、決策、控製等多方麵與人形機器人結合，形成感知、決策、控製閉環，提升機器人的智能水平。

未來人形機器人大模型的方向將會是感知-決策-控製一體化的端到端通用大模型，集合大規模數據集管理、雲邊端一體計算架構、多模態感知與環境建模等技術。

1 微軟 ChatGPT

在機器人L域的應用主要體現在兩個方麵：自然語言交互和自動化決策。在自然語言方麵，機器人可以通過 ChatGPT 來理解人類的自然語言指令，並根據指令進行相應的動作；在自動化決策方麵，機器人可以通過 ChatGPT 來生成任務方案，根據任務要求做出相應的決策。

柏林工業大學和 Google Robotics 團隊 PaLM-E

是大的多模態視覺語言模型，在 PaLM 模型基礎上，引入了具身化和多模態概念，實現了指導現實世界機器人完成相應任務的功能。

2 穀歌 RT-2

D一個控製機器人的視覺-語言-動作（Vision-Language-Action， VLA）模型，通過將 VLM 預訓練與機器人數據相結合，能夠端到端直接輸出機器人的控製。

斯坦福大學李飛飛團隊 VoxPoser

智能係統 VoxPose 可以從大模型 LLM 和視覺語言模型 VLM 中提取可行性和約束，以構建 3D 仿真環境中的值地圖，供運動規劃器使用，用於零樣本地合成機器人操縱任務的軌跡，從而實現在真實世界中的零樣本機器人操縱。

3 Meta 和 CMU 團隊 RoboAgent

采用了大規模機器人數據集進行訓練，考慮到機器人在現實世界中的訓練和部署效率問題，Meta 將數據集限製到了 7500 個操作軌跡中，並基於此讓 RoboAgent 實現了 12 種不同的複雜技能，包括烘焙、拾取物品、上茶、清潔廚房等任務，並能在 100 種未知場景中泛化應用。

4 英偉達 Eureka

該係統以 OpenAI 的 GPT-4 為基礎，本質是一種由大模型驅動的算法生成工具，能訓練實體機器人執行例如“轉筆”、“開抽屜”、“拿剪刀”、“雙手互傳球”等多種複雜動作。

5 英偉達 GR00T

目標是成為人形機器人通用大模型，旨在讓人形機器人理解自然語言文本、語音、視頻，以模仿人類運動，並與現實世界互動。

6 阿裏雲機器人大模型

方案集成了通義千問、通義萬相等基礎模型及阿裏雲物聯網平台，可賦予機器人知識庫問答、工藝流程代碼生成、機械臂軌跡規劃、3D 目標檢測和動態環境理解等全方位能力，不僅可以大幅降低機器人開發的門檻，還讓機器人輕鬆完成靈活性更G的非標任務，推動機器人在更廣泛的應用場景落地。

7 華為盤古大模型

“盤古”大模型具備強大的語義理解、動態規劃、多模態信號理解等能力，將為人形機器人大模型的開發提供智能化決策基礎。依托盤古大模型的數據處理能力，可建立豐富且G質量的人形機器人數據集，並且充分發揮盤古大模型的多模態能力，實現複雜任務場景下綜合感知和任務分解，提升各類泛化場景下的具身智能操作水平。

查看更多相似文章

【聲明：轉載此文出於傳遞更多信息之目的，並不意味著讚同其觀點或證實其描述，文章內容僅供參考，如有侵權，請聯係刪除。】

大模型在機器人L域研究與應用案例彙總

智能機器人純視覺與激光雷達方案比較

人形機器人四種環境感知傳感器各項性能比較

主要人形機器人的控製解決方案彙總

人形機器人絲杠行業深度報告：核心傳動精密部件，國產化未來可期，市場規模249.5億元

人形機器人執行係統之靈巧手-空心杯電機

人形機器人執行係統之旋轉執行器-減速器

人形機器人執行係統之線性執行器-行星滾柱絲杠

人形機器人整體構造及成本拆解：執行係統較為關鍵

人形機器人BOM拆解分析-三大核心部分

中國人形機器人研發團隊-24支機器人團隊介紹

工控&機器人係列深度-人形機器人空心杯電機：迎國產替代機遇

人形機器人擎天柱Optimus隻申請外觀設計專利（共 5 件）

服務機器人(迎賓、講解、導診...)

智能消毒機器人

機器人開發平台