當前位置：首頁 > 新聞資訊 > 機器人應用 > 機器人示教學習:高級技能學習方法（學習計劃和學習目標）

機器人示教學習:高級技能學習方法（學習計劃和學習目標）

來源：CAAI認知係統與信息處理專委會編輯：創澤時間：2020/6/9 主題：其他 [加盟]

機器人可以在人類教師反饋的基礎上來探索某項任務。反饋提供了關於機器人嚐試的任務滿足目標的程度的信息。大多數基於反饋的工作傾向於采用強化學習。傳統的RL算法提供了一個反饋(獎勵)信號，在這種情況下使用了人工響應。在某些情況下，除了人類的反饋，任務的表現直接受到老師的影響，老師允許選擇下一步行動。在[10]中，這種方法將任務學習表現提高了約50%。

需要注意的是，有時選擇的示教方法和獲取的數據類型與學習算法的選擇有關。一方麵來自多個模態的示範增加了維數，增加了學習的複雜性。數據的維數可以降低，但是有些信息被忽略，導致從示教數據中學習不當。另一方麵，缺少傳感模態可能會在一開始就提供不完整的信息，導致學習算法表現不理想。

高級技能可以認為是一組低級技能或一組動作基元。除此之外，高級技能還包括對象可視性，涉及構建物理世界對象和機器人動作之間關係的知識。高級技能學習方法可以大致分為學習計劃和學習目標。

1）學習計劃:在這種高級技能的學習方法中，學習計劃為從初始狀態到最終狀態的一係列動作。因此，動作是根據前置條件和後置條件定義的。前置條件為動作執行前的狀態，後置條件為動作執行後的狀態。除此之外，人類教師還用注釋的形式提供附加信息。注釋可以通過觸覺、視覺或語義來提供。額外的信息允許更好地概括高水平的技能。可執行的動作可以是簡單的低級技能，如抓住目標對象，拾起綠色的對象等，組合起來形成一個高級任務，如排序綠色的對象。另一方麵，有一些方法可以通過在示教數據中尋找重複的結構來從高級技能示教中提取低級技能，這樣就可以在不同的示教中識別它。在[2]中，一個示教學習範例是通過人類示教和在程序界麵輸入的用戶目的來描述的。在[18]中，一些涉及一係列順序旋轉和轉換的日常對象操作的示教被用來提取順序的低級技能，並進一步構建一個計劃。這項工作還示教了從一個對象到其他類似對象的學習知識轉移。

2）學習目標:推斷高級技能的目標。人類教師提供的示教被用來推斷執行高級技能的意圖。通過生成假設，可以從重複的示教中推斷出目標。現代方法也使用基於獎勵函數的強化學習方法來實現期望目標。如果獎勵函數是從給定的示教中學習的，那麼它就被認為是目標學習。一些基於強化學習的方法得到了很好的研究[19]。

3、討論總結

技能的學習直接依賴於示教的準確性。大多數方法[20]手動消除了部分示教中的噪聲。結合強化學習，在獎勵和探索機製的基礎上對技能學習進行改進。另一種改進技能的方法涉及示教者反饋[21]。當機器人在一個稍微不熟悉的情況下執行學習到的技能時，從人類教師那裏得到關於執行技能可取性的反饋。目前為了實現這種技能細化的方法，研究人員主要從兩個方麵進行了研究：（1）控製機器人和人類教師之間的信息交互，（2）提供反饋。

	創澤智能機器人中國智能服務機器人領軍企業，涵蓋商用、家庭、特種等多用途的智能機器人產品體係，十幾年行業應用解決方案提供商