當前位置：首頁> 新聞資訊> 機器人知識> 機器人多模態視覺語言導航技術解析

機器人多模態視覺語言導航技術解析

來源：算法邦編輯：創澤時間：2022/4/21 主題：其他[ 加盟]

計算機視覺（CV）和自然語言處理（NLP）早先是兩個較為獨立的研究領域。CV 重點關注如何用計算機代替人眼對目標完成識別、跟蹤、測量等任務，對圖像進行處理；NLP 則研究計算機如何處理、運用自然語言，包括語言生成、問答、對話等任務。近年來，以深度神經網絡為代表的機器學習和模式識別技術被廣泛應用於 CV 和 NLP 領域，取得了目前最先進的效果。

近年來，研究者們試圖將動作控製也引入到「視覺-語言」任務的框架中。吳琦將此類任務命名為 V3A（Vision, Ask, Answer, Act），在給定視覺輸入後，我們希望機器能夠提出問題、回答問題、並通過和人以及機器之間的語言交流執行某些動作。

例如，「Vision+Ask」的任務包含視覺問題生成、根據問題生成查詢、圖像描述等；「Vision+Answer」的任務包含視覺問答、視覺對話等；「Vision+Act」的任務包含指稱表達、視覺對齊（visual grounding）、語言引導的視覺導航、具身視覺問答、具身指稱表達等。

查看更多相似文章