語言大模型由於在大規模通用領域數據預訓練通常缺乏對特定任務或領域的知識,因此需要適配微調。微調可以幫助模型更好地適應特定需求,如對敏感數據(如醫療記錄)的處理,同時不暴露原始數據。此外,微調可以提高部署效率、減少計算資源需求。指令微調和參數高效學習是適配微調的關鍵技術。
指令微調(Instruction Tuning)[21],是一種可以幫助語言大模型實現人類語言指令遵循的能力,在零樣本設置中泛化到未見任務上的學習方法。指令微調學習形式與多任務提示微調相似,但與提示微調讓提示適應語言大模型並且讓下遊任務對齊預訓練任務不同,其是讓語言大模型對齊理解人類指令並按照指令要求完成任務,即在給定指令提示的情況下給出特定的回應,其中提示可以選擇性包含一條解釋任務的指令。指令微調研究涉及指令理解、指令數據獲取和指令對齊等內容。
(1)指令理解,指語言大模型準確理解人類語言指令的能力,是語言大模型執行指令完成任務的前提。為了增強對指令的理解,許多工作采用多任務提示方式對基於指令描述的大量任務集上對語言大模型進行微調,如FLAN[50]、InstructGPT[21]等,這些模型在未見的任務上顯示出優越的零樣本性能。
(2)指令數據獲取,指如何構建包含多樣性的任務指令數據。指令數據構建常見有三種方式:i)基於公開人工標注數據構建,代表指令數據集包括1616種不同任務的Super-Natural Instruction[51]、2000種不同NLP任務的OPT-IML[52]。ii)借助語言大模型的自動生成構建,如Unnatural Instructions[53],通過種子指令作為提示讓語言大模型生成新的指令描述和問題,然後再輸入到模型讓其輸出回答。iii)基於人工標注方法,如ChatGPT在人工標注指令的基礎上通 過GPT-3、InstructGPT等在線平台收集用戶真實指令數據。
機器人底盤Disinfection Robot消毒機器人講解機器人迎賓機器人移動機器人底盤商用機器人智能垃圾站智能服務機器人大屏機器人霧化消毒機器人紫外線消毒機器人消毒機器人價格展廳機器人服務機器人底盤核酸采樣機器人機器人代工廠智能配送機器人噴霧消毒機器人圖書館機器人導引機器人移動消毒機器人導診機器人迎賓接待機器人前台機器人消殺機器人導覽機器人 |