近日,中科院自動化所聽覺模型與認知計算團隊麵向嘈雜背景下的視覺感知問題,提出具有同層側向激勵和抑製的卷積脈衝神經網絡模型,在多個標準數據集上表現出較好地識別性能和噪音魯棒性。該論文已被IJCAI 2020大會接收。
如果有人朝你扔過來一個球,通常你會怎麼辦?——當然是馬上把它接住。
這個問題是不是很簡單?但實際上,這一過程是最複雜的處理過程之一:首先,在複雜的背景環境下,球進入人的視野,被視網膜捕捉到後,經視覺通路發送到大腦處理視覺信息的腦區,進行更加徹底的圖像分析。同時視皮層與其他腦區協作,判斷物體的種類,預測它的行進軌跡,最終通過傳出神經控製肌肉的運動,決定人的下一步行動:舉起雙手、接住球。上述過程隻在零點幾秒內發生,幾乎完全是下意識的行為,也很少會出差錯。
為了讓計算機模仿這一過程,首先需要讓計算機做到像人類那樣“看”,尤其是在嘈雜背景下像人類那樣快速準確地“看”,成為了近年來視覺感知這一研究領域備受關注的關鍵問題之一。
近年來,基於梯度反向傳播的脈衝神經網絡(SNN)訓練方法逐漸興起。在這種訓練方法下,SNN能夠在保留神經元內部動力學的同時獲得較好的性能。
在此基礎上,自動化所聽覺模型與認知計算團隊模仿刻畫視聽覺係統神經元側向作用的數學模型動態神經場,提出了具有側向作用的SNN——LISNN,用於圖像識別任務。並且在測試中,根據側向作用的動力學特點,人為加入噪聲以驗證側向作用對網絡魯棒性的提升。
在生物神經係統的感受器中存在著臨近神經元間的相互抑製和相互激勵。其中,側向抑製最初為解釋馬赫帶效應而提出,即人們在明暗變化邊界上常常會在亮處看到一條更亮的光帶而在暗區看到一條更暗的線條(見圖1)。這種側向作用後來在鱟、貓等多種動物的不同感覺係統中被證實並應用在仿生的計算模型中。
圖1. 馬赫帶效應示意(圖引wiki)
LISNN的結構如圖2所示,前端是兩層具有卷積感受野的脈衝神經元層,每層後麵有一層平均池化層,後端是兩層全連接的脈衝神經元層。具有卷積感受野的脈衝神經元在模型中承擔特征提取的功能,類似於感受器的作用,因此隻在這層結構中使用側向作用。在側向作用機製下,每個脈衝神經元的膜電位都額外受鄰域內的其他神經元上一時刻狀態的影響。在目前已有的使用側向作用的計算模型中,側向作用係數往往是固定的和神經元間距離相關的函數,而LISNN中的側向作用係數則可以通過反向傳播進行學習。
圖2 LISNN模型結構示意圖
該研究工作分別在靜態數據集MNIST與Fashion MNIST、動態數據集N-MNIST上對LISNN的性能進行了驗證。輸入數據以特定方式編碼為一定長度的脈衝序列,每個時刻的序列規模與原圖像(或事件點坐標範圍)相同。模型在MNIST和N-MNIST數據集上均取得了和已有最好性能相近的結果;在Fashion-MNIST數據集上則取得了SNN中的最好性能。本模型與已發表模型的性能對比見表1-3。
除此之外,團隊還選擇在MNIST和Fashion MNIST的測試集中加入不同水平的高斯噪聲和脈衝噪聲,以進一步測試側向作用對網絡魯棒性的提升。圖3展示了部分原始圖片和加噪後的圖片。
圖3 (a)三行依次為原始MNIST測試集圖片、加入高斯噪聲後的圖片、加入脈衝噪聲後的圖片
(b)三行依次為原始Fashion MNIST測試集圖片、加入高斯噪聲後的圖片、加入脈衝噪聲後的圖片
圖4中,灰線和藍線分別代表LISNN和沒有側向作用的SNN在添加了高斯噪聲的測試集上的準確率;黃線和橙線分別代表LISNN和沒有側向作用的SNN在添加了脈衝噪聲的測試集上的準確率。在大部分情況下,LISNN的性能損失都小於沒有側向作用的SNN,尤其是在訓練集中沒有添加噪聲數據的情況下。
圖4 (a)模型在無噪聲的MNIST訓練集上訓練。(b)模型在無噪聲的Fashion MNIST訓練集上訓練
(c)模型在有高斯噪聲的MNIST訓練集上訓練。(d)模型在有高斯噪聲的Fashion MNIST訓練集上訓練
與傳統的神經網絡算法相比,所提算法能取得較好的性能並自然地實現對噪聲幹擾的抗性,具有一定理論研究價值和工程實用價值。
機器人招商Disinfection Robot機器人公司機器人應用智能醫療物聯網機器人排名機器人企業機器人政策教育機器人迎賓機器人機器人開發獨角獸消毒機器人品牌消毒機器人合理用藥地圖 |