行人檢測作為計算機視覺領域最基本的主題之一,多年來被廣泛研究。盡管最先進的行人檢測器已在無遮擋行人上取得了超過 90% 的準確率,但在嚴重遮擋行人檢測上依然無法達到滿意的效果。究其根源,主要存在以下兩個難點:
嚴重遮擋的行人框大部分為背景,檢測器難以將其與背景類別區分;
給定一個遮擋行人框,檢測器無法得到可見區域的信息;
Tube Feature Aggregation Network(TFAN)新方法,即利用時序信息來輔助當前幀的遮擋行人檢測,目前該方法已在 Caltech 和 NightOwls 兩個數據集取得了業界領先的準確率。
核心思路
利用時序信息輔助當前幀遮擋行人檢測
目前大部分行人檢測工作都集中於靜態圖像檢測,但在實際車路環境中大部分目標都處於運動狀態。針對嚴重遮擋行人的複雜場景,單幀圖像難以提供足夠有效的信息。為了優化遮擋場景下行人的識別,地平線團隊提出通過相鄰幀尋找無遮擋或少遮擋目標,對當前圖像中的遮擋行人識別進行輔助檢測。
實驗新方法
Proposal tube 解決嚴重遮擋行人檢測
如下圖,給定一個視頻序列,首先對每幀圖像提取特征並使用 RPN(Region Proposal Network)網絡生成 proposal 框。從當前幀的某個 proposal 框出發,依次在相鄰幀的空間鄰域內尋找最相似的proposal框並連接成 proposal tube。
姚霆指出,當前的多模態技術還是屬於狹隘的單任務學習,整個訓練和測試的過程都是在封閉和靜態的環境下進行,這就和真實世界中開放動態的應用場景存在一定的差異性
優酷智能檔突破“傳統自適應碼率算法”的局限,解決視頻觀看體驗中高清和流暢的矛盾
通過使用仿真和量化指標,使基準測試能夠通用於許多操作領域,但又足夠具體,能夠提供係統的有關信息
基於內容圖譜結構化特征與索引更新平台,在結構化方麵打破傳統的數倉建模方式,以知識化、業務化、服務化為視角進行數據平台化建設,來沉澱內容、行為、關係圖譜,目前在優酷搜索、票票、大麥等場景開始進行應用
NVIDIA解決方案架構師王閃閃講解了BERT模型原理及其成就,NVIDIA開發的Megatron-BERT
自然語言處理技術的應用和研究領域發生了許多有意義的標誌性事件,技術進展方麵主要體現在預訓練語言模型、跨語言 NLP/無監督機器翻譯、知識圖譜發展 + 對話技術融合、智能人機交互、平台廠商整合AI產品線
下一個十年,智能人機交互、多模態融合、結合領域需求的 NLP 解決方案建設、知識圖譜結合落地場景等將會有突破性變化
中國移動聯合產業合作夥伴發布《室內定位白皮書》,對室內定位產業發展現狀及麵臨的挑戰,深入分析了垂直行業的室內定位需求,並詳細闡述了實現室內定位的技術原理, 及室內定位評測體係
機器人、無人機、自動駕駛汽車等加快落地,智慧城市深入建設,更是為傳感器產業帶來了難以估量的龐大機遇
Cosero是德國波恩大學的Sven Behnke團隊根據家庭環境中的日常操作任務而研製的一款仿人操作機器人基於深度學習方法的目標姿態估計和RGB-D SLAM等感知測量
機器人的學習分為三個部分的軌跡預測包括示教者的手部運動軌跡、示教者的身體移動軌跡以及被操作物體的運動軌跡
通過2D激光雷達信息采用Hector SLAM實現機器人對地圖的感知和自主導航規劃,通過頂部的RGB-D相機采集目標物體深度和RGB圖像信息