創澤機器人
CHUANGZE ROBOT
當前位置: 首頁> 新聞資訊> 機器人開發> 如何搭建一個GPU加速的分布式機器學習係統,遇到的問題和解決方法

如何搭建一個GPU加速的分布式機器學習係統,遇到的問題和解決方法

來源: 阿裏機器智能編輯: 創澤時間:2020/6/18 主題: 其他[ 加盟]

小嘰導讀:在解決實際問題的時候,很多人認為隻要有機器學習算法就可以了,實際上要把一個算法落地還需要解決很多工程上的難題。本文將和大家分享如何從零開始搭建一個GPU加速的分布式機器學習係統,介紹在搭建過程中遇到的問題和解決方法。

一 背景

在雲計算環境下,虛擬機的負載均衡、自動伸縮、綠色節能以及宿主機升級等需求使得我們需要利用虛擬機(VM)遷移技術,尤其是虛擬機熱遷移技術,對於down time(停機時間)要求比較高,停機時間越短,客戶業務中斷時間就越短,影響就越小。如果能夠根據VM的曆史工作負載預測其未來的工作負載趨勢,就能夠尋找到最合適的時間窗口完成虛擬機熱遷移的操作。

於是我們開始探索如何用機器學習算法預測ECS虛擬機的負載以及熱遷移的停機時間,但是機器學習算法要在生產環境發揮作用,還需要很多配套係統去支持。為了能快速將現有算法在實際生產環境落地,並能利用GPU加速實現大規模計算,我們自己搭建了一個GPU加速的大規模分布式機器學習係統,取名小諸葛,作為ECS數據中台的異構機器學習算法加速引擎。搭載以上算法的小諸葛已經在生產環境上線,支撐阿裏雲全網規模的虛擬機的大規模熱遷移預測。

二 方案

那麼一套完整大規模分布式係統機器學習係統需要哪些組成部分呢?

1 總體架構

阿裏雲全網如此大規模的虛擬機數量,要實現24小時之內完成預測,需要在端到端整個流程的每一個環節做優化。所以這必然是一個複雜的工程實現,為了高效的搭建這個平台,大量使用了現有阿裏雲上的產品服務來搭建。

整個平台包含:Web服務、MQ消息隊列、Redis數據庫、SLS/MaxComputer/HybridDB數據獲取、OSS模型倉庫的上傳下載、GPU雲服務器、DASK分布式框架、RAPIDS加速庫。

1)架構

下圖是小諸葛的總體架構圖。






ICRA2020論文分享:基於視觸融合感知的可形變物體抓取狀態評估

人類可以通過視覺和觸覺融合感知快速確定抓取可變形物體所需力的大小,以防止其發生滑動或過度形變,但這對於機器人來說仍然是一個具有挑戰性的問題

一種基於層次強化學習的機械手魯棒操作

在底層通過使用基於模型的操作單元,保證了手指與物體之間持續穩定的抓取;在中層使用強化學習進行規劃,從而實現較長和複雜的手內操作流程

移動機器人Wang利用深度強化學習算法和視覺感知相結合的方法完成非結構環境下的移動

中科院沈陽自動化所的Wang利用深度強化學習算法和視覺感知相結合的方法來完成移動機器人在非結構環境下的移動操作

移動操作機器人Centauro通過融合自身攜帶的多傳感器信息可實現自主移動和抓取操作

德國伯恩大學計算機學院研製的遙操作輪腿複合的移動操作機器人可通過遠程操作平台完成各種複雜操作任務

機器人手腕的係列分享之一

假肢腕設計的有效基準能夠做3自由度運動,即旋前/旋後、屈伸和橈側/尺側偏移,未受影響的腕關節,其最大活動範圍通常在76度/85度

機器人手腕的係列分享之二

旋轉器用於使終端設備沿前臂的縱向放出或滾動,而屈肌使終端設備彎曲或俯仰, OB棘輪式旋轉手腕,被動腕部裝置的鎖定也可以通過使用不可反向驅動的機構來實現

機器人手腕的係列分享之二自由度手腕

2自由度腕部由一個與旋轉器串聯的屈肌單元組成,形成一個U型關節。其中一種設備是OBRoboWrist ,它可以同時鎖住前旋和屈曲,當解鎖時,還可以通過轉動手腕上的項圈來調節運動產生摩擦阻力

機器人手腕的係列分享之三自由度手腕

3自由度人工手腕在某些方麵優於人類的手腕,如運動範圍或扭矩輸出。盡管一些假肢在設計中加入了3自由度手腕,但串行3自由度手腕設備在機器人應用中更普遍

串行腕關節與並行腕關節優缺點對比分析

具有相同數量自由度的設備之間進行比較時,串行機構往往比並行機構更長,對於串行機構,運動範圍和扭矩規格通常簡單地由執行機構的選擇和基本形狀幾何決定

假肢腕關節和機器人腕關節優缺點對比分析

假肢需要直接的人類互動來發揮功能,而機器人手腕則完全是主動的,假腕還包括外部可調節功能,如可調節摩擦或鎖定;機器人手腕的任何調整通常都是在控製係統內完成的

柔軟的靈巧手的設計、製備及驅動

由於軟體材料的發展,靈巧手也開始柔軟起來,如柏林工業大學研製的軟體、欠驅動、柔性多指靈巧手、康奈爾大學研製的軟體多指靈巧手、北京航空航天大學研製的軟體多指靈巧手

服務機器人核心模塊分析

環境感知技術:機器人感知環境及自身狀態的窗口、運動控製技術:定位導航與運動協調控製、人機交互技術:人機有效溝通的橋梁
資料獲取
機器人開發
==最新資訊==
ChatGPT:又一個“人形機器人”主題
ChatGPT快速流行,重構 AI 商業
中國機器視覺產業方麵的政策
中國機器視覺產業聚焦於中國東部沿海地區(
從CHAT-GPT到生成式AI:人工智能
工信部等十七部門印發《機器人+應用行動實
全球人工智能企業市值/估值 TOP20
必威主頁第十一期上
諧波減速器和RV減速器比較
機器人減速器:諧波減速器和RV減速器
人形機器人技術難點 高精尖技術的綜合
機器人大規模商用麵臨的痛點有四個方麵
青島市機器人產業概況:機器人企業多布局在
六大機器人產業集群的特點
機械臂-高度非線性強耦合的複雜係統
==機器人推薦==
迎賓講解服務機器人

服務機器人(迎賓、講解、導診...)

智能消毒機器人

智能消毒機器人

機器人開發平台

機器人開發平台


機器人招商Disinfection Robot機器人公司機器人應用智能醫療物聯網機器人排名機器人企業機器人政策教育機器人迎賓機器人機器人開發獨角獸消毒機器人品牌消毒機器人合理用藥地圖
版權所有 必威主頁中國運營中心:北京 清華科技園九號樓5層 中國生產中心:山東日照太原路71號
銷售1: 4006-935-088銷售2: 4006-937-088客服電話: 4008-128-728

Baidu
map