係統基於大模型的開發訓練方法,完成大模型開發訓練環境的搭建,並特別針對企業典型的雲平台運維需求,結合領域業務數據完成運維大模型的調試工作,實現了大模型在雲平台運維領域的應用。
1、技術路徑:基於大模型的雲平台智能運維係統以淵亭大模型開發訓練平台、大模型數據治理平台為基礎,消納用戶已有的運維數據(日誌、監控信息、應用信息等),結合淵亭科技的智能模型開發和調優經驗,支撐雲平台多個應用方向的智能運維管理。
2.技術架構:基於大模型的雲平台智能運維係統從下至上,分為基礎設施層、資源支撐層、能力供給層、能力生成層和應用服務層。
基於大模型的雲平台智能運維係統典型應用場景有運維數據管理、異常告警管理、故障分析、故障預測等。
雲平台運維工作是一項繁瑣、高要求的工作,除了常規的日常運維服務之外,在當前海量數據場景下,自動發現故障和自動異常檢測的需求甚為迫切,如何能極大地簡化研發策略配置成本,提高告警的準確率,減少告警風暴和誤告,從而提高運維效率是運維工作麵臨的重大挑戰之一。另外,如何解決當前海量數據場景下人工配置和運營告警策略、告警風暴和準確率不高等問題也是運維工作的核心痛點。
本項目由淵亭科技針對同方有雲重點運維業務的痛點進行行業大模型建設。具體的,處理大量的雲平台運維數據(日誌、監控信息、應用信息等),利用開源大模型訓練運維基座模型,並結合業務需求,孵化麵向不同場景的專業運維大模型,能夠進行自動發現故障和自動異常檢測,探索了基於運維大模型的智能運營。同時,設計了數據回流機製,能夠在運維過程中從海量運維數據中不斷進行處理加工和提煉,反哺專業運維大模型,形成數據飛輪。
基於大模型的雲平台智能運維係統以淵亭大模型開發訓練平台、大模型數據治理平台為基礎,消納用戶已有的運維數據(日誌、監控信息、應用信息等),結合淵亭科技的智能模型開發和調優經驗,支撐雲平台多個應用方向的智能運維管理。
基於大模型的雲平台智能運維係統從下至上,分為基礎設施層、資源支撐層、能力供給層、能力生成層和應用服務層,如下突所示。
3.係統功能
(1)向量知識庫管理功能:提供一站式的向量庫建立手段,能夠導入知識圖譜、文檔等,快速進行向量化,並對向量化細節提供細粒度的調整手段,能夠測試和預覽向量知識庫效果。
(2)向量知識庫應用功能:支持多樣化的編排模版,實現對話鏈、溯源等典型場景的快速構建。並能夠結合提示詞模版支撐高匹配度的領域問答。
? 支持至少10GB級別的大規模數據集的接入,包括連接數據源、加載數據、解析數據、數據處理等能力;
? 支持加載多種精度(如?oat64、?oat16或int8等)的模型;
? 支持使用至少2種常見的微調算法開展微調;
? 支持微調後模型保存時間為分鍾級;
5.應用場景
基於大模型的雲平台智能運維係統典型應用場景有運維數據管理、異常告警管理、故障分析、故障預測等。
(1)異常告警監控
通過對異常數據進行打標、微調,能夠自動發現IT係統中的異常行為,並提供及時的警報和響應。利用溯源功能、知識庫功能,快速定位異常點,進而完成海量數據精確匹配、時序類別多樣性分析和實時處理等工作。
(2)運維故障分析 能夠快速分析處理多種類型的海量數據,如Trace、Metric和Log等類型,輔助進行故障診斷和分析,形成推測的事件根因,供人工二次複核。結合運維係統其他功能,實現從異常檢測到根因定位、故障分類、故障分析和修複建議的全流程自動化處理,提高故障分析效率。
(3)故障預測
引入正常數據、異常數據,開展運行數據的特征挖掘,聚焦其中的異常因素,形成模型基礎認知。在實際問題即將發生前,大模型自主快速的進行提示,通過人機結合的確認審核手段,預測未來事件,防止潛在的故障。
係統運維工作是一項繁瑣、高要求的工作,且對可靠性具有很高的要求,基於大模型的雲平台智能運維係統可以提高信息化係統運維效率,降低運維成本,增強預測性維護能力,並能實現運維個性化服務。
1.提高運維效率:係統引入運維大模型,自動化處理海量運維數據,進行快速、高質量判斷,能夠代替運維人員進行大量判斷,實現風險的預防、發現、定位和處理,從而大幅提高運維工作的效率。
2.降低運維成本:隨著係統複雜化,傳統的人工運維成本不斷上升。係統通過構建具備自適應性的功能大模型,減少人工維護工作量,進而有效降低這部分成本,是降本增效的有效手段。
3.增強預測性維護:增強的預測性維護能力,使得設備的可靠性、生命周期得到大大的提升,係統的穩定性也得到增強。
機器人底盤Disinfection Robot消毒機器人講解機器人迎賓機器人移動機器人底盤商用機器人智能垃圾站智能服務機器人大屏機器人霧化消毒機器人紫外線消毒機器人消毒機器人價格展廳機器人服務機器人底盤核酸采樣機器人機器人代工廠智能配送機器人噴霧消毒機器人圖書館機器人導引機器人移動消毒機器人導診機器人迎賓接待機器人導覽機器人 |