1)設計並構建一個基於 自研的Decoder-only GPT係列架構的 0penCSG 醫療大模型,參數量達到70 億,采用自研高性能中英文雙語分詞器,極大提高token 壓縮比,自研基座模型架構但同時易於轉換為llama、mistral、qwen等主流模型結構,以實現更好的下遊應用表現。
2)收集和處理大規模高質量的醫療數據,數據比例為 60% 醫療專業數據 +40%通用數據,確保模型能學習到豐富的醫學知識。醫療數據包括但不限於各科權威教材、臨床指南、醫學文獻、病曆報告、醫患對話語料等。
3)基於自研的高性能、高可用、可拓展的LightLLM分布式大模型訓練框架,在海量異構數據上對OpenCSG 醫療大模型進行高效訓練,最大限度提升模型理解和生成醫學語言的能力。
4)引入多維度評估體係,在訓練過程中持續跟蹤模型性能。涵蓋醫學語言理解、知識掌握、語言生成、邏輯推理、安全和倫理等方麵的能力評估。
1)基於自研架構 OpenCSG 醫療大模型研發的智能問診、自動處方分析、醫療知識檢索等係列創新應用,助力醫療領域科技公司打造行業領先的智慧醫療服務平台。
2) OpenCSG 醫療大模型的卓越表現將為醫療領域科技公司在醫療 AI市場開拓新的業務場景,樹立技術領導力品牌形象,吸引更多醫療機構達成戰略合作。
3)探索大語言模型技術和傳統醫學專家知識的最佳結合路徑,形成可規模化複製的經驗模式。為醫療領域科技公司在醫療及更多垂直行業大模型應用方麵積累寶貴的技術和商業化經驗。
本案例采用OpenCSG 自研的 LightLLM 分布式訓練框架進行 OpenCSG 醫療大模型的預訓練。 預訓練數據采集與清洗:
數據采集
1)根據項目預算,與醫學數據供應商合作采購高質量結構化和非結構化醫療數據,包括但不限於:
OpenCSG 醫療大模型的研發成功,將實現人工智能技術與傳統醫學專家經驗的高度融合,促進人機協同診療新模式的形成,助推智慧醫療行業的變革發展。OpenCSG 公司將為醫學醫療科技公司基於項目成果持續打造麵向全科醫療的"醫學認知智能",引領多模態醫學大模型的技術趨勢,在醫療AI領域確立難以撼動的領導者地位。
大模型+醫療的結合有望催生智能教學、科研輔助、新藥研發等全新應用,幫助醫學科技公司持續發掘新的價值空間,牽引產學研用一體化創新。
隨著基於 OpenCSG 醫療大模型的應用規模化落地,將為醫療服務供給側帶來效率倍增。廣大患者可享受到更加優質、均等的智能化診療服務,大幅提升就醫獲得感。
機器人底盤Disinfection Robot消毒機器人講解機器人迎賓機器人移動機器人底盤商用機器人智能垃圾站智能服務機器人大屏機器人霧化消毒機器人紫外線消毒機器人消毒機器人價格展廳機器人服務機器人底盤核酸采樣機器人機器人代工廠智能配送機器人噴霧消毒機器人圖書館機器人導引機器人移動消毒機器人導診機器人迎賓接待機器人導覽機器人 |