LLM 是Large Language Model 的縮寫,中文翻譯為大語言模型(以下簡稱“大模型”),是一種基于深度學習的自然語言處理技術。這些模型可以處理大量的文本數據,從而學習到自然語言的語法和語義規則。ChatGPT、LaMDA、PaLM等都是大模型的例子。
ChatGPT面世時,人們被它的數據生成、適應性和拓展性等能力所震驚。而現在,更智能、更準確、更前沿的GPT-4橫空出世。在這種背景下,大模型將如何影響醫療行業?臨床輔助診療場景中,大模型的開發又將面臨哪些挑戰呢?
挑戰——私有化部署、可信度和速度
臨床決策支持系統(以下簡稱CDSS)主要分為兩個類別,一類是基于醫療文獻和專家意見的醫療知識庫,另一類是基于AI算法,綜合患者信息后反饋決策。后者能夠為醫院帶來的價值,除知識庫功能外,還包括患者安全、醫務管理、費用控制、自動化編碼、輔助診斷、病案改寫等方面。
CDSS在我國醫院中智能化功能使用情況調查
在2022年南湖HIT論壇上,北京協和醫院醫療保險管理處處長朱衛國公布了其對全院進行的一次智能化應用調研結果。調查結果顯示,“合理用藥檢查”作為臨床醫生開局醫囑時規避禁忌沖突和重復用藥的主要功能,以85.94%排在使用比例的首位;“臨床輔助診斷”以46.51%排在第二位;后面依次為病案質量輔助審核、醫療保險輔助審核及臨床方案自動推薦等應用。
除了滿足上述功能外,基于惠每CDSS的VTE防治、病歷質控和單病種質控功能也受到多家醫院認可。
惠每VTE防治預警界面
VTE防治:患者住院過程中,存在因血栓脫落造成死亡的風險。用AI的方法代替人工對患者指標進行評估,可實時提醒醫生對高?;颊哌M行及時治療。
惠每病歷質控應用界面
病歷質控:病歷作為醫院使用的典型半結構化文本數據,醫務部門人員常外聘專家或退休醫生對病歷質量進行抽查,需耗費大量人工和財力成本。利用AI學習質控規則,可自動掃描病歷并執行院內三級質控模式,實現管理關口前移和及時干預
惠每單病種質控提醒界面
單病種質控:通過AI實現準確識別病種、準確提醒醫療質量規則、準確識別醫生“做了沒”,讓醫生診療行為更有粘性,并以單病種的維度實現 整個診療路徑和費用之間的平衡。
根據CDSS在醫院臨床的實際使用情況,我們發現,在臨床輔助診療的場景下應用大模型,面臨著三個挑戰:私有化部署、可信度和速度。
1.私有化部署
醫院是一個十分重視數據安全的領域,由于不允許連接外網,因此無論是ChatGPT或其他國內廠商公開的API接口均無法在醫院的電腦上使用。如何做好大模型在醫院的私有化部署,成為挑戰之一。
2.可信度
由于目前大模型在醫院內的使用屬于生成的模型,其結果需要取得醫生的信任,這是輔助診療產品研發過程中必須解決的問題。
3.速度
大模型在臨床輔助診療系統中的響應速度容易被忽視。一方面,大模型在公網的生成速度普遍較慢;另一方面,在醫院資源有限的情況下,很難通過采購大量高性能GPU提升速度。因此,是否能夠在不增加醫院資源的前提下,迅速推廣大模型應用,讓醫院盡早體驗到大模型帶來的收益,是值得探索和解決問題。
訓練——依托臨床非公開數據對大模型進行重訓練
近些年,隨著大語言模型的火熱,在醫療領域內出現了許多號稱使用了自研大語言模型的企業。那么應該如何分辨這種大模型的真實性和優劣呢?
首先,可以關注大模型的技術團隊和企業基因;其次了解其算力、語料的堆砌情況;最后,觀察其是否開放API接口或開源。
從0到1建立一個10B參數大小的大模型雖然可以實現,但要達到可用的效果或100B以上具備涌現能力的大模型所需的持續訓練成本非常高,大多數中小企業難以負擔成本。目前國能真正能夠普遍使用的開源模型有兩個:LLaMA 7B和ChatGLM 6B。
在醫療領域做好大模型,國內外是如何做的呢,有幾個案例值得學習。
國外優秀大模型案例
基于第三方大模型API的開源大模型微調優化方案
美國斯坦福大學基于Meta模型訓練出一個醫療大模型。開發人員提前設置了一系列Q&A任務,通過ChatGPT的API接口,在公網收集大量數據,然后重新訓練Meta模型。最后,通過微調,生成了Alpaca 7B模型。
在整個過程中,最讓人注意的是它的開發成本:其數據使用了8張A100(80G)卡,訓練時間3小時,成本僅500美元。這是一個低成本,適合中小企業進行嘗試的方案。
在實驗結果對比中,經過微調產生的Alpaca 7B與通過GPT3.5擴充數據之后的模型對比,其效果相差不多,證明了該開源模型的能力可以達到領域內先進的模型水平。
值得注意的是,該方案仍存在問題,即生成模型過程中的普遍問題沒有解決,最終可能會生成一個“看似正確的錯誤答案”。
Alpaca7B第三方API(gpt3.5)訓練數據生成流程
在Alpaca7B的訓練過程中,有兩點值得注意:一是如何設計指令,二是生成大量新的訓練數據時,如何挑選合適的數據納入模型繼續訓練。很多關鍵技巧都隱藏在了這些步驟當中。
與常見的使用微調框架的做法不同,其訓練過程中可以實現參數全部打開,進而在開源模型基礎上繼續訓練,這也是比較成熟的框架做法(FSDP)。
國內優秀大模型案例
中文醫學模型本草(原名華佗)評測效果對比
國內也有一個比較好的案例,就是哈工大的中文醫學模型本草(原名華佗)。在斯坦福的Alpaca發布之后,持續關注醫療、語言處理的哈工大某實驗室快速反應,通過類似思路開發了大模型。但與之不同的是,本草除了納入GPT3.5 API生成數據外,還加入了國內知識圖譜的數據,通過混合兩部分數據對LLaMA7B進行微調。
實驗結果對比顯示,在輸入測試中,本草的反饋效果較Alpaca7B和LLaMA7B更好。
從國內外這兩個案例可以看出,醫療領域的大模型并不是簡單的“從0到1”,其技術難度非常高,這也是國內外通過微調通用模型實現醫療領域模型的重要原因。
惠每科技獨特的大模型訓練方式
基于國內外醫療領域內的研究經驗,惠每科技形成了獨特的醫療領域大模型訓練方式。
惠每大模型訓練流程
首先,基于通用模型進行微調?;菝咳斯ぶ悄芙鉀Q方案的系列產品目前已經在600多家醫院中私有化部署。在實踐過程中,這些數據均已被處理,形成優質結構化數據。這些數據加上惠每數據庫圖譜和第三方API生成的數據,再對通用模型進行微調,形成了惠每大模型。目前,惠每已實現7B級規模大模型訓練、微調、私有化部署全鏈路關鍵技術和算力
通過惠每CDSS等產品的應用,可以快速收集到寶貴的醫生反饋數據。這種RLHF(Reinforcement Learning with Human Feedback)方式,不僅能夠讓醫院體驗到大模型應用帶來的收益,還能在累積數據的過程中,不斷驗證大模型在新場景處理新任務時的遷移能力,進而完善大模型的形成。
這種方式既是低成本路徑,也是摸清訓練和調試模型的最佳方式之一。
數據——醫療行業企業大模型研發有自己的優勢
大模型的研發,無外乎模型、算力和數據。對比OpenAI、百度等大型企業,醫療垂直行業的企業在模型使用上相差不多,在算力上相差較大,但它們也有自己的優勢——數據。
這些數據一方面包括半公開的數據,例如收集了大量的醫學文獻的醫學知識庫、知識圖譜等,一方面則是不公開的數據,包括臨床脫敏數據、電子病歷、檢測檢驗報告和RLHF臨床醫生反饋數據。其中的大量數據在公網是完全無法獲得的。
目前很多醫療企業做的大模型應用場景僅局限在問診,這是由于其基于Chat模式制作。對于臨床醫生,問診相關應用確實可以成為提升效率的工具,但從臨床診療建議角度,其使用頻率相對較低。大模型是改變時代的產品,其應用場景也一定不僅僅是問診。
相比之下,基于私有數據進行重新編輯組織的Copilot方式更適合臨床診療場景,且更具指導意義。
根據國家政策,CDSS應滿足如下基本要求:
1. 臨床知識來源應該具有權威性,包括但不限于國家認可的臨床診療規范、指南、標準、醫學教材、專著、文獻、臨床經驗等。
2. 臨床知識庫應及時更新,更新周期一般不長于半年。知識庫內容應有退出機制,對不適用的知識應及時清除。
3. CDSS的決策結果應準確、可靠。
4. CDSS的使用應留存審計日志、可對使用情況進行溯源評價。
以上要求的實現,也奠定了CDSS必須實現私有化部署,也只有這樣才能實現本地知識庫融合,進而訓練出可信賴的大模型。
速度——不能被忽視的大模型推理性能
大模型在醫院落地的核心指標之一,是其推理性能。
在一項“生成一個300字病歷”的任務測試中,國內3家開放的大模型應用分別用了19s、14s和24s。盡管該項測試沒有排除網絡因素等,但仍能得到大概20-30token/s的數據生成速度,該速度在臨床診療場景下是遠遠無法滿足使用。
不同輸入Token長度下平均推理速度
目前,惠每科技已經與合作醫院簽署了相關協議,可以在院內進行訓練和測試。測試結果顯示,基于惠每6B模型,在使用型號為英特爾6148的CPU時,數據生成速度大約為6token/s(目前已提升至10token/s);而使用GPU服務器時,數據生成速度可達到47token/s。
為了提升大模型響應速度和數據生成速度,惠每科技投入了大量成本在制作向量化模型的蒸餾工作。此前,惠每科技與英特爾合作,嘗試用OpenVINO模型框架在CPU上實現加速,使得模型推演速度得到顯著提升。未來,雙方將繼續合作,嘗試在CPU上實現性能提升,讓整個推理大模型更快地在醫院落地,從而帶動生態環境,并產出更多的優質應用。同時通過獲取更多的反饋數據,實現良性循環,未來或許有機會建造130B的通用醫療模型。
成為我們的
合作伙伴