《柳葉刀》子刊:王洛偉團隊在AI篩查食管癌領域取得重要進展!
近期,以ChatGPT為代表的通用人工智能(AGI)的發(fā)展,著實讓大家有了一種「奇點臨近」的感覺。當然,在AGI面世之前,科學家已經用機器學習和深度學習解決了很多醫(yī)學領域的實際問題。
近期,上海市第一人民醫(yī)院、海軍軍醫(yī)大學附屬長海醫(yī)院、上海國家消化系統(tǒng)疾病臨床醫(yī)學研究中心等多家機構的研究人員,在《柳葉刀·胃腸肝病學》雜志上發(fā)表了一項重要研究,利用機器學習技術讓更經濟、更可及的大規(guī)模食管癌篩查成為可能。機器學習模型AUROC達0.964,并可避免92.8%的內窺鏡檢查【1】。
論文首頁截圖
食管癌的兇猛想必不用多言。在全球范圍內,食管癌在癌癥相關死亡原因排行榜中位居第六,僅2020年就造成了超過50萬人死亡【2】。需要特別強調的是,全球超過50%的食管癌死亡來自中國【3】,可見我國疾病負擔之沉重。
在食管癌高發(fā)的區(qū)域,食管鱗狀細胞癌占所有食管癌的90%【3】。由于食管鱗狀細胞癌癥狀出現較晚,大多數患者確診已是晚期,因此預后非常不佳,在非洲地區(qū)5年總生存率不到5%,中國則為30%。
和大多數癌癥一樣,早診早治也是降低食管癌死亡率的重要手段。如果可以在疾病的早期階段,如高級別鱗狀上皮增生(前期病變)和早期浸潤性食管鱗狀細胞癌時進行早期檢測和干預,則可以有效減少食管鱗狀細胞癌的死亡率。
事實上,中國已經開展的早篩計劃證明,40~69歲之間進行一次內窺鏡篩查,可以在未來10年內將食管鱗狀細胞癌的死亡率降低30~60%【4】。
有效篩查是降低食管癌病死率的“中國經驗”
不過,雖然內窺鏡篩查是食管癌早診的金標準,但受侵入性和資源密集型限制,很難在我國高風險地區(qū)廣泛開展。替代的方法主要有兩種,一種是基于流行病學的問卷調查,另一種是對非內窺鏡氣球或膠囊海綿采樣器采集的細胞進行病理分析。但前者預測效果有限,后者則需要大量有經驗的細胞病理學家。
那么有沒有可能開發(fā)一種對資源占有量小,不需要大量細胞病理學家介入,成本可控,準確率又高的篩查方法呢?是時候呼喚AI了!
由研究團隊發(fā)起的這項名為EAST的研究,在全國39家醫(yī)院招募了14597名40-75歲之間的成年人,其中7899例數據進入訓練集,6698例數據進入測試集,除此之外,還有2901名社區(qū)參與者,這些數據進入了驗證數據集。
人群基線特征
研究的流程可謂行云流水。首先,所有參與者都完成了一份結構化的在線問卷調查,包括人口統(tǒng)計學和風險因素,如性別、年齡、身體質量指數、居住地、教育水平、吸煙和飲酒習慣等。其次,由當地的護士進行膠囊海綿細胞采樣,收集的細胞被送往中央實驗室處理,并使用研究團隊的AI掃描儀進行病理片的掃描,并進一步提取數字化的細胞學特征。
在測試和驗證集中,被AI識別異常的細胞將交給兩位細胞學家進行獨立盲法診斷。所有參與者在細胞學檢查后的10天內接受上消化道內窺鏡檢查,并由醫(yī)生獨立診斷。
基于這些數據,研究團隊希望訓練一個機器學習模型,通過流行病學問卷調查+膠囊海綿細胞樣本AI特征提取數據,來預測食管癌的風險。
研究的主要預測結果是高級別病變,包括食管和食管-胃交界處的組織學證實的癌癥和高級別上皮內瘤變。結果指標包括模型的受試者工作特征曲線下面積(AUROC)和平均精度,以及靈敏度、特異度、陽性預測值、陰性預測值和需要內窺鏡檢查的人數。
研究團隊訓練了LR、AdaBoost、LightGBM 等6個常用的機器學習模型。在測試集中,LightGBM模型表現較佳,AUROC達到0.960(95% CI 0.937 to 0.977),平均精度為0.482(95% CI 0.470 to 0.494),并且與AI輔助的細胞學家表現相似(AUROC 0.955 [95% CI 0.933 to 0.975])。因此被選為進一步分析的終模型。
各分析模型準確性
如果將模型定義的中度風險和高風險組轉介到內窺鏡檢查,其敏感性為94.5%(95% CI 88.8 to 97.5),特異性為91.9%(95% CI 91.2 to 92.5),預測陽性值為18.4%(95% CI 15.6 to 21.6)。
研究團隊根據測試集ROC曲線的操作點,將預測風險得分(PRS)小于0.25的參與者定義為低風險組,PRS為0.25~0.5的參與者定義為中等風險組,PRS為0.5或更高的參與者定義為高風險組。
這里簡單科普一下,在機器學習中,PRS可以理解為一個分類閾值,將預測分數轉換為相應的分類標簽。比如,將預測分數大于等于閾值的樣本判定為陽性(positive),小于閾值的樣本判定為陰性(negative)。分類閾值是預測模型終決策的關鍵因素之一。
按照這個分類閾值,在測試組6698名參與者中, 6045(90.3%)為低風險組, 189(2.8%)為中等風險組, 464(6.9%)為高風險組。
此前的內窺鏡檢查診斷結果的顯示,在測試人群中,高級別病變的患病率為1.9%(6698人中的127人),也就是說,需要用內窺鏡篩查52.7人,才能篩出一位高級別病變的患者。而如果將機器學習預測的中等風險和高風險組參與者納入內窺鏡篩查,則使用內窺鏡篩查5.4人,就可以篩出一位高級別病變患者,可以避免90.3%的內窺鏡檢查。
準不準確?好不好用?
最后,使用社區(qū)2901例參與者的數據對模型進行驗證。在這個驗證集中,1.2%(36 of 2901) 的參與者經內窺鏡診斷為陽性。經驗證,LightGBM模型的AUROC為0.964(95% CI 0.920 to 0.990)。使用預定義的PRS,92.8%的參與者被分類為低風險,2.1%被分類為中風險,5.0%被分類為高風險。
如果將中等風險和高風險視為陽性預測,需要進一步使用內窺鏡檢查,則可以避免92.8%的內窺鏡檢查。也就是說,如果驗證集的參與者全部采用內窺鏡篩查,篩查80.6人才能找到一個陽性患者;但對經機器學習判定為陽性預測的參與者進行內窺鏡篩查,則篩查5.9人,就可以找到一個陽性患者。篩查效率可謂大幅提升!
最后總結一下,這項由中國多家機構發(fā)起了食管癌AI輔助篩查研究發(fā)現,他們訓練的機器學習模型可以使用「流行病學調查問卷+AI處理的海綿細胞采樣數據」,實現食管癌的高效篩查,AUROC達0.964,并可避免92.8%的內窺鏡檢查,極大減少了篩查中內窺鏡的使用密度。
聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息,如作者信息標記有誤,或侵犯您的版權,請聯(lián)系我們,我們將在及時修改或刪除內容,聯(lián)系郵箱:marketing@360worldcare.com