近日,Nature上發(fā)表了一篇文章,探討關(guān)于醫(yī)療領(lǐng)域AI應(yīng)用的測試問題。
文章認為,AI模型的應(yīng)用有望顯著提高醫(yī)療效率,但當(dāng)前AI醫(yī)療應(yīng)用的審批標準往往不如藥物嚴格,許多應(yīng)用在未經(jīng)充分臨床驗證的情況下就已投入使用。監(jiān)管機構(gòu)如美國FDA已批準數(shù)百種AI驅(qū)動的醫(yī)療設(shè)備和應(yīng)用,但臨床驗證數(shù)據(jù)往往不足,引發(fā)了對其安全性和有效性的擔(dān)憂。
AI系統(tǒng)的實際應(yīng)用效果受多種因素影響,包括醫(yī)療人員與算法的互動、不同人群和環(huán)境中的表現(xiàn)差異等。AI應(yīng)用中要考慮哪些問題,如何進行測試,有哪些解決方案?文章進行了詳細探討,全文如下:
當(dāng)?shù)挛摹ば粮瘢ǎ模澹觯椋睢。樱椋睿纾瑁┻€是一名兒科住院醫(yī)師時,他曾照顧過一名在急診室長時間等待就診后心臟驟停的小孩。“我記得當(dāng)時在為這個孩子進行心肺復(fù)蘇,感受到他慢慢離去”,他說。孩子的死亡讓他深受打擊,同時他也在思考,如果等待時間能縮短,是否能夠避免這種悲劇。
這件事促使他將自己的兒科專長與另一領(lǐng)域——計算機科學(xué)結(jié)合起來,探索人工智能(AI)是否能夠幫助縮短等待時間。辛格目前在加拿大多倫多的兒童醫(yī)院(SickKids)工作,他和同事們利用該醫(yī)院急診科的分診數(shù)據(jù),構(gòu)建了一系列AI模型,這些模型可以提供潛在的診斷建議,并指出可能需要進行的檢查?!袄?,如果我們可以預(yù)測一名患者很可能患有闌尾炎,并需要進行腹部超聲檢查,我們可以在患者到達后幾乎立即自動安排這項檢查,而不是讓他們等待6到10個小時才能見到醫(yī)生”,他說。
一項利用SickKids醫(yī)院超過77,000次急診就診數(shù)據(jù)的回顧性研究表明,這些模型可以加速22.3%的就診進程,為每位需要進行檢查的患者節(jié)省近3小時的時間。然而,AI算法在研究中取得成功,僅僅是驗證這種技術(shù)干預(yù)措施能否在現(xiàn)實中真正為人們提供幫助的第一步。
在醫(yī)療環(huán)境中正確測試AI系統(tǒng)是一個復(fù)雜的多階段過程,但只有相對較少的開發(fā)者發(fā)布了此類分析的結(jié)果。數(shù)據(jù)顯示,2020年至2022年間,僅有65項AI干預(yù)措施的隨機對照試驗被發(fā)表。與此同時,美國食品藥品監(jiān)督管理局(FDA)等監(jiān)管機構(gòu)已經(jīng)批準了數(shù)百種AI驅(qū)動的醫(yī)療設(shè)備在醫(yī)院和診所使用。
“醫(yī)療機構(gòu)發(fā)現(xiàn)許多獲批的設(shè)備沒有經(jīng)過臨床驗證”,洛杉磯加州西奈山醫(yī)學(xué)中心的心臟病專家大衛(wèi)·歐陽(David?。希酰幔睿纾┱f道。一些醫(yī)院選擇自行測試這些設(shè)備。
盡管研究人員知道理想的AI干預(yù)臨床試驗應(yīng)該是什么樣子,但在實踐中,測試這些技術(shù)充滿挑戰(zhàn)。實施效果取決于醫(yī)療專業(yè)人員與算法的互動情況,如果醫(yī)療專業(yè)人員忽視AI的建議,那么再好的工具也會失效。AI程序?qū)τ谟?xùn)練中使用的數(shù)據(jù)集,與實際應(yīng)用目標人群之間的差異特別敏感。此外,如何以最好的方式向患者及其家屬釋明這些技術(shù),并征得他們的同意使用其數(shù)據(jù)進行測試,目前尚不明確。
一些醫(yī)院和醫(yī)療系統(tǒng)正在嘗試在醫(yī)學(xué)領(lǐng)域中使用和評估AI系統(tǒng)。隨著越來越多的AI工具和公司進入市場,相關(guān)各方正在共同努力,尋求最佳評估方式,確定最嚴格的測試標準。
誰在測試醫(yī)療AI系統(tǒng)?
由辛格(Singh)等人開發(fā)的基于AI的醫(yī)療應(yīng)用,通常被監(jiān)管機構(gòu)(包括美國FDA和英國藥品與保健產(chǎn)品管理局)視為醫(yī)療設(shè)備。因此,審查和批準它們的標準往往不如藥物嚴格。只有一小部分可能對患者構(gòu)成高風(fēng)險的設(shè)備,才需要臨床試驗數(shù)據(jù)才能獲得批準。
許多人認為門檻太低了。費城賓夕法尼亞大學(xué)的重癥醫(yī)學(xué)專家加里·魏斯曼(Gary?。祝澹椋螅螅恚幔睿┰趯彶椋疲模僚鷾实模粒稍O(shè)備時發(fā)現(xiàn),在他審查10種設(shè)備中,只有3種在其授權(quán)文件中引用了已發(fā)表的數(shù)據(jù)。只有4種提到了安全性評估,沒有一種包括偏見評估。“令人擔(dān)憂的是,這些設(shè)備確實能夠并且正在影響臨床護理”,他說,“患者的生命可能就取決于這些決策?!?/p>
數(shù)據(jù)的缺乏使得醫(yī)院和醫(yī)療系統(tǒng)難以決定是否要使用這些技術(shù)。在某些情況下,經(jīng)濟激勵措施也會產(chǎn)生影響。例如,在美國,健康保險計劃已經(jīng)為使用某些醫(yī)療AI設(shè)備的醫(yī)院進行報銷,這使得這些設(shè)備從經(jīng)濟角度具有吸引力。這些機構(gòu)可能也傾向于采用那些承諾可以節(jié)省成本的AI工具,即使它們不一定能改善患者護理。
歐陽(Ouyang)表示,這些激勵措施可能會讓AI公司不愿投資于臨床試驗。對于許多商業(yè)企業(yè)來說,他們可能更傾向于確保他們的AI工具可以獲得報銷,并具有良好的財務(wù)回報,因為他們看到,這些激勵措施已經(jīng)推動了AI工具的采用。
根據(jù)市場的不同,情況可能會有所不同。例如,在英國,政府資助的全國性健康計劃可能會在醫(yī)療機構(gòu)采用某種產(chǎn)品之前,設(shè)置更高的證據(jù)標準,英國伯明翰大學(xué)研究負責(zé)任創(chuàng)新的臨床研究員劉曉軒(Xiaoxuan?。蹋椋酰┍硎?。“這樣一來,企業(yè)就有動力進行臨床試驗了?!?/p>
一旦醫(yī)院購買了某款AI產(chǎn)品,他們不需要進行進一步測試,就可以像使用其他軟件一樣立即使用它。然而,一些機構(gòu)認識到,監(jiān)管批準也不保證該設(shè)備真正有益。因此,它們選擇自行測試這些設(shè)備。歐陽表示,目前許多這類工作是由學(xué)術(shù)醫(yī)療中心開展和資助的。
2017年,阿姆斯特丹大學(xué)醫(yī)學(xué)中心的重癥醫(yī)學(xué)主任亞歷山大·弗拉爾(Alexander?。郑欤幔幔颍┖驮摍C構(gòu)的麻醉師丹尼斯·維洛(Denise Veelo)發(fā)起了這樣一個項目。他們的目標是測試一種旨在預(yù)測術(shù)中低血壓的算法。術(shù)中低血壓可能導(dǎo)致危及生命的并發(fā)癥,如心肌損傷、心臟病發(fā)作和急性腎衰竭,甚至死亡。
該算法由加利福尼亞州爾灣市的愛德華生命科學(xué)公司(Edwards?。蹋椋妫澹螅悖椋澹睿悖澹螅╅_發(fā),使用動脈波形數(shù)據(jù)——即在急診室或重癥監(jiān)護室的監(jiān)視器上看到的紅色波峰和波谷線。它可以在低血壓發(fā)生前幾分鐘進行預(yù)測,進而實現(xiàn)早期干預(yù)。
弗拉爾、維洛及其同事們進行了一項隨機臨床試驗,在60名接受非心臟手術(shù)的患者中測試了這個工具。那些在手術(shù)過程中使用該設(shè)備的患者,其低血壓持續(xù)時間的中位數(shù)為8分鐘,而對照組患者的低血壓持續(xù)時間接近33分鐘。
該團隊進行了第二次臨床試驗,確認該設(shè)備與明確的治療方案相結(jié)合,在更復(fù)雜的環(huán)境中也有效,包括在心臟手術(shù)期間和重癥監(jiān)護室內(nèi)。這些結(jié)果尚未發(fā)表。
成功不僅僅是因為算法的精確性,麻醉師對警報的響應(yīng)也至關(guān)重要。因此,研究人員確保醫(yī)生們進行充分的準備:“我們提供了一份診斷流程圖,詳細說明了當(dāng)警報響起時的步驟”,維洛說道。同一算法在另一家機構(gòu)進行的臨床試驗中就未能顯示出益處,弗拉爾表示,在那個試驗中,“床邊醫(yī)生在警報響起時沒有按照規(guī)定采取行動”。
人機協(xié)作
一個非常好的算法可能會因為人類行為的偏差而導(dǎo)致失敗,這包括醫(yī)療專業(yè)人員和接受治療的患者的行為差異。
明尼蘇達州羅切斯特的梅奧診所測試了一個其內(nèi)部開發(fā)的算法,該算法用于檢測一種名為低射血分數(shù)的心臟病狀況。測試時,該中心的人機交互研究員芭芭拉·巴里(Barbara Barry)負責(zé)彌合開發(fā)人員和使用該技術(shù)的初級保健提供者之間的差距。
該工具旨在標記可能處于這種病癥的高風(fēng)險個體,這種狀況可能是心力衰竭的征兆,雖然可以治療,但往往未被診斷出來。臨床試驗表明,該算法確實提高了診斷率。然而,在交流中發(fā)現(xiàn),醫(yī)療服務(wù)提供者希望得到更多指導(dǎo),尤其是在如何向患者解釋算法結(jié)果方面。這引出了一項建議,即如果廣泛實施該應(yīng)用,應(yīng)包含一些要點,列出與患者溝通的重要信息,這樣醫(yī)療提供者就不必每次都考慮如何進行那樣的對話?!斑@是我們?nèi)绾螐膶嵱眯栽囼炦^渡到實施策略的一個例子,”巴里說。
另一個可能限制某些醫(yī)療AI設(shè)備成功的問題是“警報疲勞”——當(dāng)臨床醫(yī)生接收到大量AI生成的警報時,他們可能會對其變得麻木。梅奧診所家庭醫(yī)學(xué)部主任大衛(wèi)·拉什洛(David?。遥酰螅瑁欤铮鳎┍硎?,這一點應(yīng)該在測試過程中加以考慮。
他說:“我們已經(jīng)每天多次收到關(guān)于患者可能面臨的風(fēng)險狀況的警報,對于忙碌的一線臨床醫(yī)生來說,這實際上是一項非常艱難的任務(wù)。我認為這些工具確實能夠幫助我們,但是,如果它們沒有被準確地引入,默認的情況下,大家就會繼續(xù)按照原來的方式做事,因為我們沒有精力去學(xué)習(xí)新的東西?!?/p>
考慮偏見
測試醫(yī)療AI的另一個挑戰(zhàn)是臨床試驗結(jié)果很難推廣到不同的人群中?!氨娝苤?,當(dāng)AI算法在用于與其訓(xùn)練數(shù)據(jù)不同的數(shù)據(jù)時,它們非常脆弱”,劉曉軒指出,只有當(dāng)臨床試驗的參與者能夠代表該工具將要應(yīng)用的人群時,才能安全地推廣。
此外,基于資源豐富的醫(yī)院中收集到的數(shù)據(jù)訓(xùn)練出的算法,在資源較少的環(huán)境中應(yīng)用時可能表現(xiàn)不佳。例如,谷歌健康(Google?。龋澹幔欤簦瑁┰诩又菖谅灏柾虚_發(fā)的用于檢測糖尿病視網(wǎng)膜病變的算法在理論上非常準確。然而,當(dāng)該工具在泰國的診所中使用時,其性能顯著下降。一項觀察性研究揭示,泰國診所的照明條件導(dǎo)致眼部圖像質(zhì)量低,降低了該工具的有效性。
患者同意
目前,大多數(shù)醫(yī)療AI工具幫助醫(yī)療專業(yè)人員進行篩查、診斷或制定治療計劃。患者可能不知道這些技術(shù)正在他們的護理中進行測試或常規(guī)使用,并且目前在任何國家都沒有要求醫(yī)療提供者披露這一點。
關(guān)于應(yīng)將哪些AI技術(shù)的內(nèi)容告知患者,仍在持續(xù)討論中。其中一些應(yīng)用正在將患者同意的問題推到開發(fā)者關(guān)注的前沿。辛格(Singh)和他的同事正在開發(fā)的AI設(shè)備就是這種情況,該設(shè)備旨在優(yōu)化SickKids兒童醫(yī)院急診科的兒童護理流程,這項技術(shù)的不同之處在于,它將臨床醫(yī)生排除在外,使孩子或者他們的父母、監(jiān)護人成為最終用戶。
辛格說:“這個工具的作用是獲取急診分診數(shù)據(jù),做出預(yù)測,并讓家長直接決定是否可以對孩子進行檢測?!边@減輕了臨床醫(yī)生的負擔(dān),并加快了整個過程。但它也帶來了許多前所未有的問題。如果患者出現(xiàn)問題,誰應(yīng)承擔(dān)責(zé)任?如果進行了不必要的檢查,誰將為此買單?“我們需要以自動化的方式獲得家庭的知情同意”,辛格說,并且這種同意必須是可靠和真實的,“它不能像你注冊社交媒體時那樣,給你20頁小字,你不仔細看只點擊‘接受’ ”。
在辛格和他的同事等待資金以啟動患者試驗的同時,該團隊正在與法律專家合作,并讓加拿大衛(wèi)生部(Health Canada)審查其提案并考慮其監(jiān)管影響。
尋找解決方案
各機構(gòu)正在合作討論如何應(yīng)對這些挑戰(zhàn)。一些專家表示,最好的方法是每個醫(yī)療機構(gòu)在采用醫(yī)療AI工具之前進行自己的測試。其他人則指出,由于涉及的成本,這是不可行的,因此研究人員和醫(yī)療機構(gòu)正在探索其他方案。
“對于大型機構(gòu)來說,已經(jīng)很困難了,而對于小型機構(gòu)來說將更加艱難”,梅奧診所的醫(yī)療AI專家肖娜·歐弗加德(Shauna?。希觯澹颍纾幔幔颍洌┱f。她參與領(lǐng)導(dǎo)了梅奧診所的AI驗證和管理研究項目,該項目旨在以標準化和集中的方式測試醫(yī)療AI工具,以便它們可以在梅奧診所健康系統(tǒng)相關(guān)的社區(qū)醫(yī)療機構(gòu)中使用。
歐弗加德也是健康AI聯(lián)盟(Coalition for?。龋澹幔欤簦琛。粒桑┑某蓡T,該聯(lián)盟包括來自行業(yè)、學(xué)術(shù)界和患者倡導(dǎo)組織的代表。該聯(lián)盟由谷歌、亞馬遜、微軟和CVS?。龋澹幔欤簦璧裙举Y助,提議創(chuàng)建一個健康AI保障實驗室網(wǎng)絡(luò),該網(wǎng)絡(luò)將使用一套商定的原則,以集中的方式評估模型。
北卡羅來納州達勒姆市杜克健康創(chuàng)新研究所的臨床數(shù)據(jù)科學(xué)家馬克·森達克(Mark?。樱澹睿洌幔耄┍硎?,這種集中式方法并不理想?!懊總€環(huán)境都需要擁有自己的內(nèi)部能力和基礎(chǔ)設(shè)施來進行測試”,他說。
他是健康AI伙伴關(guān)系(Health AI?。校幔颍簦睿澹颍螅瑁椋穑┑某蓡T,這是一個由學(xué)者和醫(yī)療組織組成的團體。該合作組織獲得了位于加利福尼亞州帕洛阿爾托的戈登和貝蒂·摩爾基金會的初始資金支持,旨在建立能力,并為任何組織提供技術(shù)支持,使其能夠在本地測試AI模型。
美國大型醫(yī)學(xué)影像實踐集團放射學(xué)合作伙伴(Radiology?。校幔颍簦睿澹颍螅┑姆派淇漆t(yī)師和臨床AI副首席醫(yī)療官尼娜·科特勒(Nina Kottler)也認為,本地驗證至關(guān)重要。她希望這些研究的見解可以用來教育那些將要操作這些工具的專業(yè)人員。她表示,這一人類因素將是最重要的。“幾乎沒有在醫(yī)療中完全自主的AI”,她說,“我們必須開始考慮,不僅要測量AI的準確性,還要測量AI與最終用戶的結(jié)合效果?!?/p>
注:文章來源于網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系刪除