日前,Google?。遥澹螅澹幔颍悖琛『汀?a>Google?。模澹澹穑停椋睿?/a> 的?。粒伞F隊開發(fā)了一款基于大語言模型的人工智能系統(tǒng), AMIE(Articulate?。停澹洌椋悖幔臁。桑睿簦澹欤欤椋纾澹睿悖濉。牛穑欤铮颍澹颍槍υ\斷對話進行了優(yōu)化。AMIE采用了一種強化學習算法中的「自我博弈」方法,可以在一個模擬環(huán)境中自我對弈,通過自動反饋機制,可在各種疾病、醫(yī)學??坪铜h(huán)境中進行擴展學習。AMIE已通過圖靈測試。該研究于?。玻埃玻础∧辍。薄≡隆。保薄∪瞻l(fā)布在 arXiv 預印平臺。
研究人員基于真實世界數(shù)據(jù)集訓練AMIE,這些數(shù)據(jù)集包括醫(yī)學推理、醫(yī)學總結(jié)和真實世界的臨床對話。但同時也面臨著挑戰(zhàn),一方面,現(xiàn)有的真實世界數(shù)據(jù)往往無法捕捉到大量的醫(yī)療條件和場景,這阻礙了數(shù)據(jù)的可擴展性和全面性。另一方面,從真實世界對話記錄中獲得的數(shù)據(jù)往往是嘈雜的,包含含糊不清的語言(包括俚語、行話、幽默和諷刺)、中斷、不合語法的語句和不明確的引用。
為了解決這些局限性,研究人員設(shè)計了一個基于自演的模擬學習環(huán)境,讓聊天機器人訓練自己“對話”。該環(huán)境具有自動反饋機制,用于模擬醫(yī)療環(huán)境中的診斷性醫(yī)療對話,從而在多種醫(yī)療條件和環(huán)境中擴展AMIE的知識和能力。
研究人員利用現(xiàn)有的現(xiàn)實世界數(shù)據(jù)集(例如電子健康記錄和轉(zhuǎn)錄的醫(yī)療對話)對基礎(chǔ) LLM 進行了微調(diào)。為了進一步訓練模型,研究人員要求?。蹋蹋汀“缪莼加刑囟ú“Y的人,以及富有同理心的臨床醫(yī)生,旨在了解患者的病史并設(shè)計潛在的診斷。
團隊設(shè)計了一個框架,來評估診斷對話的過程,包括病史采集、診斷準確性、管理推理、溝通技巧和同理心。通過一項隨機、雙盲交叉研究,以客觀結(jié)構(gòu)化臨床檢查(OSCE)的方式與經(jīng)過驗證的患者參與者進行基于文本的咨詢,將?。粒停桑拧〉谋憩F(xiàn)與初級保健醫(yī)生(PCP)的表現(xiàn)進行了比較。
該研究包括來自加拿大、英國和印度臨床提供者的 149 個病例場景、20 個與?。粒停桑拧∵M行比較的初級保健醫(yī)生(PCP),以及??漆t(yī)生和患者參與者的評估。研究人員觀察到AMIE在模擬診斷對話中的表現(xiàn)至少與初級保健醫(yī)生不相上下。根據(jù)??漆t(yī)生的說法,AMIE的診斷準確性更高,在32個指標中的28個指標上表現(xiàn)更優(yōu)。根據(jù)參與研究的患者的說法,AMIE在26個指標中的24個指標上表現(xiàn)更優(yōu),包括禮貌、解釋病情和治療、給人誠實的印象以及表達關(guān)心和承諾等。
AMIE表現(xiàn)出了充分的潛力,但目前該工具仍處于純粹的實驗階段,還沒有在真正的患者身上進行過測試。該團隊在論文里也注明了該工具的局限性,應(yīng)謹慎使用。
論文的合著者?。粒欤幔睢。耍幔颍簦瑁椋耄澹螅幔欤椋睿纾幔怼”硎荆乱徊绞沁M行更詳細的研究,從而評估潛在的偏見,并確保該系統(tǒng)對不同人群是公平的。Google 團隊也在研究對臨床醫(yī)療問題系統(tǒng)測試的道德要求。未來還有許多重要的限制因素需要解決,包括在真實世界限制條件下的實驗表現(xiàn),以及對健康公平與公正、隱私、穩(wěn)健性等重要主題的專門探索,以確保技術(shù)的安全性和可靠性。
注:文章來源于大健康派,如有侵權(quán),請聯(lián)系刪除