導讀:利用大數據科研分析平臺,改善臨床研究工作流程,提高試驗效率,加速成果轉化。以大數據科研分析平臺的建設為切入點(diǎn),從數據采集、數據處理及統計分析等方面,探討其在臨床研究尤其是真實(shí)世界研究中的應用效果。大數據科研分析平臺在臨床研究中的多個(gè)環(huán)節都起到了切實(shí)有效的輔助作用,縮短了試驗周期,降低了研究成本。大數據科研分析平臺利用自然語(yǔ)言處理、機器學(xué)習等人工智能技術(shù),深度挖掘臨床研究中的數據內在價(jià)值,多層次、多角度滿(mǎn)足不同科研需求,有著(zhù)廣闊的應用前景。
隨著(zhù)循證醫學(xué)、轉化醫學(xué)以及藥物經(jīng)濟學(xué)等在我國的迅速發(fā)展,以及國家對臨床醫學(xué)研究的大力倡導,醫生的科研需求持續增加。而傳統RCT(randomized controlled trial,隨機對照試驗)試驗由于其外部有效性、推廣性有限,無(wú)法評價(jià)藥品在真實(shí)臨床環(huán)境下的作用等,近年來(lái),基于真實(shí)世界的研究(Real World Study,RWS)正越來(lái)越多地受到醫療衛生領(lǐng)域的關(guān)注。RWS作為一種藥品上市后的再評價(jià)方法,可以更好地反映出藥品在實(shí)際臨床使用過(guò)程中的有效性、安全性以及經(jīng)濟性等。但由于其所需樣本量較大,通常涉及海量醫療數據,以往依靠人工操作的科研方式不僅耗時(shí)耗力,且極易出現人為錯誤,難以保證數據質(zhì)量及科研實(shí)施的效率。
與此同時(shí),隨著(zhù)我國醫院信息化水平的日益提高以及信息系統覆蓋率的逐漸增加,各醫院積累的診療數據呈指數級增長(cháng),為開(kāi)展基于大數據的RWS研究提供了廣泛基礎。因此,如何利用大數據及人工智能技術(shù),積極助力RWS的開(kāi)展,提高其質(zhì)量與效率,成為亟待解決的問(wèn)題。
真實(shí)世界研究概念及特點(diǎn)
概念 所謂真實(shí)世界研究(RWS)是指在臨床真實(shí)條件與現實(shí)環(huán)境下,基于較大樣本量(覆蓋具有代表性的更廣大受試者),比較和選擇不同醫療手段的過(guò)程及其結局研究;與傳統RCT中對人群的高度選擇,對干預和對照的嚴格控制,以及隨訪(fǎng)與實(shí)際存在差異等特征都具有明顯差別。
特點(diǎn)
作用與優(yōu)勢 RWS是近年在國內興起的一種研究理念。因藥品上市后,實(shí)際使用人群會(huì )擴大,往往導致實(shí)際藥物療效無(wú)法重復臨床試驗結果。這種情況下,利用RWS可以提供傳統RCT試驗所無(wú)法提供的證據,包括:真實(shí)環(huán)境下干預措施的療效、長(cháng)期用藥的安全性、依從性、疾病負擔等,進(jìn)而評估患者健康狀況、疾病及診療過(guò)程,評估防治結果、患者預后與預測,以及支持醫療政策制定等。
數據來(lái)源 開(kāi)展RWS研究時(shí),數據必須來(lái)源于真實(shí)世界中的患者數據,反映實(shí)際診療過(guò)程和真實(shí)條件下的患者健康狀況,是一種非實(shí)驗設計數據,主要包含醫院電子病歷、醫療索賠數據庫、藥品不良事件監測數據以及患者隨訪(fǎng)數據等。
實(shí)現難點(diǎn) 首先,RWS要求的數據量十分龐大,只有在足夠大的樣本量基礎上,才能高效滿(mǎn)足RWS的研究和開(kāi)展;其次,要保障數據質(zhì)量,在RWS開(kāi)展過(guò)程中,一旦出現多個(gè)虛假或殘缺不全數據,將直接影響后續基于數據進(jìn)行的群體性分析,使科研失去價(jià)值;最后,RWS本身對巨大數據量的需求,也對后續的數據處理及統計分析提出更高要求,需要強大的采集和分析系統予以支撐。
大數據科研分析平臺功能及技術(shù)特色
大數據科研分析平臺以自然語(yǔ)言處理、機器學(xué)習等人工智能技術(shù)為支撐,在數據的收集、整合、處理和統計、分析等方面,都有著(zhù)巨大的先天優(yōu)勢,這對開(kāi)展RWS起到強大的輔助作用。
平臺架構設計 大數據科研分析平臺的構建是以醫院數據中心(HDR)為基礎,輔以基因組學(xué)、eCRF表單及隨訪(fǎng)數據等,形成全量的專(zhuān)病數據庫;在經(jīng)過(guò)數據整合、清洗、自然語(yǔ)言處理、機器學(xué)習及去隱私化等技術(shù)處理后,形成數據集市,包含結構化及后結構化數據;在此基礎上,通過(guò)語(yǔ)義分析模型、同義詞字典、知識圖譜等算法,進(jìn)一步挖掘疾病癥狀之間潛在關(guān)聯(lián)等,實(shí)現數據的深度應用。平臺架構如圖1所示。
圖1 平臺架構示意圖
功能特點(diǎn) 大數據科研分析平臺通過(guò)收集、整合院內/外海量醫療數據,較好地滿(mǎn)足了RWS對大樣本量的需求;同時(shí),利用自然語(yǔ)言處理、機器學(xué)習等人工智能技術(shù),將大量多源異構的信息融合成標準化、結構化數據,確保了數據質(zhì)量及后續分析的有效性;在數據統計、分析方面,通過(guò)接入R語(yǔ)言,集合多種統計分析方法,大大提高了統計分析的靈活性及科研效率;此外,還可通過(guò)描述性統計分析,實(shí)現為患者畫(huà)像、為疾病畫(huà)像。
技術(shù)特色
自然語(yǔ)言處理(NLP) RWS研究中所需的數據很大一部分存儲在電子病歷系統中。而電子病歷除包含結構化數據外,還存在大量自由文本數據,為后續的搜索、統計、分析等帶來(lái)了困難。因此,探索利用自然語(yǔ)言處理技術(shù)來(lái)分析、挖掘電子病歷中的重要內容就顯得十分必要。傳統自然語(yǔ)言處理包括詞性標注、分詞、句子邊界識別、句法分析、命名實(shí)體識別和實(shí)體關(guān)系抽取、共指消解等。通過(guò)對電子病歷多年的研究分析,從中發(fā)現一些結構規則,并在此基礎上進(jìn)一步提煉出獨有的算法和模型,最終形成基于醫療數據模式的文本識別方法,實(shí)現了病歷自由文本分析由通用的標簽分詞到語(yǔ)義分析的轉變,為數據的分析利用奠定了基礎。
以應用提升數據質(zhì)量 數據質(zhì)量對RWS的重要性不言而喻,而保障數據質(zhì)量最有效的方法就是在其源頭予以控制,即以應用來(lái)驅動(dòng)數據質(zhì)量的提升。具體來(lái)講,就是根據不同的應用場(chǎng)景,從不同視角去建立相應的數據模型關(guān)系。如:對具有因果關(guān)聯(lián)結構的病種、病情、治療、療效數據,事先充分了解其結構內容、相關(guān)業(yè)務(wù)邏輯及標準,并將這些內容、規則和標準體現到數據采集系統;在診療過(guò)程中,通過(guò)制定并遵循服務(wù)流程、規范操作,從規范的診療行為中獲取可用數據;利用智能推薦、警示提醒、診療視圖等方式,強化醫生對高質(zhì)量數據的輸入感受,促進(jìn)數據質(zhì)量提升等。
統計分析靈活 大數據科研分析平臺通過(guò)接入R語(yǔ)言,覆蓋了比較均值分析、回歸分析、相關(guān)分析、定性分析、線(xiàn)性回歸、ROC曲線(xiàn)等多種常用統計分析算法;另外,還引入了如決策樹(shù)、主成分分析等高級挖掘統計算法,以支持復雜的研究案例。針對不同的研究,可靈活選擇不同算法,并自動(dòng)生成統計結果。同時(shí),平臺將支持科研數據直接導出,供其他統計分析軟件使用,滿(mǎn)足不同科研需求
大數據科研分析平臺在RWS中的應用
如前所述,大數據科研分析平臺在數據獲取、數據處理及統計分析等環(huán)節都具有強大優(yōu)勢,在RWS研究多個(gè)環(huán)節都能起到切實(shí)有效的輔助作用,從而縮短藥品試驗周期,降低研究成本。
滿(mǎn)足數據采集需求 利用大數據科研分析平臺,可以方便地獲取到醫院各業(yè)務(wù)系統中的相關(guān)數據;并可針對具體科研項目,無(wú)縫接入患者院外隨訪(fǎng)數據及CRF表單數據,快速建立基于真實(shí)世界研究的數據庫。
滿(mǎn)足數據處理及質(zhì)量控制需求 通過(guò)大數據科研分析平臺的自然語(yǔ)言處理等技術(shù),可以將海量數據進(jìn)行標準化及后結構化處理,并形成完善的數據網(wǎng)絡(luò ),提高科研過(guò)程中對數據搜索的便利性及時(shí)效性。此外,通過(guò)在應用層面對不同業(yè)務(wù)邏輯及標準、規則的設定,強化對數據產(chǎn)出端的質(zhì)量控制,可以有效提升數據的準確性、及時(shí)性、完整性和一致性,確保RWS過(guò)程中數據的高關(guān)聯(lián)度和高可靠性。
滿(mǎn)足數據統計及分析需求 大數據科研平臺通過(guò)將R語(yǔ)言與常用醫學(xué)統計模型集成在一起,可以更加方便地為科研人員提供針對不同需求的靈活選擇;且操作簡(jiǎn)便,通過(guò)“檢索或導入分析數據→選擇變量和參數→查看并導出結果”三個(gè)步驟,即可快速完成科研統計、生成分析結果。此外,還可以借助大數據語(yǔ)義分析和知識圖譜等技術(shù),針對某種疾病做描述性統計分析,實(shí)現為患者畫(huà)像或為疾病畫(huà)像。
綜上所述,大數據科研分析平臺利用自然語(yǔ)言處理、機器學(xué)習等人工智能技術(shù),在RWS開(kāi)展過(guò)程中可以幫助其快速完成對海量醫療數據的收集、整合、處理及統計、分析等,深度挖掘數據內在價(jià)值,實(shí)現真實(shí)世界研究在新藥開(kāi)發(fā)、藥物經(jīng)濟學(xué)、醫??刭M、適應癥/禁忌癥評價(jià)、臨床指導等多層次、多角度的需求,具有廣闊的應用前景。
文章來(lái)源:《中國數字醫學(xué)》雜志2019年第2期,作者及單位:金昌曉 計虹 席韓旭 張晨 甘偉 陳聯(lián)忠,北京大學(xué)第三醫院 北京嘉和美康信息技術(shù)有限公司。
返回