隨著人們生活水平的不斷提升,人們對(duì)健康問(wèn)題越來(lái)越重視。定期體檢、自我充實(shí)醫(yī)學(xué)常識(shí)逐漸走入人們生活。同時(shí),隨著計(jì)算機(jī)技術(shù)的發(fā)展、人工智能的火熱以及智慧醫(yī)療的提出,如何對(duì)醫(yī)學(xué)數(shù)據(jù)進(jìn)行整理,使之以結(jié)構(gòu)化、關(guān)聯(lián)的互動(dòng)的方式呈現(xiàn)在用戶面前。用戶的使用體驗(yàn)將會(huì)得到極大的提升。以往的人工構(gòu)建方式耗費(fèi)大量的人力和時(shí)間,很難大規(guī)模使用。因此嘗試以婦產(chǎn)科教材為原料,采用自然語(yǔ)言處理的相關(guān)技術(shù),半自動(dòng)構(gòu)建婦產(chǎn)科領(lǐng)域的醫(yī)學(xué)領(lǐng)域知識(shí)圖譜。對(duì)于醫(yī)學(xué)人員可以利用知識(shí)圖譜來(lái)組織和表示醫(yī)學(xué)知識(shí)。對(duì)于普通百姓,可以通過(guò)結(jié)構(gòu)化和可視化的表示來(lái)理解醫(yī)學(xué)常識(shí)。
目前醫(yī)學(xué)領(lǐng)域知識(shí)圖譜基本都是較小規(guī)模,限定到細(xì)分領(lǐng)域。嘗試以婦產(chǎn)科教材為基礎(chǔ),利用自然語(yǔ)言處理技術(shù)對(duì)醫(yī)學(xué)知識(shí)進(jìn)行系統(tǒng)的梳理、建模和展示,快速構(gòu)建出婦產(chǎn)科領(lǐng)域知識(shí)圖譜,并采用Neo4j圖數(shù)據(jù)庫(kù)將知識(shí)進(jìn)行可視化展示,以圖的形式凸顯各類概念間的關(guān)系。該知識(shí)圖譜既能幫助醫(yī)學(xué)專家理清知識(shí)脈絡(luò),又能發(fā)現(xiàn)各知識(shí)點(diǎn)的聯(lián)系,也能幫助非專業(yè)人士快速了解醫(yī)學(xué)類常識(shí)。
國(guó)內(nèi)外最有影響力的知識(shí)圖譜現(xiàn)狀
知識(shí)圖譜通常定義為海量實(shí)體與實(shí)體關(guān)系的集合。國(guó)內(nèi)外最有影響力的知識(shí)圖譜工程包括以下幾種。
Freebase/谷歌知識(shí)圖譜。Freebase是個(gè)類似于維基百科的創(chuàng)作共享類網(wǎng)站,所有內(nèi)容通過(guò)協(xié)作的方式由用戶添加。
YAGO(Yet Another Great Ontology)系列知識(shí)圖譜[3]。YAGO由德國(guó)Max Planck計(jì)算機(jī)科學(xué)研究所創(chuàng)建。YAGO通過(guò)對(duì)維基百科和其它來(lái)源的自動(dòng)挖掘而構(gòu)建。目前YAGO已經(jīng)完成了三個(gè)版本的知識(shí)圖譜。
微軟的Satori[4]和Facebook的Entity Graph。微軟的Satori與谷歌知識(shí)圖譜類似而Entity Graph主要以Facebook自身的數(shù)據(jù)為主,服務(wù)于Facebook的圖搜索(Graph Search)。
NELL(Never-Ending Language Learning)由卡內(nèi)基-梅隆大學(xué)的Tom Mitchell教授領(lǐng)導(dǎo)的團(tuán)隊(duì)構(gòu)建。目標(biāo)是從非結(jié)構(gòu)化文本中自動(dòng)地學(xué)習(xí)實(shí)體和實(shí)體關(guān)系。與NELL類似的一個(gè)項(xiàng)目是Open Information Extraction (Reverb,OLLIE),同樣從非結(jié)構(gòu)化文本中自動(dòng)抽取關(guān)系。
國(guó)內(nèi)的知識(shí)圖譜建設(shè)起步較晚,主要集中在互聯(lián)網(wǎng)公司。搜狗知立方是國(guó)內(nèi)首款知識(shí)庫(kù)搜索產(chǎn)品。百度知心是百度下一代搜索引擎的雛形,目前具有數(shù)十億級(jí)實(shí)體規(guī)模。
知識(shí)圖譜被應(yīng)用到各大領(lǐng)域,如醫(yī)療健康、金融、電商、出版、農(nóng)業(yè)、政府、電信、數(shù)字圖書(shū)館等等。在電商領(lǐng)域,唐偉等抽取商品的知識(shí)圖譜。在醫(yī)療健康領(lǐng)域,目前有中國(guó)醫(yī)學(xué)院醫(yī)學(xué)信息研究所構(gòu)建的約11種疾病的知識(shí)圖譜。Google構(gòu)建了包含常見(jiàn)癥狀、治療手段、受此問(wèn)題影響的典型年齡組、是否嚴(yán)重等信息的知識(shí)圖譜。中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所主要以中醫(yī)藥學(xué)語(yǔ)言系統(tǒng)為知識(shí)圖譜的骨架構(gòu)建中醫(yī)藥知識(shí)圖譜體系。
婦產(chǎn)科知識(shí)圖譜構(gòu)建流程及技術(shù)
選用《婦產(chǎn)科學(xué)第七版》作為處理的教材。其內(nèi)容可靠、表述規(guī)范。構(gòu)建流程包括數(shù)據(jù)清洗及數(shù)據(jù)格式預(yù)處理、疾病實(shí)體抽取、癥狀實(shí)體抽取、實(shí)體關(guān)系識(shí)別等四個(gè)模塊。
數(shù)據(jù)清洗及格式預(yù)處理 由于教材電子版為自由文本,需對(duì)這些數(shù)據(jù)進(jìn)行清洗。包括格式解析、大小寫(xiě)字母轉(zhuǎn)換、全角半角轉(zhuǎn)換、繁體轉(zhuǎn)簡(jiǎn)體等,因后續(xù)方法均在句子級(jí)進(jìn)行操作,因此本模塊還需對(duì)文本進(jìn)行分句,共得到12 098個(gè)句子。
疾病實(shí)體抽取技術(shù) 根據(jù)知識(shí)圖譜的定義,知識(shí)圖譜由實(shí)體與實(shí)體間的關(guān)系組成。因此實(shí)體庫(kù)是知識(shí)圖譜的基礎(chǔ)內(nèi)容。建設(shè)一個(gè)實(shí)體庫(kù)通常分為以下幾個(gè)步驟,包括確定實(shí)體類別體系、實(shí)體的挖掘。
實(shí)體類別體系通常根據(jù)不同的用途進(jìn)行人工構(gòu)建。分析醫(yī)學(xué)教材的特點(diǎn),發(fā)現(xiàn)教材的附錄和目錄中包含大量的疾病實(shí)體,因此先采用規(guī)則的方式,獲取本教材中的疾病實(shí)體。經(jīng)過(guò)收集整理,得到初步的疾病實(shí)體庫(kù)。
癥狀實(shí)體抽取技術(shù) 醫(yī)學(xué)教材中,癥狀分布比較分散。根據(jù)分析教材書(shū)寫(xiě)方式,選用步步為營(yíng)的算法來(lái)擴(kuò)充癥狀實(shí)體的規(guī)模。人工給定一些癥狀實(shí)體作為種子,在包含這些種子的文本中獲取抽取模板,做模板篩選之后利用新的模板集合獲取更多的實(shí)體。這個(gè)過(guò)程中進(jìn)行多次迭代從而獲得實(shí)體集合。算法描述如表1所示。自動(dòng)挖掘得到的實(shí)體存在噪音,需要經(jīng)過(guò)人工校對(duì)才可以放入到實(shí)體庫(kù)中。
實(shí)體關(guān)系挖掘技術(shù) 關(guān)系抽取是指確定實(shí)體之間的關(guān)系。目前常用的實(shí)體關(guān)系可以表示為RDF三元組,即<實(shí)體A,實(shí)體B,關(guān)系>。以初始知識(shí)庫(kù)中的出現(xiàn)的關(guān)系為抽取目標(biāo),把所有的概念都看成是實(shí)體,所有實(shí)體間的語(yǔ)義關(guān)聯(lián)都描述為實(shí)體間的關(guān)系。目前關(guān)系包括疾病與疾病、疾病與癥狀、疾病和治療手段等的關(guān)系,根據(jù)這些關(guān)系再進(jìn)行擴(kuò)充,構(gòu)建出醫(yī)學(xué)領(lǐng)域的關(guān)系體系。比如,在疾病的癥狀關(guān)系類型中,分析數(shù)據(jù)發(fā)現(xiàn),句子中有明顯得關(guān)系指示詞,“癥狀是”,“等癥狀”,“表現(xiàn)為等”。因此關(guān)系抽取算法中,首先專家定義關(guān)系抽取模板,在數(shù)據(jù)中自動(dòng)標(biāo)注關(guān)系,然后再挖掘出新的模板,不斷迭代,將不同的關(guān)系抽取出來(lái)。
自動(dòng)挖掘的實(shí)體和關(guān)系難以避免包含錯(cuò)誤。在將自動(dòng)挖掘?qū)嶓w歸并到實(shí)體庫(kù)之前,需要進(jìn)行校對(duì)和篩選。采用人工校對(duì)方式,由領(lǐng)域?qū)<疫M(jìn)行校驗(yàn)。
知識(shí)圖譜存儲(chǔ)
為了表示實(shí)體關(guān)系,知識(shí)圖譜通常采用圖形數(shù)據(jù)庫(kù)(Graph Database)而不是基于表的知識(shí)庫(kù)進(jìn)行存儲(chǔ)。選擇存儲(chǔ)體系時(shí)需要考慮潛在的數(shù)據(jù)規(guī)模、可能的應(yīng)用模式等因素。特定領(lǐng)域的知識(shí)圖譜與通用知識(shí)圖譜相比規(guī)模相對(duì)有限,因此采用Neo4j作為底層的存儲(chǔ)體系。Neo4j是以Java實(shí)現(xiàn)的開(kāi)源圖形數(shù)據(jù)庫(kù),遵循AGPL v3協(xié)議。經(jīng)上述技術(shù),共得到528條知識(shí)。部分知識(shí)圖譜如圖1所示。
圖1 婦產(chǎn)科知識(shí)圖譜示例
結(jié)語(yǔ)
闡述了婦產(chǎn)科知識(shí)圖譜的構(gòu)建與存儲(chǔ)。初步構(gòu)建并可視化了醫(yī)學(xué)方面的知識(shí)圖譜。目前處理的數(shù)據(jù)來(lái)源較少,也未能與其他細(xì)分領(lǐng)域醫(yī)學(xué)知識(shí)聯(lián)系起來(lái)。如何構(gòu)建全醫(yī)學(xué)領(lǐng)域的知識(shí)圖譜是一項(xiàng)具有挑戰(zhàn)的任務(wù)。相信隨著機(jī)器學(xué)習(xí)以及自然語(yǔ)言處理技術(shù)的成熟,對(duì)文本類型的數(shù)據(jù)處理更加準(zhǔn)確。知識(shí)圖譜將在醫(yī)療健康領(lǐng)域起到重要的作用。
第三十四屆CIO班招生
國(guó)際CIO認(rèn)證培訓(xùn)
首席數(shù)據(jù)官(CDO)認(rèn)證培訓(xùn)
責(zé)編:content
免責(zé)聲明:本網(wǎng)站(http://www.www.gypb.net/)內(nèi)容主要來(lái)自原創(chuàng)、合作媒體供稿和第三方投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
本網(wǎng)站刊載的所有內(nèi)容(包括但不僅限文字、圖片、LOGO、音頻、視頻、軟件、程序等)版權(quán)歸原作者所有。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),請(qǐng)及時(shí)通知本站,予以刪除。