成人免费看一级特黄,日韩视频在线综合一区二区,不用播放器的av在线网站

婦產(chǎn)科知識(shí)圖譜構(gòu)建研究與實(shí)現(xiàn)

2019-03-01 15:14:22 來(lái)源：中國(guó)數(shù)字醫(yī)學(xué)搶沙發(fā)

2019-03-01 15:14:22 來(lái)源：中國(guó)數(shù)字醫(yī)學(xué)

摘要：現(xiàn)有醫(yī)學(xué)知識(shí)浩瀚如煙，知識(shí)圖譜是知識(shí)展示比較有效的方法。利用自然語(yǔ)言處理技術(shù)，對(duì)婦產(chǎn)科教材中的醫(yī)學(xué)知識(shí)進(jìn)行抽取和表示，將婦產(chǎn)科知識(shí)存儲(chǔ)成結(jié)構(gòu)化的知識(shí)圖譜，方便專業(yè)醫(yī)學(xué)人士查詢，也方便對(duì)大眾進(jìn)行科普。使用中文分詞、命名實(shí)體識(shí)別、實(shí)體分類、關(guān)系抽取等技術(shù)對(duì)教科書(shū)文本進(jìn)行信息抽取。將婦產(chǎn)科教材中的知識(shí)轉(zhuǎn)變?yōu)橹R(shí)圖譜結(jié)構(gòu)。為后期智能醫(yī)療等醫(yī)療服務(wù)提供了理論基礎(chǔ)。以教材為來(lái)源，構(gòu)建領(lǐng)域知識(shí)圖譜很迅速，能夠可視化展示醫(yī)學(xué)信息，讓人們快速有效了解醫(yī)學(xué)常識(shí)。
關(guān)鍵詞：婦產(chǎn) 醫(yī)療

　　隨著人們生活水平的不斷提升，人們對(duì)健康問(wèn)題越來(lái)越重視。定期體檢、自我充實(shí)醫(yī)學(xué)常識(shí)逐漸走入人們生活。同時(shí)，隨著計(jì)算機(jī)技術(shù)的發(fā)展、人工智能的火熱以及智慧醫(yī)療的提出，如何對(duì)醫(yī)學(xué)數(shù)據(jù)進(jìn)行整理，使之以結(jié)構(gòu)化、關(guān)聯(lián)的互動(dòng)的方式呈現(xiàn)在用戶面前。用戶的使用體驗(yàn)將會(huì)得到極大的提升。以往的人工構(gòu)建方式耗費(fèi)大量的人力和時(shí)間，很難大規(guī)模使用。因此嘗試以婦產(chǎn)科教材為原料，采用自然語(yǔ)言處理的相關(guān)技術(shù)，半自動(dòng)構(gòu)建婦產(chǎn)科領(lǐng)域的醫(yī)學(xué)領(lǐng)域知識(shí)圖譜。對(duì)于醫(yī)學(xué)人員可以利用知識(shí)圖譜來(lái)組織和表示醫(yī)學(xué)知識(shí)。對(duì)于普通百姓，可以通過(guò)結(jié)構(gòu)化和可視化的表示來(lái)理解醫(yī)學(xué)常識(shí)。

　　目前醫(yī)學(xué)領(lǐng)域知識(shí)圖譜基本都是較小規(guī)模，限定到細(xì)分領(lǐng)域。嘗試以婦產(chǎn)科教材為基礎(chǔ)，利用自然語(yǔ)言處理技術(shù)對(duì)醫(yī)學(xué)知識(shí)進(jìn)行系統(tǒng)的梳理、建模和展示，快速構(gòu)建出婦產(chǎn)科領(lǐng)域知識(shí)圖譜，并采用Neo4j圖數(shù)據(jù)庫(kù)將知識(shí)進(jìn)行可視化展示，以圖的形式凸顯各類概念間的關(guān)系。該知識(shí)圖譜既能幫助醫(yī)學(xué)專家理清知識(shí)脈絡(luò)，又能發(fā)現(xiàn)各知識(shí)點(diǎn)的聯(lián)系，也能幫助非專業(yè)人士快速了解醫(yī)學(xué)類常識(shí)。

　　國(guó)內(nèi)外最有影響力的知識(shí)圖譜現(xiàn)狀

　　知識(shí)圖譜通常定義為海量實(shí)體與實(shí)體關(guān)系的集合。國(guó)內(nèi)外最有影響力的知識(shí)圖譜工程包括以下幾種。

　　Freebase/谷歌知識(shí)圖譜。Freebase是個(gè)類似于維基百科的創(chuàng)作共享類網(wǎng)站，所有內(nèi)容通過(guò)協(xié)作的方式由用戶添加。

　　YAGO（Yet Another Great Ontology）系列知識(shí)圖譜[3]。YAGO由德國(guó)Max Planck計(jì)算機(jī)科學(xué)研究所創(chuàng)建。YAGO通過(guò)對(duì)維基百科和其它來(lái)源的自動(dòng)挖掘而構(gòu)建。目前YAGO已經(jīng)完成了三個(gè)版本的知識(shí)圖譜。

　　微軟的Satori[4]和Facebook的Entity Graph。微軟的Satori與谷歌知識(shí)圖譜類似而Entity Graph主要以Facebook自身的數(shù)據(jù)為主，服務(wù)于Facebook的圖搜索(Graph Search)。

　　NELL（Never-Ending Language Learning）由卡內(nèi)基-梅隆大學(xué)的Tom Mitchell教授領(lǐng)導(dǎo)的團(tuán)隊(duì)構(gòu)建。目標(biāo)是從非結(jié)構(gòu)化文本中自動(dòng)地學(xué)習(xí)實(shí)體和實(shí)體關(guān)系。與NELL類似的一個(gè)項(xiàng)目是Open Information Extraction (Reverb，OLLIE)，同樣從非結(jié)構(gòu)化文本中自動(dòng)抽取關(guān)系。

　　國(guó)內(nèi)的知識(shí)圖譜建設(shè)起步較晚，主要集中在互聯(lián)網(wǎng)公司。搜狗知立方是國(guó)內(nèi)首款知識(shí)庫(kù)搜索產(chǎn)品。百度知心是百度下一代搜索引擎的雛形，目前具有數(shù)十億級(jí)實(shí)體規(guī)模。

　　知識(shí)圖譜被應(yīng)用到各大領(lǐng)域，如醫(yī)療健康、金融、電商、出版、農(nóng)業(yè)、政府、電信、數(shù)字圖書(shū)館等等。在電商領(lǐng)域，唐偉等抽取商品的知識(shí)圖譜。在醫(yī)療健康領(lǐng)域，目前有中國(guó)醫(yī)學(xué)院醫(yī)學(xué)信息研究所構(gòu)建的約11種疾病的知識(shí)圖譜。Google構(gòu)建了包含常見(jiàn)癥狀、治療手段、受此問(wèn)題影響的典型年齡組、是否嚴(yán)重等信息的知識(shí)圖譜。中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所主要以中醫(yī)藥學(xué)語(yǔ)言系統(tǒng)為知識(shí)圖譜的骨架構(gòu)建中醫(yī)藥知識(shí)圖譜體系。

　　婦產(chǎn)科知識(shí)圖譜構(gòu)建流程及技術(shù)

　　選用《婦產(chǎn)科學(xué)第七版》作為處理的教材。其內(nèi)容可靠、表述規(guī)范。構(gòu)建流程包括數(shù)據(jù)清洗及數(shù)據(jù)格式預(yù)處理、疾病實(shí)體抽取、癥狀實(shí)體抽取、實(shí)體關(guān)系識(shí)別等四個(gè)模塊。

　　數(shù)據(jù)清洗及格式預(yù)處理由于教材電子版為自由文本，需對(duì)這些數(shù)據(jù)進(jìn)行清洗。包括格式解析、大小寫(xiě)字母轉(zhuǎn)換、全角半角轉(zhuǎn)換、繁體轉(zhuǎn)簡(jiǎn)體等，因后續(xù)方法均在句子級(jí)進(jìn)行操作，因此本模塊還需對(duì)文本進(jìn)行分句，共得到12 098個(gè)句子。

　　疾病實(shí)體抽取技術(shù) 根據(jù)知識(shí)圖譜的定義，知識(shí)圖譜由實(shí)體與實(shí)體間的關(guān)系組成。因此實(shí)體庫(kù)是知識(shí)圖譜的基礎(chǔ)內(nèi)容。建設(shè)一個(gè)實(shí)體庫(kù)通常分為以下幾個(gè)步驟，包括確定實(shí)體類別體系、實(shí)體的挖掘。

　　實(shí)體類別體系通常根據(jù)不同的用途進(jìn)行人工構(gòu)建。分析醫(yī)學(xué)教材的特點(diǎn)，發(fā)現(xiàn)教材的附錄和目錄中包含大量的疾病實(shí)體，因此先采用規(guī)則的方式，獲取本教材中的疾病實(shí)體。經(jīng)過(guò)收集整理，得到初步的疾病實(shí)體庫(kù)。

　　癥狀實(shí)體抽取技術(shù) 醫(yī)學(xué)教材中，癥狀分布比較分散。根據(jù)分析教材書(shū)寫(xiě)方式，選用步步為營(yíng)的算法來(lái)擴(kuò)充癥狀實(shí)體的規(guī)模。人工給定一些癥狀實(shí)體作為種子，在包含這些種子的文本中獲取抽取模板，做模板篩選之后利用新的模板集合獲取更多的實(shí)體。這個(gè)過(guò)程中進(jìn)行多次迭代從而獲得實(shí)體集合。算法描述如表1所示。自動(dòng)挖掘得到的實(shí)體存在噪音，需要經(jīng)過(guò)人工校對(duì)才可以放入到實(shí)體庫(kù)中。

　　實(shí)體關(guān)系挖掘技術(shù) 關(guān)系抽取是指確定實(shí)體之間的關(guān)系。目前常用的實(shí)體關(guān)系可以表示為RDF三元組，即<實(shí)體A，實(shí)體B，關(guān)系>。以初始知識(shí)庫(kù)中的出現(xiàn)的關(guān)系為抽取目標(biāo)，把所有的概念都看成是實(shí)體，所有實(shí)體間的語(yǔ)義關(guān)聯(lián)都描述為實(shí)體間的關(guān)系。目前關(guān)系包括疾病與疾病、疾病與癥狀、疾病和治療手段等的關(guān)系，根據(jù)這些關(guān)系再進(jìn)行擴(kuò)充，構(gòu)建出醫(yī)學(xué)領(lǐng)域的關(guān)系體系。比如，在疾病的癥狀關(guān)系類型中，分析數(shù)據(jù)發(fā)現(xiàn)，句子中有明顯得關(guān)系指示詞，“癥狀是”，“等癥狀”，“表現(xiàn)為等”。因此關(guān)系抽取算法中，首先專家定義關(guān)系抽取模板，在數(shù)據(jù)中自動(dòng)標(biāo)注關(guān)系，然后再挖掘出新的模板，不斷迭代，將不同的關(guān)系抽取出來(lái)。

　　自動(dòng)挖掘的實(shí)體和關(guān)系難以避免包含錯(cuò)誤。在將自動(dòng)挖掘?qū)嶓w歸并到實(shí)體庫(kù)之前，需要進(jìn)行校對(duì)和篩選。采用人工校對(duì)方式，由領(lǐng)域?qū)＜疫M(jìn)行校驗(yàn)。

　　知識(shí)圖譜存儲(chǔ)

　　為了表示實(shí)體關(guān)系，知識(shí)圖譜通常采用圖形數(shù)據(jù)庫(kù)（Graph Database）而不是基于表的知識(shí)庫(kù)進(jìn)行存儲(chǔ)。選擇存儲(chǔ)體系時(shí)需要考慮潛在的數(shù)據(jù)規(guī)模、可能的應(yīng)用模式等因素。特定領(lǐng)域的知識(shí)圖譜與通用知識(shí)圖譜相比規(guī)模相對(duì)有限，因此采用Neo4j作為底層的存儲(chǔ)體系。Neo4j是以Java實(shí)現(xiàn)的開(kāi)源圖形數(shù)據(jù)庫(kù)，遵循AGPL v3協(xié)議。經(jīng)上述技術(shù)，共得到528條知識(shí)。部分知識(shí)圖譜如圖1所示。

　　圖1 婦產(chǎn)科知識(shí)圖譜示例

　　結(jié)語(yǔ)

　　闡述了婦產(chǎn)科知識(shí)圖譜的構(gòu)建與存儲(chǔ)。初步構(gòu)建并可視化了醫(yī)學(xué)方面的知識(shí)圖譜。目前處理的數(shù)據(jù)來(lái)源較少，也未能與其他細(xì)分領(lǐng)域醫(yī)學(xué)知識(shí)聯(lián)系起來(lái)。如何構(gòu)建全醫(yī)學(xué)領(lǐng)域的知識(shí)圖譜是一項(xiàng)具有挑戰(zhàn)的任務(wù)。相信隨著機(jī)器學(xué)習(xí)以及自然語(yǔ)言處理技術(shù)的成熟，對(duì)文本類型的數(shù)據(jù)處理更加準(zhǔn)確。知識(shí)圖譜將在醫(yī)療健康領(lǐng)域起到重要的作用。

第三十四屆CIO班招生
國(guó)際CIO認(rèn)證培訓(xùn)
首席數(shù)據(jù)官（CDO）認(rèn)證培訓(xùn)

責(zé)編：content

免責(zé)聲明：本網(wǎng)站（http://www.www.gypb.net/）內(nèi)容主要來(lái)自原創(chuàng)、合作媒體供稿和第三方投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
本網(wǎng)站刊載的所有內(nèi)容（包括但不僅限文字、圖片、LOGO、音頻、視頻、軟件、程序等）版權(quán)歸原作者所有。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，請(qǐng)及時(shí)通知本站，予以刪除。