以下即為陳潤生的演講速記(在不改變原意的情況下有刪減):
什么是精準(zhǔn)醫(yī)療?
什么是精準(zhǔn)醫(yī)學(xué)?核心就是一句話,組學(xué)大數(shù)據(jù)在醫(yī)學(xué),特別是在臨床醫(yī)學(xué)當(dāng)中的應(yīng)用。隨著上世紀(jì)九十年代遺傳密碼的破譯,以遺傳密碼或者基因組為代表的大量的分子水平的數(shù)據(jù),我們也稱作組學(xué)數(shù)據(jù)不斷地產(chǎn)生,現(xiàn)在非??欤黾拥乃俣缺热魏我阎臄?shù)據(jù)都產(chǎn)生的快。
由于研究技術(shù)的發(fā)展,測一個人類的遺傳密碼,現(xiàn)在已經(jīng)變的非常非常簡單和容易了,比如說我們?nèi)魏稳硕伎梢酝顿Y很少的錢,大約在目前據(jù)我所知,六七千塊人民幣,用三四天的時間,你就可以得到你的遺傳密碼,發(fā)現(xiàn)遺傳密碼和某些疾病是高度相關(guān)的。
近年來開展分子水平的信息用到醫(yī)學(xué)特別是臨床醫(yī)學(xué)當(dāng)中來,來提到臨床診斷的效率和治療效率的趨勢,實際上就締造了精準(zhǔn)醫(yī)學(xué)的應(yīng)用。組學(xué)大數(shù)據(jù)是很大的數(shù)據(jù),直接作為醫(yī)學(xué)專家,或者分子生物學(xué)家是沒有辦法看懂的,必須經(jīng)過大數(shù)據(jù)科學(xué)家用特定的理論方法和技術(shù)進(jìn)行挖掘才能獲得有關(guān)用于臨床方面的知識,所以精準(zhǔn)醫(yī)學(xué)是組學(xué)大數(shù)據(jù)在臨床當(dāng)中的應(yīng)用。
最基本的遺傳密碼的測量現(xiàn)在不成問題了,但數(shù)據(jù)挖掘找出和疾病相關(guān)的信息,將是一個現(xiàn)在非常迫切的問題。因此從人類密碼研究以后就產(chǎn)生了轉(zhuǎn)化醫(yī)學(xué)、個體化醫(yī)學(xué)等等的詞匯,但是在2011年的時候,國際上出現(xiàn)了“精準(zhǔn)醫(yī)學(xué)”這個詞,實際上是對這個趨勢總體的概括和總結(jié)。
精準(zhǔn)醫(yī)學(xué)帶來了什么樣的本質(zhì)變化?
“精準(zhǔn)醫(yī)學(xué)”可以使得醫(yī)療健康的概念發(fā)生本質(zhì)的變化,這個概念是什么概念?從當(dāng)年醫(yī)療健康體系以診斷治療為主,轉(zhuǎn)變到以健康保證為主?,F(xiàn)在的醫(yī)學(xué)都是以病人為對象,以診斷治療為目的。而隨著精準(zhǔn)醫(yī)學(xué)的發(fā)展,我們可以通過對大數(shù)據(jù)的分析,在他沒有病的時候,了解他的健康狀況,預(yù)測他未來健康的發(fā)展,這種情況下我們醫(yī)療健康所面對的對象就不再是病人,而是全民,全體人。
這個時候,醫(yī)療體系的概念也不是以治療為目的,是以健康預(yù)測,健康評估和健康干預(yù)為目的,整個醫(yī)療體系就會發(fā)生概念性的變化。這樣一個概念性的根本變化,必然會導(dǎo)致相應(yīng)產(chǎn)業(yè)的發(fā)展,因此有人估計到2018年的時候圍繞新概念所產(chǎn)生的產(chǎn)業(yè)也許能達(dá)到2千億美金以上,這是一個能夠一定程度上影響GDP的值。
因此這樣一個精準(zhǔn)醫(yī)學(xué)的概念,已經(jīng)成為引領(lǐng)國際發(fā)展潮流的戰(zhàn)略制高點,引起各國領(lǐng)導(dǎo)人的重視,精準(zhǔn)醫(yī)學(xué)實際上是會帶來一些,不論醫(yī)療概念還是產(chǎn)業(yè)上都會有一些本質(zhì)上的變化。
美國也推動精準(zhǔn)醫(yī)學(xué)的發(fā)展,最重要的表現(xiàn)是要測量一百萬個自然人的遺傳密碼,一百萬是很大的數(shù)。歐盟也在開展精準(zhǔn)醫(yī)學(xué)的研究,要測十萬個腫瘤和罕見病人的遺傳密碼。日本也有相應(yīng)的精準(zhǔn)醫(yī)學(xué)的計劃。那么精準(zhǔn)醫(yī)學(xué)到底在新的產(chǎn)業(yè)當(dāng)中,哪幾個方面能帶動所謂新的增長點呢?我想至少在如下四個方面:
1、精準(zhǔn)醫(yī)學(xué)可以推動海量的生物樣本庫和海量的數(shù)據(jù)庫的發(fā)展,精準(zhǔn)醫(yī)學(xué)會導(dǎo)致十萬到百萬人的生物樣品的測量,這就涉及到海量規(guī)模的實質(zhì)性的生物樣品的搜集、保存、樣品的制備與提取,以及樣品提供使用的各個方面。沒有百萬量級的數(shù)據(jù)庫,當(dāng)然就不能適應(yīng)它的發(fā)展,而這些數(shù)據(jù)測量完以后,這些百萬量級的數(shù)據(jù)應(yīng)該有相應(yīng)的數(shù)據(jù)庫來保管,有人估計這個在未來一兩年可以達(dá)到一百億美元的數(shù)據(jù)樣本。
2、可以帶動基因組序的數(shù)據(jù)規(guī)模,這個產(chǎn)業(yè)有人估計2018年可以到117億美金,我個人和有關(guān)測序方面的專家討論,由于測序如此便宜我覺得這個數(shù)據(jù)肯定比它多。
3、得到很多新藥物設(shè)計的靶點發(fā)展,這個產(chǎn)業(yè)直接涉及到醫(yī)療診斷和藥物設(shè)計,這是第三個產(chǎn)業(yè)。
4、圍繞精準(zhǔn)醫(yī)學(xué)概念所產(chǎn)生的實質(zhì)性的,比方說健康設(shè)施、健康從業(yè)人員的健康領(lǐng)域的大的產(chǎn)業(yè)圈,這個產(chǎn)業(yè)圈估計2018年可以到達(dá)2千億美金,這些方面都是精準(zhǔn)醫(yī)學(xué)可以帶來的,可以預(yù)見的實打?qū)嵉男碌漠a(chǎn)業(yè)。我國精準(zhǔn)醫(yī)學(xué)的目標(biāo)和上面國際的是一致和接軌的。
要實現(xiàn)精準(zhǔn)醫(yī)學(xué)要具備哪些條件?
我認(rèn)為至少具備兩個條件,這兩個條件是精準(zhǔn)醫(yī)學(xué)沒有開展之前所不具備的。
一是要搜集獲取大量的組學(xué)數(shù)據(jù),而這些組學(xué)數(shù)據(jù)必須經(jīng)過大數(shù)據(jù)技術(shù)的深刻挖掘,所以第一個基礎(chǔ)是當(dāng)前國際兩大前沿,就是組學(xué)和大數(shù)據(jù)兩大科學(xué)的交叉與融合。有了這個結(jié)果,我們就可以獲得大量跟疾病相關(guān)的分子水平上的變異,然后我們要利用這些數(shù)據(jù)開展第二個基礎(chǔ)研究,就是搭建分子水平的信息和宏觀疾病之間關(guān)聯(lián),就是建立分子水平的信息和宏觀疾病之間關(guān)聯(lián)的橋梁,也就是發(fā)展所謂生物信息學(xué)、生物網(wǎng)絡(luò)、系統(tǒng)生物學(xué)等等一系列的東西。有了這兩個橋梁,有了分子水平的信息,我們就可以很好的實現(xiàn)精準(zhǔn)醫(yī)學(xué)了。
精準(zhǔn)醫(yī)學(xué)需要說明的一點,精準(zhǔn)醫(yī)學(xué)實際上和現(xiàn)在的傳統(tǒng)醫(yī)學(xué)、影像學(xué)、生化學(xué)、醫(yī)生的經(jīng)驗是相輔相成的,互相推動與互相促進(jìn)的,不像我接觸的有些過度的宣傳精準(zhǔn)醫(yī)學(xué)的作用,說我們測序以后什么都能解決了,實際上不是,精準(zhǔn)醫(yī)學(xué)是建立在前人知識的基礎(chǔ)上,必然與現(xiàn)在的技術(shù)緊密結(jié)合才能提高醫(yī)療的水平。
精準(zhǔn)醫(yī)學(xué)才剛剛上路
雖然精準(zhǔn)醫(yī)學(xué)有很好的概念上的變化,給我們展示了醫(yī)療體系未來的美好前景,但不論是組學(xué)測量也好,大數(shù)據(jù)分析也好,都存在著一些非常巨大的障礙,所以我認(rèn)為精準(zhǔn)醫(yī)學(xué)目前才剛剛起步。
到底創(chuàng)新的機(jī)遇在哪里?它的挑戰(zhàn)在哪里?我想這個是很多的,我今天只就下面組學(xué)和大數(shù)據(jù)處理的一些困難,簡單地提一兩項困難,大家就可以看到實際上精準(zhǔn)醫(yī)學(xué)的路還是相當(dāng)漫長的。
第一個我要講的就是在組學(xué)測量當(dāng)中存在的巨大挑戰(zhàn)和困難。
大家知道現(xiàn)在的精準(zhǔn)醫(yī)學(xué)是以遺傳密碼為依據(jù)的,我們首先問一個問題,在當(dāng)前我們對自身人類的遺傳密碼了解多少,如果我們都了解了實現(xiàn)精準(zhǔn)就有了分子依據(jù),如果我們了解很少,那我們就太多的事情要做。而事實上,恰恰如后者,這是一段人類遺傳密碼,在座的各位都有,我也有,誰把它去掉了我想他活不了,這樣的遺傳密碼每個人都3乘10的9次方,如果把這個字符裝訂成書的話,大約四十層樓高的高度,我相信誰也讀不了,在當(dāng)前集全人類的智慧我們只能讀懂其中的3%,這就是當(dāng)前的挑戰(zhàn)。
我再次說明,我們的遺傳密碼大家花七千塊錢可以測出來,但你能讀懂的部分大約只有3%,這3%就是大家從中學(xué)時候知道的編碼蛋白質(zhì)的部分,或者遵從中心法則的部分,我們稱作遺傳密碼當(dāng)中的編碼序列,而另外的97%是不編碼蛋白質(zhì)的,也是迄今為止我們讀不懂的部分。換句話說我們的遺傳密碼里現(xiàn)在還大致有97%現(xiàn)在是讀不懂的,既然它干什么都不懂,當(dāng)它有了變化當(dāng)然也不知道。在這個含義下,我們用作組學(xué)研究的話,當(dāng)然存在著巨大的困難和障礙。
我引用一篇文章,2010年12月17號的科學(xué)雜志,這期雜志評選了兩個十大科學(xué)突破,一是2010年當(dāng)年世界自然科學(xué)領(lǐng)域的十大科學(xué)突破,另外一個人類進(jìn)入新的世紀(jì),進(jìn)入21世紀(jì)以后,把2001年到2010年這十年加在一起,也就是說最臨近我們的十年如果加到一塊,自然科學(xué)領(lǐng)域里哪十項是最值得我們關(guān)注的?第一項就是我剛才講的主題,基因組當(dāng)中的暗物質(zhì),我自己更清新暗信息,不是物質(zhì)沒測出來,只是讀不懂。也就是說即使在當(dāng)前人的遺傳密碼當(dāng)中,仍然有90%以上的遺傳密碼我們讀不懂,因此就不可能做到精準(zhǔn),這就是組學(xué)當(dāng)中最基本與最重要的挑戰(zhàn),那么就是我們還有97%左右的遺傳密碼不知道。
下面我來展開一點給大家做點討論。首先從遺傳密碼看,也就是基因組研究,我們知道在人的遺傳密碼當(dāng)中迄今為止97%的遺產(chǎn)密碼還讀不懂,因此當(dāng)然無法做到精準(zhǔn)。而如果我們做個比較研究,從低等生物到高等生物來看,生物越低等,大腸桿菌的遺傳密碼,我們用原盤表示,85%都是紅的,就是能知道規(guī)律的編碼蛋白質(zhì)的部分,它占了絕大部分。生物高等一點,酵母是單細(xì)胞的真核生物,編碼蛋白質(zhì)的部分少了,非編碼的多了。線蟲,它已經(jīng)是最簡單的多細(xì)胞生物了,它用做編碼蛋白質(zhì)的只占28%,非編碼占71%。果蠅,這個時候編碼的部分已知歸類的部分只有17%,非編碼占到了80%多,而對人來講97%~98%都是非編碼蛋白質(zhì)。所以也許大家有一個約定俗成的概念生物從簡單到復(fù)雜從低等到高等一定是蛋白越來越多,實際上不對,它伴隨著功能增加是以我們現(xiàn)在不掌握規(guī)律的非編碼蛋白質(zhì)的的增加,也就是說非編碼蛋白質(zhì)和高級生物相關(guān),當(dāng)然也一定和疾病相關(guān)。
轉(zhuǎn)錄組研究
這個結(jié)果是百分之百肯定的,全世界的實驗室毫無例外的找到非編碼序列信息發(fā)放制造功能元件的信息,毫無例外,所以這樣的工作,充分證明了這97%是實現(xiàn)重要的生物學(xué)功能的,為此我給大家舉幾個簡單例子雖然這97%全貌不理解,但個別的例子,比如97%的一個產(chǎn)物可以導(dǎo)致所謂的前列腺癌。另外一個來自97%的可以導(dǎo)致白血病,另外一個來自97%的可以導(dǎo)致非小細(xì)胞肺癌。這三個例子說明什么?說明來自我們不知道規(guī)律的那97%依然能導(dǎo)致腫瘤,大家如果在座的臨床醫(yī)生專家的話,可以知道我們現(xiàn)在對腫瘤在醫(yī)院當(dāng)中診斷治療,所有的對象只利用了3%的信息,從來沒有那97%。現(xiàn)在有充分的例子說明,那97%也可以導(dǎo)致非常嚴(yán)重的疾病,如果不把它納入疾病的診斷治療當(dāng)中來,精準(zhǔn)又如何實現(xiàn)呢?
當(dāng)然我們知道在97%里也有非常好的東西,請大家記住H19,這是一個非常重要的非編碼的元件,它的存在可以讓我們已經(jīng)癌變的細(xì)胞通過某種途徑進(jìn)行消亡。那么有多少這樣的元件還沒有被發(fā)現(xiàn)呢?在座的如果有對生物感興趣的研究工作者可以參考,大家知道日本在小鼠里邊做過實驗,發(fā)現(xiàn)大約16萬個來自那97%的像蛋白一樣重要的功能元件迄今為止還沒有發(fā)現(xiàn),所以我們還有太多的機(jī)會去發(fā)現(xiàn)新的重要的功能元件,了解它跟健康、發(fā)育、疾病的關(guān)系。在這個領(lǐng)域里邊,這兩位科學(xué)家在2006年獲得了第一個諾貝爾獎金,有人開玩笑我們估算一下現(xiàn)在對人的遺傳密碼知道了3%,你可以算算這3%締造了多少名諾貝爾獎的獲得者,我稍微統(tǒng)計一下不少于50名。
我們現(xiàn)在又發(fā)現(xiàn)了龐大的97%,說明在這巨大的97%的領(lǐng)域里,還有一千多個諾貝爾獎金的位置,現(xiàn)在只有一個位置被占據(jù)了可以忽略不計,所以在大家面前有非常廣闊的創(chuàng)造巨大科學(xué)成果的機(jī)會。
因此整個非編碼的研究,組學(xué)當(dāng)中的一個巨大的障礙,雖然對精準(zhǔn)醫(yī)學(xué)來講我們只掌握了3%,才剛剛起步,還有漫長的路要走。但是從另一方面考慮非編碼的研究一定會給我們提供巨大的機(jī)遇,也就是說這97%信息的挖掘一定會為疾病的診斷和治療提供全新的方向,一定會對全新的藥物設(shè)計和研發(fā)提供全新的平臺。那么也會對動植物新品種,新性狀的培育提供新的機(jī)遇,所以這當(dāng)然我講的在組學(xué)當(dāng)中的這么一個例子就可以看到,精準(zhǔn)醫(yī)學(xué)其實才剛剛上路。
我簡單的談一談數(shù)據(jù)處理當(dāng)中的一些挑戰(zhàn):
1、數(shù)據(jù)量大。大家知道一個人的遺傳密碼是3乘10的9次方,但我們知道這個數(shù)據(jù)的產(chǎn)生是如此容易,現(xiàn)在一臺商用測序儀,一次測量可以得到1T的數(shù)據(jù),這樣的數(shù)據(jù)作為商品就很容易買到。所以大家可以看到測序現(xiàn)在變得如此容易,我的實驗室我組里就有一臺,一次性測序可以得到1T人的遺傳密碼的數(shù)據(jù),全世界有數(shù)不清的人,你想這樣數(shù)據(jù)的增長速度有多快。
2、分析少。這是沃森拿著自己的遺傳密碼在他的小盒子里,這個時候大約是人類開展遺傳密碼測序的十年以后,我們知道到那個時候測序已經(jīng)變得不那么昂貴了,但還需要一百萬美金兩個月的時間,又過了十年只需要六七千人民幣,三天時間可以得到他的遺傳密碼,可惜的是他拿著他的小盒子自己也不知道能分析多少。
但現(xiàn)在國際上開展微生物組基因計劃,這個時候我們知道人不僅僅是自己生活,如果考慮他的健康的話也要考慮跟人一起生活的微生物,那么微生物的遺傳密碼現(xiàn)在估計是人的一百倍,如果研究一個廣義的人,研究人聯(lián)同微生物的人,一個人的測序要增加兩個數(shù)量級。但這樣一個數(shù)據(jù)從數(shù)據(jù)源來講不是很好的,它的噪聲比較好,因此性噪比比較低,另外有比較多的缺失值。因此從數(shù)據(jù)源來講是增速極快,數(shù)據(jù)質(zhì)量不高,含有缺失值的數(shù)據(jù),這樣在數(shù)據(jù)挖掘當(dāng)中存在著第一個困難,就是數(shù)據(jù)源的困難。
3、樣品量少。從樣品來看,我們總需要樣品,比如我們研究肝癌,我們需要肝癌的病人,大家知道針對某一個特殊疾病搜集樣品是特別困難的,往往對特定分型的腫瘤,如果搜集兩三百個樣品已經(jīng)很不錯了,大家知道我們整個的數(shù)學(xué)體系需要建模的體系往往自變量是成百上千甚至上萬的,這種情況下如果我們只能取幾百個樣品的話,當(dāng)然我們的邊界條件不足以固定內(nèi)部的自變量數(shù)在這種情況下,當(dāng)然我們的解就不是收斂(音),這將是存在的第二個問題。
就是由于樣品搜集的困難,很多條件下我們搜集的樣品不足以固定體系內(nèi)部自變量的變化,這樣情況下有兩個途徑,一是加大樣品,比如為什么美國要測一百萬人的遺產(chǎn)密碼,我們中國的精準(zhǔn)醫(yī)學(xué)計劃也要測一百萬人,就是說我的體系測樣本量遠(yuǎn)遠(yuǎn)大于體系覆蓋的自變量,當(dāng)然可以得到有利的收斂(音)的結(jié)果,但這往往是政府的行為,我們自己的研究組是不可能做這件事的,要有巨大花費。這種情況下當(dāng)然就要考慮數(shù)學(xué)建模,把我們的系統(tǒng)變成子系統(tǒng),使得外界的邊界條件和內(nèi)部自變量能匹配,這就是所謂在大數(shù)據(jù)處理上,對于組學(xué)數(shù)據(jù)所需要的非常突出的數(shù)學(xué)分析當(dāng)中的問題。
4、有效事件頻率低。不僅僅樣品得來不易,而樣品的分子基礎(chǔ)也是各種各樣的,所以會帶來更多的樣品需求層次的問題。因此這就會導(dǎo)致一個非常重要的所謂精準(zhǔn)醫(yī)學(xué)當(dāng)中的科學(xué)哲學(xué)問題,什么是共同疾病的共同變化,什么是共同疾病的特異性變化,時間關(guān)系我不能在這里更多討論了。
上述講的都是個別基因的變化,但每個基因并不是獨立工作的,往往是形成網(wǎng)絡(luò),所以我們面對進(jìn)一步的所謂功能分析的問題,精準(zhǔn)醫(yī)學(xué)的問題是復(fù)雜網(wǎng)絡(luò)的問題。大家知道,在座的都是數(shù)學(xué)家,我們知道這個生物網(wǎng)絡(luò)是動態(tài)的,是有向的,是每個元件做到另外一個元件是定向的;元件不是單一的,既有蛋白也有核算,另外所有作用的方式,很大程度上都是非線性的,對這樣一個動態(tài)、有向,不同元件組成的這樣一個東西,當(dāng)然是復(fù)雜的。
除了這個之外,大家知道我們不僅僅用組學(xué)數(shù)據(jù)還用其它影像學(xué)的數(shù)據(jù),比如做個核磁、CT這樣的數(shù)據(jù)如何處理,最后是超出學(xué)界的問題,如何在全中國的范圍內(nèi)實現(xiàn)數(shù)據(jù)的有效共享。我們知道現(xiàn)在每個醫(yī)院里都有數(shù)據(jù),如果我們不能在全局上面進(jìn)行數(shù)據(jù)共享的話,我們就是在大數(shù)據(jù)時代做小數(shù)據(jù)的工作,將來就失掉了大數(shù)據(jù)的背景和它的意義。
所以看到在數(shù)據(jù)分享當(dāng)中依然存在非常艱難的問題,我后面說的比較粗糙,只不過就精準(zhǔn)醫(yī)學(xué)的幾個概念和大家進(jìn)行交流,我想精準(zhǔn)醫(yī)學(xué)是一個重要的值得大家關(guān)注的方向,但由于各種原因,需要我們克服困難,精準(zhǔn)醫(yī)學(xué)才剛剛起步。但這些困難恰恰也是我們的機(jī)遇,抓住這些機(jī)遇,有機(jī)會做突出的原創(chuàng)性的重要的工作。
第三十四屆CIO班招生
國際CIO認(rèn)證培訓(xùn)
首席數(shù)據(jù)官(CDO)認(rèn)證培訓(xùn)
責(zé)編:houlimin
免責(zé)聲明:本網(wǎng)站(http://www.www.gypb.net/)內(nèi)容主要來自原創(chuàng)、合作媒體供稿和第三方投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
本網(wǎng)站刊載的所有內(nèi)容(包括但不僅限文字、圖片、LOGO、音頻、視頻、軟件、程序等)版權(quán)歸原作者所有。任何單位或個人認(rèn)為本網(wǎng)站中的內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,請及時通知本站,予以刪除。