四年前,谷歌的科學(xué)家出現(xiàn)在加利福尼亞州舊金山格萊斯頓神經(jīng)病研究所神經(jīng)科學(xué)家Steve Finkbeiner的家門口。Finkbeiner和他的團(tuán)隊使用一種名為“機(jī)器人顯微鏡(robotic microscopy)”的高通量成像策略來產(chǎn)生大量的數(shù)據(jù),這些策略是他們?yōu)檠芯磕X細(xì)胞而開發(fā)的。但團(tuán)隊因無法快速分析數(shù)據(jù)而發(fā)愁。因此,F(xiàn)inkbeiner對合作的機(jī)會表示歡迎。
這幾位谷歌的研究人員則在谷歌位于山景城的研究部門Google Accelerated Science(GAS)工作,這個部門旨在利用谷歌的技術(shù)加快科學(xué)發(fā)現(xiàn)的進(jìn)展。GAS的科學(xué)家們很有興趣將“深度學(xué)習(xí)”方法應(yīng)用于由Finkbeiner團(tuán)隊生成的影像數(shù)據(jù)。
深度學(xué)習(xí)算法從極大的帶注釋的數(shù)據(jù)集(如圖像或基因組的集合)中提取原始特征,并利用它們來創(chuàng)建一個基于隱藏在內(nèi)部的模式的預(yù)測工具。一旦訓(xùn)練完成,算法就可以應(yīng)用這種訓(xùn)練來分析其他數(shù)據(jù)。
Finkbeiner說,這種技術(shù)可以用來“解決真正困難、復(fù)雜的問題,并且能夠看到數(shù)據(jù)中的結(jié)構(gòu)——這些數(shù)據(jù)量太大,對人類大腦來說太復(fù)雜,無法理解”。他說:“當(dāng)時我不能誠實地說,不清楚地了解深入學(xué)習(xí)可能會遇到的問題,但是我知道我們以大約兩倍到三倍的速度生成數(shù)據(jù),超出了我們的分析能力。”
如今,合作開始取得成效。Finkbeiner的團(tuán)隊與谷歌的科學(xué)家們訓(xùn)練了一套深度算法,其中包含兩組細(xì)胞,一組人工標(biāo)記以突出了科學(xué)家通??床坏降奶卣?,另一組未標(biāo)記。當(dāng)他們后來用這套算法來識別未標(biāo)記細(xì)胞的圖像時,F(xiàn)inkbeiner說,“它非常善于預(yù)測這些圖像的標(biāo)簽應(yīng)該是什么樣子。”
Finkbeiner的成功表明了人工智能(AI)最有前途的應(yīng)用分支之一——深度學(xué)習(xí)正在深入生物學(xué)領(lǐng)域。在生物學(xué)中,深度學(xué)習(xí)算法以人類無法做到的方式深入研究數(shù)據(jù),發(fā)現(xiàn)人類可能無法捕捉到的特征。研究人員利用這些算法對細(xì)胞圖像進(jìn)行分類,建立基因組連接,加速藥物發(fā)現(xiàn)周期,甚至可以找到不同數(shù)據(jù)類型的鏈接,從基因組學(xué)和成像到電子病歷。
BioRxiv上有超過440篇文章討論深度學(xué)習(xí),PubMed網(wǎng)站在2017年列出了700多篇與深度學(xué)習(xí)有關(guān)的參考文獻(xiàn)。這些工具正成為生物學(xué)家和臨床研究人員廣泛使用的工具。但是,研究人員在理解和使用這些算法方面仍面臨著挑戰(zhàn)。
1、訓(xùn)練智能算法
來源:Jeremy Linsley/Drew Linsley/Steve Finkbeiner/Thomas Serre
最終,這個過程允許訓(xùn)練有素的算法分析一個新的圖像,并正確地識別出它。但是,減少人類的參與,他們就無法控制分類過程,甚至無法精確地解釋軟件正在做什么。Finkbeiner說,雖然這些深度學(xué)習(xí)的網(wǎng)絡(luò)能夠驚人地準(zhǔn)確預(yù)測,但“有時要弄清楚網(wǎng)絡(luò)看到的是什么才做出如此好的預(yù)測,仍然是一個挑戰(zhàn)。”
盡管如此,包括成像在內(nèi)的許多生物學(xué)的分支學(xué)科,正在收獲這些預(yù)測的回報。十年前,自動化生物圖像分析軟件專注于測量一組圖像中的單個參數(shù)。例如,2005年,麻省理工學(xué)院布羅德研究所和哈佛劍橋哈佛大學(xué)的計算生物學(xué)家Anne Carpenter發(fā)布了一個名為CellProfiler的開源軟件包,幫助生物學(xué)家定量測量各個特征:比如顯微鏡下熒光細(xì)胞的數(shù)量,或斑馬魚的長度。
但深度學(xué)習(xí)讓她的團(tuán)隊走得更遠(yuǎn)。“我們已經(jīng)轉(zhuǎn)向測量生物學(xué)家們沒有意識到他們想用在圖像中來測量的東西,”Carpenter說。記錄和結(jié)合視覺特征,如DNA染色、細(xì)胞器結(jié)構(gòu)等可以產(chǎn)生數(shù)千個“特征”,其中任何一個都能揭示新的見解。當(dāng)前版本的CellProfiler包含一些深入學(xué)習(xí)的元素,她的團(tuán)隊希望在明年添加更復(fù)雜的深度學(xué)習(xí)工具。
Carpenter說:“大多數(shù)人都很難弄明白這些問題,但是單細(xì)胞圖像中的信息,實際上可能更多,就像細(xì)胞群的轉(zhuǎn)錄組分析一樣。”
這種類型的處理使得Carpenter的團(tuán)隊采取一種更少監(jiān)督的方法,將細(xì)胞圖像轉(zhuǎn)化為疾病相關(guān)的表型,并利用它進(jìn)行分析。Carpenter是猶他州鹽湖城Recursion Pharmaceuticals的科學(xué)顧問,該公司正利用其深度學(xué)習(xí)工具,瞄準(zhǔn)罕見的單基因疾病藥物開發(fā)。
2、挖掘基因組數(shù)據(jù)
當(dāng)談到深度學(xué)習(xí)時,也不是任何數(shù)據(jù)都可以的。深度學(xué)習(xí)通常需要大量的、標(biāo)注良好的數(shù)據(jù)集。因此,成像數(shù)據(jù)就成了很自然的好選擇,基因組數(shù)據(jù)也是如此。
Verily Life Sciences(前身是谷歌生命科學(xué))也一直使用此類數(shù)據(jù)。Verily是Google母公司Alphabet的子公司,研究人員開發(fā)了一種深度學(xué)習(xí)工具,可以比傳統(tǒng)工具更準(zhǔn)確地識別常見的遺傳變異類型,即單核苷酸多態(tài)性。這種名為DeepVariant的軟件,將基因組信息轉(zhuǎn)換成圖像表示形式,然后將其作為圖像進(jìn)行分析。
Mark DePristo,他領(lǐng)導(dǎo)了Verily深入學(xué)習(xí)的基因組研究,他認(rèn)為DeepVariant對于研究非主流生物的研究人員特別有用,尤其是那些低質(zhì)量的參考基因組和高錯誤率鑒定基因變異。他的同事Ryan Poplin在植物領(lǐng)域中使用DeepVariant,誤差率從20%降低到了接近2%。
加拿大Deep Genomics公司首席執(zhí)行官Brendan Frey也專注于基因組數(shù)據(jù),但其目標(biāo)是預(yù)測和治療疾病。Frey在多倫多大學(xué)的學(xué)術(shù)團(tuán)隊開發(fā)了關(guān)于健康細(xì)胞基因組和轉(zhuǎn)錄組數(shù)據(jù)的算法。
這些算法針對RNA事件構(gòu)建預(yù)測模型,例如剪接、轉(zhuǎn)錄和聚腺苷酸化。Frey說,在應(yīng)用于臨床數(shù)據(jù)時,算法能夠識別突變并將其標(biāo)記為致病性,即使它們從未看過這些臨床數(shù)據(jù)。在Deep Genomics公司,F(xiàn)rey的團(tuán)隊正在使用相同的工具來識別和針對軟件發(fā)現(xiàn)的疾病機(jī)制,并開發(fā)由短的核酸序列衍生出來的治療方法。
藥物發(fā)現(xiàn)是另一個有大量數(shù)據(jù)集的學(xué)科。在這里,深度學(xué)習(xí)算法正在幫助解決分類挑戰(zhàn),通過諸如形狀和氫鍵等分子特征的篩選,確定對這些潛在藥物進(jìn)行排序的標(biāo)準(zhǔn)。例如,位于舊金山的生物科技公司Atomwise開發(fā)了一種將分子轉(zhuǎn)換成三維像素網(wǎng)格的算法。這可以使公司能夠以原子精度解釋蛋白質(zhì)和小分子的三位結(jié)構(gòu),以及原子的精度,比如碳原子的幾何形狀。該公司的首席執(zhí)行官Abraham Heifets表示,這些特征被轉(zhuǎn)化為數(shù)學(xué)向量,算法可以用來預(yù)測哪些小分子可能與特定蛋白質(zhì)相互作用。他說,“我們做的很多工作都是針對沒有已知粘合劑的(蛋白質(zhì))靶標(biāo)。”
Atomwise正在使用這一策略推動其新的AI驅(qū)動的分子篩選計劃。這個計劃掃描了一千萬個化合物的庫,為學(xué)術(shù)研究人員提供了多大72種潛在的小分子粘合劑,以獲取他們感興趣的蛋白質(zhì)。
深度學(xué)習(xí)工具還可以幫助研究人員對疾病類型進(jìn)行分層,了解疾病亞群,找到新的治療方法,并將其與合適的患者相匹配以進(jìn)行臨床試驗和治療。例如,F(xiàn)inkbeiner所在的一個叫做Answer ALS的組織,致力于將一系列的數(shù)據(jù)——基因組學(xué)、轉(zhuǎn)錄組學(xué)、表觀基因組學(xué)、蛋白質(zhì)組學(xué)、成像,甚至是多功能干細(xì)胞生物學(xué)——從1000人的神經(jīng)退行性疾病肌萎縮側(cè)索硬化癥(也稱為運動神經(jīng)元病)中結(jié)合起來。他說:“這是我們第一次有一個數(shù)據(jù)集,可以應(yīng)用深度學(xué)習(xí),并觀察深度學(xué)習(xí)是否可以揭示我們細(xì)胞培養(yǎng)皿中和患者發(fā)生的事情之間的聯(lián)系。”
3、挑戰(zhàn)和警告
研究人員警告說,盡管深度學(xué)習(xí)帶來了很多好處,但它也帶來了巨大的挑戰(zhàn)。與任何計算生物學(xué)技術(shù)一樣,由算法產(chǎn)生的結(jié)果取決于輸入的數(shù)據(jù)。模型過擬合也是一個問題。此外,對于深度學(xué)習(xí),數(shù)據(jù)量和質(zhì)量的標(biāo)準(zhǔn)往往比一些實驗生物學(xué)家所期望的更為嚴(yán)格。
深度學(xué)習(xí)算法需要非常大的數(shù)據(jù)集,這些數(shù)據(jù)集都要有很好的注釋,以便算法可以學(xué)習(xí)區(qū)分特征和對模式進(jìn)行分類。Finkbeiner指出,在大約15000個樣本之后,他的工作中的算法訓(xùn)練顯著提高。Carpenter說,那些高質(zhì)量的“ground truth”數(shù)據(jù)可能非常難以實現(xiàn)。
為了規(guī)避這一挑戰(zhàn),研究人員一直在努力研究如何用更少的數(shù)據(jù)進(jìn)行更多的訓(xùn)練。基礎(chǔ)算法的進(jìn)步使得神經(jīng)網(wǎng)絡(luò)能夠更有效地使用數(shù)據(jù)。Carpenter說,在一些應(yīng)用程序中只對少量圖像進(jìn)行訓(xùn)練??茖W(xué)家還可以利用轉(zhuǎn)移學(xué)習(xí),即神經(jīng)網(wǎng)絡(luò)從一種數(shù)據(jù)類型獲得的分類能力應(yīng)用到另一種類型的能力。例如,F(xiàn)inkbeiner的團(tuán)隊已經(jīng)開發(fā)出一種算法,最初是根據(jù)形態(tài)學(xué)變化來預(yù)測細(xì)胞死亡。雖然研究人員訓(xùn)練它研究嚙齒動物細(xì)胞的圖像,但它首次接觸到人類細(xì)胞圖像時的準(zhǔn)確率達(dá)到了90%,而且隨著經(jīng)驗的增加,其準(zhǔn)確率達(dá)到99%。
在一些生物圖像識別工作中,GAS使用的算法最初是針對從互聯(lián)網(wǎng)上挖掘的數(shù)億個消費者圖像進(jìn)行訓(xùn)練的。研究人員隨后對這種訓(xùn)練進(jìn)行了改進(jìn),使用了幾百種類似于他們希望研究的生物圖像。
GAS的研究科學(xué)家Michelle Dimon指出,深度學(xué)習(xí)帶來的另一個挑戰(zhàn)是計算機(jī)既不聰明又懶惰。它缺乏辨別生物學(xué)相關(guān)差異和正常差異的判斷力。她指出:“電腦很擅長查找批量變化。”因此,獲取將被輸入到深度學(xué)習(xí)算法中的數(shù)據(jù),通常意味著對實驗設(shè)計和控制應(yīng)用的一個高門檻。GAS要求研究人員隨機(jī)將對照放置在細(xì)胞培養(yǎng)板上,以考慮諸如孵化器溫度等微妙的環(huán)境因素,并使用兩倍于生物學(xué)家可能使用的對照組。Dimon打趣道:“我們很難控制。”
Dimon說,這種危害強(qiáng)調(diào)了生物學(xué)家和計算機(jī)科學(xué)家共同設(shè)計融合深度學(xué)習(xí)的實驗的重要性。
盡管深度學(xué)習(xí)算法可以在沒有人類先入之見和過濾器的情況下評估數(shù)據(jù),但Greene警告說,這并不意味著它們沒有偏見。訓(xùn)練數(shù)據(jù)可能會有偏差,例如,僅使用北歐人的基因組數(shù)據(jù)時。對這些數(shù)據(jù)進(jìn)行訓(xùn)練的深度學(xué)習(xí)算法將獲得嵌入的偏差,并在他們的預(yù)測中反映出來,從而導(dǎo)致不平等的病人護(hù)理。如果人類幫助驗證這些預(yù)測,就會對問題進(jìn)行潛在的檢查。但如果僅靠電腦來做出關(guān)鍵決策,這就會令人不安。Greene說:“把這些方法看作是增強(qiáng)人類比把這些方法想象成替代人類更好。”
接下來的挑戰(zhàn)就是,要準(zhǔn)確理解這些算法是如何構(gòu)建特征的。馬里蘭州巴爾的摩的Insilico醫(yī)學(xué)研究所的科學(xué)家Polina Mamoshina說,計算機(jī)科學(xué)家正在通過改變或調(diào)整模型中的個體特征來攻擊這個問題,然后研究這些微調(diào)如何改變預(yù)測的準(zhǔn)確性。但Greene警告說,不同的神經(jīng)網(wǎng)絡(luò)在同一問題上的工作方式不會以同樣的方式進(jìn)行。研究人員越來越關(guān)注能夠做出準(zhǔn)確又能解釋的預(yù)測算法。
Greene說:“我認(rèn)為,2018年高深度學(xué)習(xí)模式不會出現(xiàn),但我希望我是錯的。”
第三十四屆CIO班招生
國際CIO認(rèn)證培訓(xùn)
首席數(shù)據(jù)官(CDO)認(rèn)證培訓(xùn)
責(zé)編:content
免責(zé)聲明:本網(wǎng)站(http://www.www.gypb.net/)內(nèi)容主要來自原創(chuàng)、合作媒體供稿和第三方投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
本網(wǎng)站刊載的所有內(nèi)容(包括但不僅限文字、圖片、LOGO、音頻、視頻、軟件、程序等)版權(quán)歸原作者所有。任何單位或個人認(rèn)為本網(wǎng)站中的內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,請及時通知本站,予以刪除。