日本道精品一区二区三区,久久香蕉成人免费大片,好青青在线视频观看视频

生物學(xué)領(lǐng)域內(nèi)深度學(xué)習(xí)面臨挑戰(zhàn)，挖掘基因組數(shù)據(jù)成為關(guān)鍵

2018-03-02 14:19:29 來源：億歐網(wǎng)搶沙發(fā)

2018-03-02 14:19:29 來源：億歐網(wǎng)

摘要：當(dāng)下，被稱為第四次工業(yè)革命的人工智能（AI），已經(jīng)滲透到各個領(lǐng)域。如今，它為測量和分類超級龐大的生物數(shù)據(jù)提供了強(qiáng)有力的工具。但對于不知情的人來說，這項技術(shù)帶來了巨大的困難。
關(guān)鍵詞：基因生物學(xué)

　　四年前，谷歌的科學(xué)家出現(xiàn)在加利福尼亞州舊金山格萊斯頓神經(jīng)病研究所神經(jīng)科學(xué)家Steve Finkbeiner的家門口。Finkbeiner和他的團(tuán)隊使用一種名為“機(jī)器人顯微鏡（robotic microscopy）”的高通量成像策略來產(chǎn)生大量的數(shù)據(jù)，這些策略是他們?yōu)檠芯磕X細(xì)胞而開發(fā)的。但團(tuán)隊因無法快速分析數(shù)據(jù)而發(fā)愁。因此，F(xiàn)inkbeiner對合作的機(jī)會表示歡迎。

　　這幾位谷歌的研究人員則在谷歌位于山景城的研究部門Google Accelerated Science（GAS）工作，這個部門旨在利用谷歌的技術(shù)加快科學(xué)發(fā)現(xiàn)的進(jìn)展。GAS的科學(xué)家們很有興趣將“深度學(xué)習(xí)”方法應(yīng)用于由Finkbeiner團(tuán)隊生成的影像數(shù)據(jù)。

　　深度學(xué)習(xí)算法從極大的帶注釋的數(shù)據(jù)集(如圖像或基因組的集合)中提取原始特征，并利用它們來創(chuàng)建一個基于隱藏在內(nèi)部的模式的預(yù)測工具。一旦訓(xùn)練完成，算法就可以應(yīng)用這種訓(xùn)練來分析其他數(shù)據(jù)。

　　Finkbeiner說，這種技術(shù)可以用來“解決真正困難、復(fù)雜的問題，并且能夠看到數(shù)據(jù)中的結(jié)構(gòu)——這些數(shù)據(jù)量太大，對人類大腦來說太復(fù)雜，無法理解”。他說:“當(dāng)時我不能誠實地說，不清楚地了解深入學(xué)習(xí)可能會遇到的問題，但是我知道我們以大約兩倍到三倍的速度生成數(shù)據(jù)，超出了我們的分析能力。”

　　如今，合作開始取得成效。Finkbeiner的團(tuán)隊與谷歌的科學(xué)家們訓(xùn)練了一套深度算法，其中包含兩組細(xì)胞，一組人工標(biāo)記以突出了科學(xué)家通?？床坏降奶卣?，另一組未標(biāo)記。當(dāng)他們后來用這套算法來識別未標(biāo)記細(xì)胞的圖像時，F(xiàn)inkbeiner說，“它非常善于預(yù)測這些圖像的標(biāo)簽應(yīng)該是什么樣子。”

　　Finkbeiner的成功表明了人工智能(AI)最有前途的應(yīng)用分支之一——深度學(xué)習(xí)正在深入生物學(xué)領(lǐng)域。在生物學(xué)中，深度學(xué)習(xí)算法以人類無法做到的方式深入研究數(shù)據(jù)，發(fā)現(xiàn)人類可能無法捕捉到的特征。研究人員利用這些算法對細(xì)胞圖像進(jìn)行分類，建立基因組連接，加速藥物發(fā)現(xiàn)周期，甚至可以找到不同數(shù)據(jù)類型的鏈接，從基因組學(xué)和成像到電子病歷。

　　BioRxiv上有超過440篇文章討論深度學(xué)習(xí)，PubMed網(wǎng)站在2017年列出了700多篇與深度學(xué)習(xí)有關(guān)的參考文獻(xiàn)。這些工具正成為生物學(xué)家和臨床研究人員廣泛使用的工具。但是，研究人員在理解和使用這些算法方面仍面臨著挑戰(zhàn)。

　　1、訓(xùn)練智能算法

　　深度學(xué)習(xí)算法依賴于神經(jīng)網(wǎng)絡(luò)，這是20世紀(jì)40年代首次提出的一種計算模型，其中類神經(jīng)元節(jié)點組成的網(wǎng)絡(luò)層模擬人腦對信息進(jìn)行分析。費城賓夕法尼亞大學(xué)的計算生物學(xué)家Casey Greene說，直到大約5年前，基于神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)算法依靠研究人員將原始信息加工成更有意義的形式，然后才將其輸入到計算模型中。但是，數(shù)據(jù)集的爆炸式增長以及算法創(chuàng)新，已經(jīng)使人類的工作減少。機(jī)器學(xué)習(xí)的這種進(jìn)步——“深度”部分——迫使計算機(jī)，而不是人類程序員，去尋找深藏數(shù)據(jù)之下的有意義的關(guān)系。隨著神經(jīng)網(wǎng)絡(luò)中的層對信息進(jìn)行過濾和排序，它們還可以相互通信，從而允許每個層優(yōu)化前一個層的輸出。

來源：Jeremy Linsley/Drew Linsley/Steve Finkbeiner/Thomas Serre

　　最終，這個過程允許訓(xùn)練有素的算法分析一個新的圖像，并正確地識別出它。但是，減少人類的參與，他們就無法控制分類過程，甚至無法精確地解釋軟件正在做什么。Finkbeiner說，雖然這些深度學(xué)習(xí)的網(wǎng)絡(luò)能夠驚人地準(zhǔn)確預(yù)測，但“有時要弄清楚網(wǎng)絡(luò)看到的是什么才做出如此好的預(yù)測，仍然是一個挑戰(zhàn)。”

　　盡管如此，包括成像在內(nèi)的許多生物學(xué)的分支學(xué)科，正在收獲這些預(yù)測的回報。十年前，自動化生物圖像分析軟件專注于測量一組圖像中的單個參數(shù)。例如，2005年，麻省理工學(xué)院布羅德研究所和哈佛劍橋哈佛大學(xué)的計算生物學(xué)家Anne Carpenter發(fā)布了一個名為CellProfiler的開源軟件包，幫助生物學(xué)家定量測量各個特征：比如顯微鏡下熒光細(xì)胞的數(shù)量，或斑馬魚的長度。

　　但深度學(xué)習(xí)讓她的團(tuán)隊走得更遠(yuǎn)。“我們已經(jīng)轉(zhuǎn)向測量生物學(xué)家們沒有意識到他們想用在圖像中來測量的東西，”Carpenter說。記錄和結(jié)合視覺特征，如DNA染色、細(xì)胞器結(jié)構(gòu)等可以產(chǎn)生數(shù)千個“特征”，其中任何一個都能揭示新的見解。當(dāng)前版本的CellProfiler包含一些深入學(xué)習(xí)的元素，她的團(tuán)隊希望在明年添加更復(fù)雜的深度學(xué)習(xí)工具。

　　Carpenter說:“大多數(shù)人都很難弄明白這些問題，但是單細(xì)胞圖像中的信息，實際上可能更多，就像細(xì)胞群的轉(zhuǎn)錄組分析一樣。”

　　這種類型的處理使得Carpenter的團(tuán)隊采取一種更少監(jiān)督的方法，將細(xì)胞圖像轉(zhuǎn)化為疾病相關(guān)的表型，并利用它進(jìn)行分析。Carpenter是猶他州鹽湖城Recursion Pharmaceuticals的科學(xué)顧問，該公司正利用其深度學(xué)習(xí)工具，瞄準(zhǔn)罕見的單基因疾病藥物開發(fā)。

　　2、挖掘基因組數(shù)據(jù)

　　當(dāng)談到深度學(xué)習(xí)時，也不是任何數(shù)據(jù)都可以的。深度學(xué)習(xí)通常需要大量的、標(biāo)注良好的數(shù)據(jù)集。因此，成像數(shù)據(jù)就成了很自然的好選擇，基因組數(shù)據(jù)也是如此。

　　Verily Life Sciences(前身是谷歌生命科學(xué))也一直使用此類數(shù)據(jù)。Verily是Google母公司Alphabet的子公司，研究人員開發(fā)了一種深度學(xué)習(xí)工具，可以比傳統(tǒng)工具更準(zhǔn)確地識別常見的遺傳變異類型，即單核苷酸多態(tài)性。這種名為DeepVariant的軟件，將基因組信息轉(zhuǎn)換成圖像表示形式，然后將其作為圖像進(jìn)行分析。

　　Mark DePristo，他領(lǐng)導(dǎo)了Verily深入學(xué)習(xí)的基因組研究，他認(rèn)為DeepVariant對于研究非主流生物的研究人員特別有用，尤其是那些低質(zhì)量的參考基因組和高錯誤率鑒定基因變異。他的同事Ryan Poplin在植物領(lǐng)域中使用DeepVariant，誤差率從20％降低到了接近2％。

　　加拿大Deep Genomics公司首席執(zhí)行官Brendan Frey也專注于基因組數(shù)據(jù)，但其目標(biāo)是預(yù)測和治療疾病。Frey在多倫多大學(xué)的學(xué)術(shù)團(tuán)隊開發(fā)了關(guān)于健康細(xì)胞基因組和轉(zhuǎn)錄組數(shù)據(jù)的算法。

　　這些算法針對RNA事件構(gòu)建預(yù)測模型，例如剪接、轉(zhuǎn)錄和聚腺苷酸化。Frey說，在應(yīng)用于臨床數(shù)據(jù)時，算法能夠識別突變并將其標(biāo)記為致病性，即使它們從未看過這些臨床數(shù)據(jù)。在Deep Genomics公司，F(xiàn)rey的團(tuán)隊正在使用相同的工具來識別和針對軟件發(fā)現(xiàn)的疾病機(jī)制，并開發(fā)由短的核酸序列衍生出來的治療方法。

　　藥物發(fā)現(xiàn)是另一個有大量數(shù)據(jù)集的學(xué)科。在這里，深度學(xué)習(xí)算法正在幫助解決分類挑戰(zhàn)，通過諸如形狀和氫鍵等分子特征的篩選，確定對這些潛在藥物進(jìn)行排序的標(biāo)準(zhǔn)。例如，位于舊金山的生物科技公司Atomwise開發(fā)了一種將分子轉(zhuǎn)換成三維像素網(wǎng)格的算法。這可以使公司能夠以原子精度解釋蛋白質(zhì)和小分子的三位結(jié)構(gòu)，以及原子的精度，比如碳原子的幾何形狀。該公司的首席執(zhí)行官Abraham Heifets表示，這些特征被轉(zhuǎn)化為數(shù)學(xué)向量，算法可以用來預(yù)測哪些小分子可能與特定蛋白質(zhì)相互作用。他說，“我們做的很多工作都是針對沒有已知粘合劑的（蛋白質(zhì)）靶標(biāo)。”

　　Atomwise正在使用這一策略推動其新的AI驅(qū)動的分子篩選計劃。這個計劃掃描了一千萬個化合物的庫，為學(xué)術(shù)研究人員提供了多大72種潛在的小分子粘合劑，以獲取他們感興趣的蛋白質(zhì)。

　　深度學(xué)習(xí)工具還可以幫助研究人員對疾病類型進(jìn)行分層，了解疾病亞群，找到新的治療方法，并將其與合適的患者相匹配以進(jìn)行臨床試驗和治療。例如，F(xiàn)inkbeiner所在的一個叫做Answer ALS的組織，致力于將一系列的數(shù)據(jù)——基因組學(xué)、轉(zhuǎn)錄組學(xué)、表觀基因組學(xué)、蛋白質(zhì)組學(xué)、成像，甚至是多功能干細(xì)胞生物學(xué)——從1000人的神經(jīng)退行性疾病肌萎縮側(cè)索硬化癥(也稱為運動神經(jīng)元病)中結(jié)合起來。他說:“這是我們第一次有一個數(shù)據(jù)集，可以應(yīng)用深度學(xué)習(xí)，并觀察深度學(xué)習(xí)是否可以揭示我們細(xì)胞培養(yǎng)皿中和患者發(fā)生的事情之間的聯(lián)系。”

　　3、挑戰(zhàn)和警告

　　研究人員警告說，盡管深度學(xué)習(xí)帶來了很多好處，但它也帶來了巨大的挑戰(zhàn)。與任何計算生物學(xué)技術(shù)一樣，由算法產(chǎn)生的結(jié)果取決于輸入的數(shù)據(jù)。模型過擬合也是一個問題。此外，對于深度學(xué)習(xí)，數(shù)據(jù)量和質(zhì)量的標(biāo)準(zhǔn)往往比一些實驗生物學(xué)家所期望的更為嚴(yán)格。

　　深度學(xué)習(xí)算法需要非常大的數(shù)據(jù)集，這些數(shù)據(jù)集都要有很好的注釋，以便算法可以學(xué)習(xí)區(qū)分特征和對模式進(jìn)行分類。Finkbeiner指出，在大約15000個樣本之后，他的工作中的算法訓(xùn)練顯著提高。Carpenter說，那些高質(zhì)量的“ground truth”數(shù)據(jù)可能非常難以實現(xiàn)。

　　為了規(guī)避這一挑戰(zhàn)，研究人員一直在努力研究如何用更少的數(shù)據(jù)進(jìn)行更多的訓(xùn)練。基礎(chǔ)算法的進(jìn)步使得神經(jīng)網(wǎng)絡(luò)能夠更有效地使用數(shù)據(jù)。Carpenter說，在一些應(yīng)用程序中只對少量圖像進(jìn)行訓(xùn)練?？茖W(xué)家還可以利用轉(zhuǎn)移學(xué)習(xí)，即神經(jīng)網(wǎng)絡(luò)從一種數(shù)據(jù)類型獲得的分類能力應(yīng)用到另一種類型的能力。例如，F(xiàn)inkbeiner的團(tuán)隊已經(jīng)開發(fā)出一種算法，最初是根據(jù)形態(tài)學(xué)變化來預(yù)測細(xì)胞死亡。雖然研究人員訓(xùn)練它研究嚙齒動物細(xì)胞的圖像，但它首次接觸到人類細(xì)胞圖像時的準(zhǔn)確率達(dá)到了90％，而且隨著經(jīng)驗的增加，其準(zhǔn)確率達(dá)到99％。

　　在一些生物圖像識別工作中，GAS使用的算法最初是針對從互聯(lián)網(wǎng)上挖掘的數(shù)億個消費者圖像進(jìn)行訓(xùn)練的。研究人員隨后對這種訓(xùn)練進(jìn)行了改進(jìn)，使用了幾百種類似于他們希望研究的生物圖像。

　　GAS的研究科學(xué)家Michelle Dimon指出，深度學(xué)習(xí)帶來的另一個挑戰(zhàn)是計算機(jī)既不聰明又懶惰。它缺乏辨別生物學(xué)相關(guān)差異和正常差異的判斷力。她指出：“電腦很擅長查找批量變化。”因此，獲取將被輸入到深度學(xué)習(xí)算法中的數(shù)據(jù)，通常意味著對實驗設(shè)計和控制應(yīng)用的一個高門檻。GAS要求研究人員隨機(jī)將對照放置在細(xì)胞培養(yǎng)板上，以考慮諸如孵化器溫度等微妙的環(huán)境因素，并使用兩倍于生物學(xué)家可能使用的對照組。Dimon打趣道：“我們很難控制。”

　　Dimon說，這種危害強(qiáng)調(diào)了生物學(xué)家和計算機(jī)科學(xué)家共同設(shè)計融合深度學(xué)習(xí)的實驗的重要性。

　　盡管深度學(xué)習(xí)算法可以在沒有人類先入之見和過濾器的情況下評估數(shù)據(jù)，但Greene警告說，這并不意味著它們沒有偏見。訓(xùn)練數(shù)據(jù)可能會有偏差，例如，僅使用北歐人的基因組數(shù)據(jù)時。對這些數(shù)據(jù)進(jìn)行訓(xùn)練的深度學(xué)習(xí)算法將獲得嵌入的偏差，并在他們的預(yù)測中反映出來，從而導(dǎo)致不平等的病人護(hù)理。如果人類幫助驗證這些預(yù)測，就會對問題進(jìn)行潛在的檢查。但如果僅靠電腦來做出關(guān)鍵決策，這就會令人不安。Greene說:“把這些方法看作是增強(qiáng)人類比把這些方法想象成替代人類更好。”

　　接下來的挑戰(zhàn)就是，要準(zhǔn)確理解這些算法是如何構(gòu)建特征的。馬里蘭州巴爾的摩的Insilico醫(yī)學(xué)研究所的科學(xué)家Polina Mamoshina說，計算機(jī)科學(xué)家正在通過改變或調(diào)整模型中的個體特征來攻擊這個問題，然后研究這些微調(diào)如何改變預(yù)測的準(zhǔn)確性。但Greene警告說，不同的神經(jīng)網(wǎng)絡(luò)在同一問題上的工作方式不會以同樣的方式進(jìn)行。研究人員越來越關(guān)注能夠做出準(zhǔn)確又能解釋的預(yù)測算法。

　　Greene說:“我認(rèn)為，2018年高深度學(xué)習(xí)模式不會出現(xiàn)，但我希望我是錯的。”

第三十四屆CIO班招生
國際CIO認(rèn)證培訓(xùn)
首席數(shù)據(jù)官（CDO）認(rèn)證培訓(xùn)

責(zé)編：content

免責(zé)聲明：本網(wǎng)站（http://www.www.gypb.net/）內(nèi)容主要來自原創(chuàng)、合作媒體供稿和第三方投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
本網(wǎng)站刊載的所有內(nèi)容（包括但不僅限文字、圖片、LOGO、音頻、視頻、軟件、程序等）版權(quán)歸原作者所有。任何單位或個人認(rèn)為本網(wǎng)站中的內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，請及時通知本站，予以刪除。