隨著科學(xué)的發(fā)展,現(xiàn)在僅靠人類團(tuán)隊(duì)已經(jīng)不足以處理物理學(xué)和天文學(xué)實(shí)驗(yàn)所產(chǎn)生的海量信息。這些實(shí)驗(yàn)有時(shí)每天會(huì)產(chǎn)生多達(dá)數(shù)TB的數(shù)據(jù),而且這個(gè)數(shù)字還在增加。 Square Kilometer Array是一組預(yù)計(jì)將在本世紀(jì)20年代中期開啟的射電望遠(yuǎn)鏡陣列,它每年將產(chǎn)生的數(shù)據(jù)量相當(dāng)于現(xiàn)在整個(gè)互聯(lián)網(wǎng)的總數(shù)據(jù)流量。
數(shù)據(jù)狂潮的不斷高漲,讓許多科學(xué)家向AI尋求幫助。人工神經(jīng)網(wǎng)絡(luò)(即可以模擬大腦功能的神經(jīng)元的計(jì)算機(jī)網(wǎng)絡(luò))等AI系統(tǒng)可以通過(guò)最少的人工輸入,初步瀏覽大量數(shù)據(jù),并從中發(fā)現(xiàn)人類永遠(yuǎn)無(wú)法發(fā)現(xiàn)的模式。
當(dāng)然,最早使用計(jì)算機(jī)來(lái)輔助科學(xué)研究的活動(dòng)大約可追溯到75年前,至于對(duì)數(shù)據(jù)進(jìn)行研究,從中尋找有意義的模式,則在數(shù)千年前就已經(jīng)開始了。一些科學(xué)家認(rèn)為,機(jī)器學(xué)習(xí)和人工智能的最新技術(shù)進(jìn)展可能代表了一種全新的科學(xué)研究方法。
其中,一種名為“生成建模”的方法,有助于人們?cè)诨跀?shù)據(jù)觀察結(jié)果的不同解釋中找出最合理的理論。更重要的是,這個(gè)過(guò)程是在沒有任何預(yù)編程知識(shí),并不知曉所研究的系統(tǒng)的實(shí)際流程的情況下實(shí)現(xiàn)的。生成模型的支持者認(rèn)為,這可能是我們認(rèn)識(shí)宇宙的“第三條道路”。
假設(shè)我們不具備關(guān)于天體物理學(xué)的任何知識(shí),我們?cè)诙啻蟪潭壬峡梢灾粦{借數(shù)據(jù)本身,來(lái)重新發(fā)現(xiàn)這些知識(shí)?
傳統(tǒng)上,我們是通過(guò)觀察來(lái)了解自然的。比如Johannes Kepler在第谷布拉赫Tycho Brahe編制的行星位置表上進(jìn)行了仔細(xì)研究,試圖辨別出潛在的模式,最終推斷出行星在橢圓軌道上運(yùn)動(dòng)的結(jié)論??茖W(xué)也可以通過(guò)模擬方式向前發(fā)展。
天文學(xué)家可能會(huì)模擬銀河系及其鄰近的仙女座星系的運(yùn)動(dòng),并預(yù)測(cè)它們將在數(shù)十億年內(nèi)相互碰撞。觀察和模擬都有助于科學(xué)家提出假設(shè),然后通過(guò)進(jìn)一步的觀察進(jìn)行測(cè)試。而生成建模與這兩種方法都不一樣。
“(生成建模)基本上是‘觀察’和‘模擬’之間的第三種方法。”天文物理學(xué)家、生成模型支持者之一Kevin Schawinski說(shuō)道,他最近在瑞士蘇黎世聯(lián)邦理工學(xué)院工作。 “這種方法是解決問題的另一種途徑。”
一些科學(xué)家將生成建模等新技術(shù)視為傳統(tǒng)科學(xué)的動(dòng)力工具。但大多數(shù)人都認(rèn)為人工智能正在產(chǎn)生巨大影響,而且它在科學(xué)中的作用只會(huì)增長(zhǎng)。費(fèi)米國(guó)家加速器實(shí)驗(yàn)室的天體物理學(xué)家Brian Nord使用人工神經(jīng)網(wǎng)絡(luò)來(lái)研究宇宙,他們擔(dān)心,未來(lái)人類科學(xué)家所做的一切研究活動(dòng),都可以實(shí)現(xiàn)自動(dòng)化。 “這是一個(gè)令人不寒而栗的想法。”他說(shuō)。
GAN模型助天文學(xué)家攻克行星分類任務(wù)
自研究生畢業(yè)以來(lái),Schawinski就一直從事數(shù)據(jù)驅(qū)動(dòng)的科學(xué)研究。在攻讀博士學(xué)位期間,他曾面臨一個(gè)艱巨任務(wù):根據(jù)外表面對(duì)數(shù)千個(gè)星系進(jìn)行分類。因?yàn)檫@個(gè)任務(wù)并沒有現(xiàn)成的軟件可用,所以他決定利用眾包的方式——“銀河動(dòng)物園全民科學(xué)項(xiàng)目”由此誕生。
從2007年開始,普通計(jì)算機(jī)用戶可以記錄下自己關(guān)于某個(gè)星系屬于哪個(gè)類別的最佳猜測(cè),來(lái)幫助天文學(xué)家完成分類任務(wù),多數(shù)人的分類結(jié)果一般都是正確的。這個(gè)項(xiàng)目取得了成功,但是,Schawinski也指出,與AI相比,這個(gè)項(xiàng)目已經(jīng)過(guò)時(shí):“今天,掌握機(jī)器學(xué)習(xí)和云計(jì)算技術(shù)的才華橫溢的科學(xué)家,可以在一個(gè)下午完成整個(gè)項(xiàng)目的工作。”
Schawinski在2016年將注意力轉(zhuǎn)向生成建模的強(qiáng)大的新工具。從本質(zhì)上講,生成建模會(huì)詢問在滿足條件X的情況下,觀察到結(jié)果Y的可能性。這種方法已被證明非常有效且用途廣泛。
例如,為生成模型提供一組人臉圖像,每張臉都標(biāo)記有人的年齡。當(dāng)計(jì)算機(jī)程序梳理這些“訓(xùn)練數(shù)據(jù)”時(shí),會(huì)開始在較老的面部圖像之間建立聯(lián)系,并增加皺紋的可能性。最終,它可以對(duì)任何輸入的面部圖像進(jìn)行“老化”,也就是說(shuō),它可以預(yù)測(cè)任何年齡的特定面部圖像可能經(jīng)歷的真實(shí)變化。
在此類系統(tǒng)中,最著名的是“生成對(duì)抗網(wǎng)絡(luò)”(GAN)。在充分學(xué)習(xí)訓(xùn)練數(shù)據(jù)之后,GAN可以修復(fù)已經(jīng)損壞或丟失像素的圖像,或使模糊的照片變得清晰。GAN系統(tǒng)能夠?qū)W會(huì)通過(guò)競(jìng)爭(zhēng)來(lái)推斷圖像中缺失的信息(“對(duì)抗性”由此得名)。
GAN分為兩部分,一部分名為生成器,能夠生成虛假數(shù)據(jù),第二部分名為判別器,目標(biāo)是區(qū)分虛假數(shù)據(jù)和真實(shí)數(shù)據(jù)。隨著程序的運(yùn)行,兩部分的表現(xiàn)都會(huì)越來(lái)越好??赡苣阋呀?jīng)看過(guò)一些由GAN生成的超逼真的“面孔”,這些足以亂真人臉圖像最近已經(jīng)成為熱門話題。
更廣泛地講,生成建模系統(tǒng)利用數(shù)據(jù)集(通常是圖像數(shù)據(jù)集),并將每個(gè)數(shù)據(jù)分解為一組基本的抽象構(gòu)建模塊,科學(xué)家將其稱為數(shù)據(jù)的“潛在空間”。算法能夠利用元素潛在的空間,看看它會(huì)對(duì)原始數(shù)據(jù)造成什么影響,這有助于發(fā)現(xiàn)系統(tǒng)運(yùn)行的實(shí)際過(guò)程。
潛在空間的概念是抽象的,但可以做一個(gè)粗略的類比,想想當(dāng)你試圖確定一張人臉的性別時(shí),你的大腦在做些什么。也許你會(huì)注意發(fā)型、鼻子的形狀輪廓等要素,以及那些不好用語(yǔ)言輕易表達(dá)的特征。
計(jì)算機(jī)程序同樣在尋找數(shù)據(jù)中的顯著特征:雖然它不知道留著小胡子的臉是什么性別,但經(jīng)過(guò)數(shù)據(jù)集上的訓(xùn)練,其中一些圖像會(huì)被標(biāo)記為“男人”或“女人”,如果其中有些圖像有“小胡子”標(biāo)簽,系統(tǒng)就會(huì)很快推斷出一個(gè)“小胡子”與“性別”之間的聯(lián)系。
一家名為Modulos的AI公司的天體物理學(xué)家Kevin Schawinski認(rèn)為,一種名為“生成建模”的技術(shù)為我們提供了第三種了解宇宙的方法
在去年12月發(fā)表于《天文學(xué)和天體物理學(xué)》的論文中,Schawinski和同事Dennis Turp、Ce Zhang使用生成模型來(lái)研究星系在演化過(guò)程中所經(jīng)歷的物理變化。(他們使用的軟件對(duì)待潛在空間與生成對(duì)抗網(wǎng)絡(luò)有所不同,因此技術(shù)上并不算是GAN,但與之類似。)他們使用的模型創(chuàng)建了人工數(shù)據(jù)集,作為測(cè)試物理過(guò)程假設(shè)的一種方式。
對(duì)于Schawinski來(lái)說(shuō),關(guān)鍵問題是,有多少關(guān)于恒星和星系過(guò)程的信息可以僅從數(shù)據(jù)中挑出來(lái)。 “讓我們抹去我們所知道的關(guān)于天體物理學(xué)的一切,”他說(shuō)。 “我們可以在多大程度上重新發(fā)現(xiàn)這些知識(shí),只使用數(shù)據(jù)本身?”
首先,銀河系的圖像被縮小到潛伏空間中,然后,Schawinski調(diào)整該空間內(nèi)的一個(gè)元素,調(diào)整方式與星系環(huán)境中的特定變化相對(duì)應(yīng)。然后重新生成銀河系,看看出現(xiàn)了什么差異。
“現(xiàn)在就好比我有一臺(tái)機(jī)器,”他解釋道。“我可以拍攝一大堆最初處于低密度環(huán)境中的星系,并通過(guò)這個(gè)過(guò)程,讓他們看起來(lái)像是處在高密度環(huán)境中。”當(dāng)?shù)兔芏拳h(huán)境內(nèi)的星系被放置到高密度的環(huán)境中時(shí),它們的顏色會(huì)變得更紅,星系中的恒星會(huì)變得更加集中。 Schawinski說(shuō),這符合現(xiàn)有的星系觀測(cè)資料。
生成建模方法與傳統(tǒng)模擬方法有聯(lián)系,但二者之間有很大不同。 Schawinski說(shuō),模擬“基本上是由假設(shè)驅(qū)動(dòng)的”。 “我想我知道導(dǎo)致在系統(tǒng)中觀察到的所有現(xiàn)象背后的潛在物理定律是什么。我把所有的假設(shè)擺出來(lái),然后運(yùn)行模擬系統(tǒng)。然后問:運(yùn)行結(jié)果看起來(lái)像現(xiàn)實(shí)嗎?“
而在生成建模模式下,”在某種意義上,流程和思路與模擬方法是完全相反的。即:我們什么都不知道,我們不想假設(shè)任何事情。我們希望數(shù)據(jù)本身告訴我們,接下來(lái)可能會(huì)發(fā)生什么事情。“
不過(guò),在這類研究中,生成建模系統(tǒng)的成功并不意味著天文學(xué)家和研究生的工作就是多余的但確實(shí)代表了天體物理學(xué)對(duì)象和過(guò)程研究方式的某種轉(zhuǎn)變。“天文學(xué)并不是完全自動(dòng)化的科學(xué) - 但它表明我們能夠至少部分構(gòu)建推進(jìn)科學(xué)過(guò)程自動(dòng)化的工具。”Schawinski說(shuō)。
不過(guò),生成模型顯然很強(qiáng)大,但它是否真正代表了一種新的科學(xué)方法還有待商榷。
對(duì)于紐約大學(xué)和Flatiron研究所的宇宙學(xué)家David Hogg來(lái)說(shuō),這項(xiàng)技術(shù)令人印象深刻,但最終只是從數(shù)據(jù)中提取模式的一種非常復(fù)雜的方法——這也是天文學(xué)家?guī)讉€(gè)世紀(jì)以來(lái)一直在做的事情。換句話說(shuō),這是一種先進(jìn)的觀察和分析形式。
Hogg的工作嚴(yán)重依賴人工智能,他一直在使用神經(jīng)網(wǎng)絡(luò)根據(jù)恒星的光譜對(duì)其進(jìn)行分類,并利用數(shù)據(jù)驅(qū)動(dòng)模型推斷出恒星的其他物理屬性。但是他認(rèn)為他的工作是經(jīng)過(guò)實(shí)踐檢驗(yàn)的科學(xué)。
Hogg表示:
我不認(rèn)為這是第三種方式,我只是認(rèn)為,我們作為一個(gè)社區(qū),在如何使用數(shù)據(jù)方面正變得更加成熟。特別是,我們?cè)诒容^數(shù)據(jù)方面做得越來(lái)越好。但在我看來(lái),我的工作仍完全處于觀察模式。
人工智能系統(tǒng)就是“勤勞的助理”
無(wú)論它們?cè)诟拍钌鲜欠裥路f,人工智能和神經(jīng)網(wǎng)絡(luò)很明顯地已經(jīng)在當(dāng)代天文學(xué)和物理學(xué)研究中發(fā)揮了關(guān)鍵作用。
在海德堡理論研究所(Heidelberg Institute for Theoretical Studies),物理學(xué)家Kai Polsterer領(lǐng)導(dǎo)的天體信息學(xué)小組(這是一個(gè)研究天體物理學(xué)的以數(shù)據(jù)為中心的新方法的研究小組),最近一直在使用機(jī)器學(xué)習(xí)算法從星系數(shù)據(jù)集中提取紅移信息,這在以前是一項(xiàng)艱巨的任務(wù)。
Polsterer將這些基于人工智能的新系統(tǒng)視為“勤奮的助手”,它們可以連續(xù)數(shù)小時(shí)梳理數(shù)據(jù),而不會(huì)對(duì)工作條件感到厭倦或抱怨。 他說(shuō),這些系統(tǒng)可以完成所有枯燥乏味的工作,讓自己有時(shí)間去做那些酷而有趣的科學(xué)。
但這些基于AI的系統(tǒng)并非完美。Polsterer警告說(shuō):
尤其是這些算法只能做它們被訓(xùn)練過(guò)的事情。系統(tǒng)對(duì)于輸入是“不可知的”。給它一個(gè)星系,這個(gè)軟件就能估計(jì)出它的紅移和年齡——但是給這個(gè)系統(tǒng)輸入一張自拍照,或者一張腐爛的魚的照片,它也會(huì)輸出一個(gè)(非常錯(cuò)誤的)年齡。最終,人類科學(xué)家的監(jiān)督仍然是至關(guān)重要的。這個(gè)問題又回到了你身上。你是負(fù)責(zé)解釋的人。
而費(fèi)米實(shí)驗(yàn)室(Fermilab)的Nord則警告說(shuō):
神經(jīng)網(wǎng)絡(luò)不僅要傳遞結(jié)果,還要傳遞誤差條,這一點(diǎn)至關(guān)重要,就像每個(gè)大學(xué)生所接受的訓(xùn)練一樣。在科學(xué)領(lǐng)域,如果你做了測(cè)量,卻不報(bào)告相關(guān)誤差的估計(jì),沒有人會(huì)認(rèn)真對(duì)待這樣的結(jié)果。
與許多人工智能研究人員一樣,Nord也擔(dān)心神經(jīng)網(wǎng)絡(luò)產(chǎn)生的結(jié)果的不可穿透性(impenetrability);通常,一個(gè)系統(tǒng)會(huì)給出一個(gè)答案,但不提供該結(jié)果的過(guò)程。
然而,并非所有人都認(rèn)為缺乏透明度(transparency)必然是個(gè)問題。
法國(guó)CEA Saclay理論物理研究所的研究員Lenka Zdeborova指出,人類的直覺往往同樣是不可理解的。你看了一張照片,立刻認(rèn)出了一只貓——“但你不知道你是怎么知道的,”她說(shuō)。“從某種意義上說(shuō),你自己的大腦就是一個(gè)黑匣子。”
不僅天體物理學(xué)家和宇宙學(xué)家正在向人工智能推動(dòng)的數(shù)據(jù)驅(qū)動(dòng)科學(xué)遷移。 像Perimeter理論物理研究所和安大略滑鐵盧大學(xué)的Roger Melko這樣的量子物理學(xué)家已經(jīng)使用神經(jīng)網(wǎng)絡(luò)來(lái)解決該領(lǐng)域中一些最棘手和最重要的問題,比如如何表示描述多粒子系統(tǒng)的數(shù)學(xué)“波函數(shù)”。
AI是必不可少的,因?yàn)镸elko稱之為“維數(shù)的指數(shù)性詛咒。”也就是說(shuō),波函數(shù)形式的可能性隨著它描述的系統(tǒng)中的粒子數(shù)量呈指數(shù)增長(zhǎng)。難度類似于在國(guó)際象棋或圍棋這樣的游戲中找出最好的走法:你試著往前看下一個(gè)走法,想象你的對(duì)手會(huì)玩什么,然后選擇最好的對(duì)策,但每走一步,可能性就會(huì)激增。
當(dāng)然,人工智能系統(tǒng)已經(jīng)掌握了這兩種游戲——幾十年前的國(guó)際象棋,以及2016年的圍棋,當(dāng)時(shí)一個(gè)名為AlphaGo的人工智能系統(tǒng)擊敗了一名頂級(jí)人類棋手。它們同樣適用于量子物理中的問題,Melko說(shuō)。
機(jī)器的思維
無(wú)論Schawinski是否正確地宣稱自己已經(jīng)找到了做科學(xué)的“第三條道路”,或者像Hogg所說(shuō)的那樣,它只是傳統(tǒng)的觀察和數(shù)據(jù)分析“類固醇”,很明顯AI正在改變科學(xué)發(fā)現(xiàn)的味道,而且肯定在加速它的發(fā)展。
人工智能革命將在科學(xué)上走多遠(yuǎn)?
當(dāng)然,偶爾也會(huì)有人對(duì)“機(jī)器人科學(xué)家”的成就夸夸其談。十年前,一位名叫亞當(dāng)(Adam)的人工智能機(jī)器人化學(xué)家研究了面包酵母的基因組,并找出了制造特定氨基酸的基因。
最近,格拉斯哥大學(xué)(University of Glasgow)的化學(xué)家Lee Cronin一直在使用機(jī)器人隨機(jī)混合化學(xué)品,看看形成了什么樣的新化合物。通過(guò)質(zhì)譜儀,核磁共振儀和紅外光譜儀實(shí)時(shí)監(jiān)測(cè)反應(yīng),系統(tǒng)最終學(xué)會(huì)預(yù)測(cè)哪種組合最具反應(yīng)性。Lee Cronin說(shuō),即使不能進(jìn)一步發(fā)現(xiàn),機(jī)器人系統(tǒng)也可以讓化學(xué)家將研究速度提高90%左右。
去年,蘇黎世聯(lián)邦理工學(xué)院的另一組科學(xué)家利用神經(jīng)網(wǎng)絡(luò)從一組數(shù)據(jù)中推導(dǎo)出物理定律。他們的系統(tǒng)類似于機(jī)器人開普勒(kepler),通過(guò)記錄從地球上看到的太陽(yáng)和火星在天空中的位置,重新發(fā)現(xiàn)了太陽(yáng)系的日心模型,并通過(guò)觀察碰撞的球體,得出了動(dòng)量守恒定律。
由于物理定律通??梢杂貌恢挂环N方式表達(dá),研究人員想知道這個(gè)系統(tǒng)是否會(huì)提供新的方法(也許是更簡(jiǎn)單的方法)來(lái)思考已知的定律。
這些都是AI啟動(dòng)科學(xué)發(fā)現(xiàn)過(guò)程的例子,盡管在每種情況下,我們都可以辯論新方法的革命性。
也許最有爭(zhēng)議的問題是,從數(shù)據(jù)中可以收集多少信息。在這個(gè)龐大的(并且不斷增長(zhǎng)的)成堆的時(shí)代,這是一個(gè)迫切的問題。
在“The Why of Why”(2018年)一書中,計(jì)算機(jī)科學(xué)家Judea Pearl和科學(xué)作家Dana Mackenzie聲稱數(shù)據(jù)“非常愚蠢。”他們寫道:
關(guān)于因果關(guān)系的問題“永遠(yuǎn)無(wú)法從數(shù)據(jù)中回答。無(wú)論何時(shí),當(dāng)你看到一篇論文或一項(xiàng)研究以一種非模型的方式分析數(shù)據(jù)時(shí),你都可以肯定,這項(xiàng)研究的輸出只會(huì)進(jìn)行總結(jié),或許還會(huì)進(jìn)行轉(zhuǎn)換,但不會(huì)解釋數(shù)據(jù)。
Schawinski同情Pearl的立場(chǎng),但他把“單獨(dú)處理數(shù)據(jù)”的想法形容為“有點(diǎn)像稻草人”。他說(shuō),他從來(lái)沒有聲稱自己能以這種方式推斷因果關(guān)系。“我只是說(shuō),我們可以用數(shù)據(jù)做比通常更多的事情。”
另一個(gè)經(jīng)常聽到的觀點(diǎn)是,科學(xué)需要?jiǎng)?chuàng)造力,而至少到目前為止,我們還不知道如何將其編程到機(jī)器中。Polsterer說(shuō):
每次你需要?jiǎng)?chuàng)造力的時(shí)候,你都需要一個(gè)人。要有創(chuàng)造力,你必須討厭無(wú)聊。我不認(rèn)為電腦會(huì)感到無(wú)聊。另一方面,像“creative”和“inspired”這樣的詞經(jīng)常被用來(lái)描述像“Deep Blue”和“AlphaGo”這樣的程序。描述機(jī)器“思想”內(nèi)部的斗爭(zhēng)反映在我們探索自己思維過(guò)程的困難上。
Schawinski最近離開了學(xué)術(shù)界的私營(yíng)部門,他現(xiàn)在經(jīng)營(yíng)著一家名為Modulos的初創(chuàng)公司,該公司聘請(qǐng)了許多ETH科學(xué)家,據(jù)其網(wǎng)站稱,該公司“在人工智能和機(jī)器學(xué)習(xí)發(fā)展風(fēng)暴的中心”工作。
無(wú)論當(dāng)前的人工智能技術(shù)和成熟的人工智能之間存在何種障礙,他和其他專家都認(rèn)為,機(jī)器正準(zhǔn)備承擔(dān)越來(lái)越多的人類科學(xué)家的工作。是否存在限制還有待觀察。
Schawinski最后表示:
在可預(yù)見的未來(lái),是否有可能制造出一臺(tái)機(jī)器,能夠發(fā)現(xiàn)當(dāng)今最聰明的人類用生物硬件無(wú)法獨(dú)立完成的物理或數(shù)學(xué)?科學(xué)的未來(lái)最終必然是由機(jī)器驅(qū)動(dòng)的嗎?我不知道。這是個(gè)好問題。
英文原文:
第三十四屆CIO班招生
國(guó)際CIO認(rèn)證培訓(xùn)
首席數(shù)據(jù)官(CDO)認(rèn)證培訓(xùn)
責(zé)編:content
免責(zé)聲明:本網(wǎng)站(http://www.www.gypb.net/)內(nèi)容主要來(lái)自原創(chuàng)、合作媒體供稿和第三方投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
本網(wǎng)站刊載的所有內(nèi)容(包括但不僅限文字、圖片、LOGO、音頻、視頻、軟件、程序等)版權(quán)歸原作者所有。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),請(qǐng)及時(shí)通知本站,予以刪除。