近年,從圍棋到人類水平的語音識別,人工智能(AI)研究者終于在他們幾十年一直努力探索的領(lǐng)域取得了突破。取得突破進展的關(guān)鍵一點是研究者們可以收集巨量的數(shù)據(jù)并「學(xué)習」這些數(shù)據(jù),從而將錯誤率降低到可接受范圍以內(nèi)。
簡而言之,大數(shù)據(jù)大為改觀了人工智能的發(fā)展,將其推到一個幾乎難以置信的高度。
區(qū)塊鏈技術(shù)同樣能夠變革人工智能——當然以它自己的特定方式進行。部分將區(qū)塊鏈用于人工智能方式目前還很單一,比如在人工智能模型上進行審計跟蹤(audit trail)。有些應(yīng)用幾乎是難以置信的,比如擁有自己的人工智能——人工智能去中心化自治組織(AI DAO)。這些都是發(fā)展的機會。這篇文章將具體探討這些應(yīng)用。
作為藍海數(shù)據(jù)庫的區(qū)塊鏈(blockchain)
在討論這些應(yīng)用之前,我們先來了解一下區(qū)塊鏈與傳統(tǒng)大數(shù)據(jù)的分布式數(shù)據(jù)庫(比如 MongoDB)之間的差異。
我們可以將區(qū)塊鏈視為「藍海」數(shù)據(jù)庫:它們逃離了現(xiàn)有市場上有鯊魚競爭的「紅?!?,而是沒有市場競爭的藍海。藍海的著名例子是視頻游戲主機 Wii(妥協(xié)了原始性能,但添加了新的互動模式),或 Yellow Tail 葡萄酒(忽略了葡萄酒愛好者矯揉造作的繁復(fù)規(guī)范,使葡萄酒更容易被啤酒愛好者接受)。
根據(jù)傳統(tǒng)的數(shù)據(jù)庫標準,傳統(tǒng)的區(qū)塊鏈(如比特幣)是糟糕的:低吞吐量、低容量、高延遲、糟糕的查詢支持等。但在藍海思維中,這是可以接受的,因為區(qū)塊鏈引入了三個新特性:去中心化/共享控制、不變性/審計跟蹤和本地資產(chǎn)/交換。受比特幣啟發(fā)的人們樂于忽視傳統(tǒng)的以數(shù)據(jù)庫為主的缺點,因為這些新的好處有可能以全新的方式影響整個行業(yè)和社會。
這三個新的「區(qū)塊鏈」數(shù)據(jù)庫特征對于人工智能應(yīng)用也有潛在的借鑒意義。但是大多數(shù)實際的人工智能工作涉及大量的數(shù)據(jù),如大數(shù)據(jù)集訓(xùn)練或高吞吐量流處理(stream processing)。因此,對于區(qū)塊鏈在人工智能領(lǐng)域的應(yīng)用,需要具有大數(shù)據(jù)可擴展性和查詢的區(qū)塊鏈技術(shù)。像 BigchainDB 這樣的新興技術(shù)及其公共網(wǎng)絡(luò) IPDB(Internet Pinball Machine Database)正是如此。這使得獲得區(qū)塊鏈的好處時不再需要舍棄傳統(tǒng)的大數(shù)據(jù)數(shù)據(jù)庫的優(yōu)點。
人工智能區(qū)塊鏈的概述
大規(guī)模的區(qū)塊鏈技術(shù)解鎖了其在人工智能應(yīng)用上的潛力。從區(qū)塊鏈的三點好處開始,我們來探討一下這些潛力。
這些區(qū)塊鏈的好處為人工智能實踐者帶來了以下機會:
去中心化/共享控制激勵了數(shù)據(jù)共享:
(1)帶來更多的數(shù)據(jù),因此可以訓(xùn)練出更好的模型。
(2)帶來新的定性數(shù)據(jù),因此新的定性模型。
(3)允許共享控制人工智能的訓(xùn)練數(shù)據(jù)和模型。
不變性/審計跟蹤:
(4)為訓(xùn)練/測試數(shù)據(jù)和模型提供了保證,提高數(shù)據(jù)和模型的可信度。數(shù)據(jù)也需要聲譽。
本地資產(chǎn)/交換:
(5)使訓(xùn)練/測試數(shù)據(jù)和模型成為知識產(chǎn)權(quán)(Intellectual Property/IP)資產(chǎn),這可以帶來去中心化的數(shù)據(jù)和模型交換。能更好地控制數(shù)據(jù)的上游使用。
還有一個機會:(6)人工智能與區(qū)塊鏈解鎖人工智能去中心化自治組織(AI DAO/Decentralized Autonomous Organizations)的可能性。這些人工智能可以積累財富。在很大程度上,它們就是軟件即服務(wù)(Software-as-a-Service)。
區(qū)塊鏈還可以以更多的方式幫助人工智能。反過來,人工智能可以有許多方法幫助區(qū)塊鏈,如挖掘區(qū)塊鏈數(shù)據(jù)(例如 Silk Road 調(diào)查)。這是另外的討論話題: )
許多這些機會是關(guān)于人工智能與數(shù)據(jù)的特殊關(guān)系。讓我們先來探討一下。在此之后,我們將更詳細地探討區(qū)塊鏈在人工智能領(lǐng)域的應(yīng)用。
人工智能 & 數(shù)據(jù)
在這里,我將描述現(xiàn)代人工智能為了產(chǎn)生好的結(jié)果是怎樣利用大量數(shù)據(jù)的。(雖然不總是這樣,但它很常見并值得描述。)
「傳統(tǒng)」人工智能 & 數(shù)據(jù)的歷史
當我在 90 年代開始做人工智能研究時,一個典型的方法是:
找到一個固定的數(shù)據(jù)集(通常很小)。
設(shè)計一種算法來提高性能,例如為支持向量機分類器設(shè)計一個新的核函數(shù),以提高 AUC 值。
在會議或期刊上發(fā)表該算法?!缸钚】砂l(fā)表的改進程度」只需要相對提高 10%,只要你的算法本身足夠花哨。如果你的提高程度在 2 倍-10 倍 之間,你可以發(fā)表到該領(lǐng)域最好的期刊了,特別是如果算法真的很花哨(復(fù)雜)的話。
如果這聽起來很學(xué)術(shù),那是因為它本身就很學(xué)術(shù)。大多數(shù)人工智能工作仍然在學(xué)術(shù)界,雖然有實際的應(yīng)用場景。在我的經(jīng)驗中,許多人工智能子領(lǐng)域中都是這樣的,包括神經(jīng)網(wǎng)絡(luò)、模糊系統(tǒng)(fuzzy system)、進化計算(evolutionary computation),甚至不那么人工智能的技術(shù),如非線性規(guī)劃或凸優(yōu)化。
在我第一篇發(fā)表的論文《Genetic Programming with Least Squares for Fast, Precise Modeling of Polynomial Time Series》(1997)中,我自豪地展示了我新發(fā)明的算法與最先進的神經(jīng)網(wǎng)絡(luò)、遺傳編程等相比在最小的固定數(shù)據(jù)集上有最好的結(jié)果。
走向現(xiàn)代人工智能 & 數(shù)據(jù)
但是,世界變化了。2001 年,微軟研究人員 Banko 和 Brill 發(fā)表了一篇有著顯著成果的論文。首先,他們描述了大多數(shù)自然語言處理領(lǐng)域的工作基于小于 100 萬字的小數(shù)據(jù)集上的情況。在這種情況下,對于舊/無聊/不那么花哨的算法,錯誤率為 25%,如樸素貝葉斯(Naive Bayes)和感知器(Perceptron),而花哨的較新的基于記憶的算法(memory-based algorithms)實現(xiàn)了 19%的錯誤率。這是下面最左邊的四個數(shù)據(jù)點。
到目前為止,還沒有什么讓人驚訝的。但是,Banko 和 Brill 揭示了一些不同尋常的東西:當你添加更多的數(shù)據(jù)——不僅僅是一點數(shù)據(jù),而是多達數(shù)倍的數(shù)據(jù)——并保持算法相同,那么錯誤率會持續(xù)下降很多。到數(shù)據(jù)集大到三個數(shù)量級時,誤差小于 5%。在許多領(lǐng)域,這是 18%到 5%之間的差異,但是只有后者對于實際應(yīng)用是足夠好的。
此外,最好的算法是最簡單的;最糟糕的算法是最花哨的。來自 20 世紀 50 年代的無聊的感知器算法正在擊敗最先進的技術(shù)。
現(xiàn)代人工智能 & 數(shù)據(jù)
Banko 和 Brill 并不是唯一發(fā)現(xiàn)這個規(guī)律的人。例如,在 2007 年,谷歌研究人員 Halevy、Norvig 和 Pereira 發(fā)表了一篇文章,顯示數(shù)據(jù)可以如何「不合理地有效」跨越許多人工智能領(lǐng)域。
這就像原子彈一樣沖擊了人工智能領(lǐng)域。
數(shù)據(jù)才是關(guān)鍵!
于是收集更多的數(shù)據(jù)的競賽開始了。需要大量的努力才能獲得好數(shù)據(jù)。如果你有資源,就可以得到數(shù)據(jù)。有時甚至可以鎖定數(shù)據(jù)。在這個新世界里,數(shù)據(jù)是壕溝,人工智能算法是一種商品。出于這些原因,「更多數(shù)據(jù)」是谷歌、Facebook 等公司的關(guān)鍵。
「越多數(shù)據(jù),越多財富」——每個人
一旦你了解這些動態(tài),具體行動就有了簡單的解釋。谷歌收購衛(wèi)星成像公司不是因為它喜歡衛(wèi)星圖像;而谷歌又開放了 TensorFlow。
深度學(xué)習直接適用于這種情境:如果給定一個足夠大的數(shù)據(jù)集,它能弄清楚如何獲取相互影響和潛在變量。有趣的是,如果給予相同的大規(guī)模數(shù)據(jù)集,來自上世紀 80 年代的反向傳播神經(jīng)網(wǎng)絡(luò)有時能與最新的技術(shù)媲美。參考論文《Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition》。所以說數(shù)據(jù)才是關(guān)鍵。
作為一個人工智能研究員我自己成熟的年齡是類似的。當我遇到現(xiàn)實世界的問題時,我學(xué)會了如何吞下我的驕傲,放棄「炫酷」的算法,僅僅滿足能夠解決手頭上問題,并學(xué)會了熱愛數(shù)據(jù)和規(guī)模。我們將重心從自動化的創(chuàng)意設(shè)計轉(zhuǎn)向了「無聊」的參數(shù)優(yōu)化;同時當用戶要求我們從 10 個變量增加到 1000 和變量時,我們在匆忙應(yīng)對中變得不那么無聊——我的第一家公司 ADA(1998–2004)的情況就是這樣。我們將重心從華麗的建模方法轉(zhuǎn)移到超級簡單但可完全擴展的機器學(xué)習算法(如 FFX);當用戶要求從 100 個變量增加到 100000 個,從 100 億蒙特卡洛樣本增加到 10 億(有效樣本),我們同樣不無聊——這發(fā)生在我的第二家公司 Solido(2004—至今)。即使是我第三家也是目前的公司的產(chǎn)品 BigchainDB,也體現(xiàn)了對規(guī)模的需要(2013—至今)。擴展功能,擴大規(guī)模。
機會 1:數(shù)據(jù)共享→更好的模型
總之:去中心化/共享控制能促進數(shù)據(jù)共享,這反過來又帶來更好的模型、更高的利潤/更低的成本/等。闡述如下:
人工智能熱衷數(shù)據(jù)。數(shù)據(jù)越多,模型越好。然而,數(shù)據(jù)往往是孤立的,尤其是在這個新世界里,數(shù)據(jù)可能是難以逾越的鴻溝。
但是如果有足夠的正面效益,區(qū)塊鏈鼓勵傳統(tǒng)的獨立體間數(shù)據(jù)共享。區(qū)塊鏈的去中心化本質(zhì)鼓勵數(shù)據(jù)共享:如果沒有單一的實體控制存儲數(shù)據(jù)的基礎(chǔ)設(shè)施,共享就會有更少的沖突。之后我會舉出更多好處。
數(shù)據(jù)共享可能發(fā)生在一個企業(yè)中(如在區(qū)域辦公室)、一個生態(tài)系統(tǒng)內(nèi)(如一個「財團」數(shù)據(jù)庫)或整個星球(例如共享行星數(shù)據(jù)庫,即公開區(qū)塊鏈)。
下面給出了每個對應(yīng)的例子:
企業(yè)內(nèi):使用區(qū)塊鏈技術(shù)來合并來自不同區(qū)域辦公室的數(shù)據(jù),因為它能降低企業(yè)審核自己數(shù)據(jù)的成本,并和審計員共享數(shù)據(jù)。隨著新的數(shù)據(jù)到位,企業(yè)可以建立人工智能模型,例如,相比以前只建立在區(qū)域辦公室水平的模型,新模型能更好地預(yù)測客戶流失的模型。每個區(qū)域辦公室的「數(shù)據(jù)集市」?
生態(tài)系統(tǒng)內(nèi):競爭對手(例如,銀行或唱片公司)過去永遠不會分享他們的數(shù)據(jù)。但現(xiàn)在可能坦率地展示,結(jié)合幾個銀行的數(shù)據(jù),可以做更好的模型以預(yù)防信用卡欺詐?;蛘吖?yīng)鏈機構(gòu)通過區(qū)塊鏈共享數(shù)據(jù),對供應(yīng)鏈中更早地數(shù)據(jù)使用人工智能,可以更好地確定在供應(yīng)鏈中導(dǎo)致失敗的根本原因。例如,大腸桿菌的菌株究竟出現(xiàn)在哪里?
在整個星球范圍內(nèi)(公共區(qū)塊鏈數(shù)據(jù)庫):考慮不同生態(tài)系統(tǒng)之間的數(shù)據(jù)共享(例如能源使用數(shù)據(jù)+汽車零部件供應(yīng)鏈數(shù)據(jù));或個人參與者在一個行星尺度的生態(tài)系統(tǒng)(如網(wǎng)絡(luò))。更多的數(shù)據(jù)來源可以改善模型。例如,在中國一些工廠能源使用量的峰值可能與非法汽車零部件花了一天在市場運輸有關(guān)??偟膩碚f,我們看到公司匯總數(shù)據(jù),進行洗白,重新包裝并出售的行徑;從 Bloomberg 終端到幾十(或幾百個)初創(chuàng)企業(yè)通過 http APIs 銷售數(shù)據(jù)。我在稍后闡述這一未來。
敵人們共享他們的數(shù)據(jù)來喂養(yǎng)一個人工智能。2016 多么有趣!
機會 2:數(shù)據(jù)共享→新模型
在某些情況下,當獨立的數(shù)據(jù)被合并,你不只是得到一個更好的數(shù)據(jù)集,還得到一個新的數(shù)據(jù)集。這能帶來全新的模型,從中你可以收集新的見解、進行新的業(yè)務(wù)應(yīng)用。也就是說,你可以做一些你以前不能做的事情。
這里有一個用于識別鉆石欺詐例子。如果你是一家提供鉆石保險的銀行,你想開發(fā)一個識別鉆石是否欺詐的分類器。在地球上有四個值得信賴的鉆石認證實驗室(當然取決于你問誰)。如果你只能訪問其中一個實驗室的鉆石數(shù)據(jù),那么你就看不到其他三家的數(shù)據(jù),你的分類器可能很容易把其他家的鉆石標記為欺詐(見下圖,左)。你的誤報率會使你的系統(tǒng)不可用。
相反如果區(qū)塊鏈促進四個認證實驗室共享他們的數(shù)據(jù),你就有所有的合法數(shù)據(jù),從利用它們你將建立一個分類器(右下)。任何輸入的鉆石,例如在 eBay 上看到,將遍歷系統(tǒng),并與分類器中的每一類進行比較。該分類器可以檢測真實的欺詐行為,避免誤報,從而降低誤報率,使保險供應(yīng)商和認證實驗室受益。這可以簡單地作為一個查找框,即不需要人工智能。但使用人工智能進一步提高了它,例如基于顏色、克拉預(yù)測價格,然后用「價格和價值的接近程度」作為主要欺詐分類器的輸入。
這里的第二個例子是,去中心化系統(tǒng)中的一個適當?shù)?token 激勵機制(token-incentive scheme)可以激勵先前未標記的數(shù)據(jù)集得到標記,或者是以一個更經(jīng)濟的方式進行標記。這基本上就是去中心化的 Mechanical Turk(亞馬遜的眾包服務(wù)平臺)。有了新標簽,我們就得到了新數(shù)據(jù)集;我們使用新數(shù)據(jù)集進行訓(xùn)練以獲得新模型。第三個例子是,token 激勵機制可能會導(dǎo)致來自物聯(lián)網(wǎng)設(shè)備的直接數(shù)據(jù)輸入。這些設(shè)備控制數(shù)據(jù)并可以將其交換為資產(chǎn),比如能源。同樣地,這個新數(shù)據(jù)可能會帶來新模型。
囤積 vs 分享?此處的兩個相反動機之間有一個緊張關(guān)系。一個是囤積數(shù)據(jù)——即「數(shù)據(jù)是新護城河」的觀點;另一個是共享數(shù)據(jù),為了得到更好的/新的模式。分享行為必須要有一個超過「護城河」效益的足夠驅(qū)動力。技術(shù)驅(qū)動力是得到更好的模式或新的模式,但這個驅(qū)動力必須要有商業(yè)價值??赡軒淼睦姘ń档驮牧匣蚬?yīng)鏈中的保險儲蓄詐騙;將 Mechanical Turk 作為賺錢副業(yè);數(shù)據(jù)/模型交換;或是對抗強大的核心玩家的集體行動,就像唱片公司合力對抗蘋果的 iTunes 一樣,等等;它需要創(chuàng)造性的商業(yè)策略。
中心化 vs 去中心化?即使一些組織選擇分享數(shù)據(jù),他們也可以在無需區(qū)塊鏈技術(shù)的情況下這樣做。例如,他們可以簡單地將其囤入 S3 實例中并提供出 API。但在某些情況下,去中心化帶來了新的好處。首先是基礎(chǔ)設(shè)施的直接共享,這樣共享聯(lián)盟中的任一組織就不會自己控制所有的「共享數(shù)據(jù)」。(這在幾年前是一個主要的障礙,那時唱片公司嘗試過為一個公共注冊系統(tǒng)而合作。)另一個好處是讓數(shù)據(jù) & 模型轉(zhuǎn)變?yōu)橘Y產(chǎn)變得更加容易,然后這樣可以進行外部授權(quán)以獲利。我下文會詳細闡述這一點。
如前所述,數(shù)據(jù) & 模型共享會發(fā)生在三個層次:在一家企業(yè)內(nèi)部(跨國公司的情況比你想象的要難);在一個生態(tài)系統(tǒng)或聯(lián)合體中;或在這個星球中(相當于成為一個公用事業(yè))。讓我們更深入地探索這個行星尺度的分享吧。
機會 2A:行星層次的新數(shù)據(jù) → 行星層次的新見解
整個星球?qū)用娴臄?shù)據(jù)共享可能是最有趣的。讓我們進一步深入這個問題。
IPDB 是全球范圍的結(jié)構(gòu)化數(shù)據(jù),而不是零碎的。將萬維網(wǎng)視為互聯(lián)網(wǎng)上的文件系統(tǒng);IPDB 是其數(shù)據(jù)庫副本。(我認為我們沒有看到更多相關(guān)工作的原因,在于語義上的 Web 工作試圖以升級文件系統(tǒng)的角度去實現(xiàn)它。但通過「升級」文件系統(tǒng)來建立數(shù)據(jù)庫是相當困難的!如果從一開始就說你正在建立一個數(shù)據(jù)庫并設(shè)計它之類的話,這樣更有效果。)「全局變量(Global variable)」會得到更加字面上的解釋 : )(注:global 也有「全球」的意思)
那么,當我們有一個行星尺度的、像 IPDB 那樣的數(shù)據(jù)庫共享服務(wù),或是怎樣一番景象?我們有幾個參考點。
第一個參考點是,在企業(yè)界的公共數(shù)據(jù)管理與重新包裝使其更易被消費方面,從簡單的天氣或網(wǎng)絡(luò)時間的 API,到股票和貨幣之類的金融數(shù)據(jù) API,最近已經(jīng)有一個十億美元的市場了。想象一下,所有這些數(shù)據(jù)都可通過一個單一的數(shù)據(jù)庫以一種類似的結(jié)構(gòu)化方式(即使只是一個 API 的通行證)進行訪問。就好像有了 1000 個彭博社。不用擔心受制于某個單一的實體。
第二個參考點來自于區(qū)塊鏈,即通過一個區(qū)塊鏈來「oraclize」外部數(shù)據(jù)使其易于消費的概念。但我們可以 oraclize 一切。去中心化的彭博社只是開始。
總體而言,我們得到了數(shù)據(jù)集與數(shù)據(jù)源多樣性的一個全新規(guī)模。因此從性質(zhì)上講,我們有了新數(shù)據(jù)。行星層次的結(jié)構(gòu)化數(shù)據(jù)。由此從性質(zhì)上講,我們可以建立新的模型,使得之前沒有聯(lián)系的輸入 & 輸出之間產(chǎn)生關(guān)聯(lián)。有了模型,我們將獲得性質(zhì)上的新見解。
我希望此處可以說得更具體一些,但是它太新了,我想不出任何例子。不過,它們會出現(xiàn)的!
還會有一個 Bot 角度的。我們一直假定區(qū)塊鏈 API 的主要消費者會是人類。但如果是機器呢?現(xiàn)代 DNS 的創(chuàng)造者 David Holtzman 最近說,「IPDB 是人工智能的飼料(kibbles)」。分析一下,這是由于 IPDB 實現(xiàn)并鼓勵了行星層次的數(shù)據(jù)共享,而人工智能實在是很喜歡吃數(shù)據(jù)。
機會 3:數(shù)據(jù) & 模型中的審計跟蹤使預(yù)測結(jié)果更加值得信賴
此應(yīng)用針對的是這樣一個事實:如果你使用垃圾數(shù)據(jù)進行訓(xùn)練,那么你將得到一個垃圾模型。數(shù)據(jù)測試同理:垃圾進,垃圾出。
垃圾可能來自于惡意行事者/可能篡改了數(shù)據(jù)的拜占庭式故障。想一下大眾汽車的排放丑聞。垃圾也可能來自于無惡意的演員/崩潰式故障,例如有缺陷的物聯(lián)網(wǎng)傳感器、一個出錯的輸入數(shù)據(jù),或是環(huán)境輻射引起的一點波動(沒有良好的糾錯行為)。
你怎么知道 X / y 訓(xùn)練數(shù)據(jù)沒有缺陷?現(xiàn)場使用呢,在現(xiàn)場輸入的數(shù)據(jù)上運行模型的情況?那么模型預(yù)測(yhat)呢?簡而言之:進入模型以及來自模型的數(shù)據(jù)都經(jīng)歷了什么?數(shù)據(jù)也要名譽。
區(qū)塊鏈技術(shù)可以給以幫助。下面講具體做法。在過程的每一步中都建立模型,并在該領(lǐng)域運行模型,該數(shù)據(jù)的創(chuàng)造者可以簡單地為模型加上區(qū)塊鏈數(shù)據(jù)庫的時間戳,包括數(shù)字簽字以聲明「我相信這一點上的此數(shù)據(jù)/模型是沒問題的」。再具體一點就是…
建模來源:
傳感器數(shù)據(jù)(包括物聯(lián)網(wǎng))。你相信你的物聯(lián)網(wǎng)傳感器對你說的話嗎?
訓(xùn)練輸入/輸出(X / y)數(shù)據(jù)。
建模本身,比如你可以使用可信執(zhí)行(Trusted execution)基礎(chǔ)設(shè)施,或是進行復(fù)核計算的 TrueBit 式的市場。至少有建模型收斂曲線的建模證據(jù)(例如 nmse* *vs. epoch)。
模型本身。
測試過程/該領(lǐng)域中的來源:
測試輸入(X)數(shù)據(jù)。
模型仿真。可信執(zhí)行、TrueBit 等。
測試輸出(yhat)數(shù)據(jù)。
我們可以在模型的建立與應(yīng)用過程中得到其來源。其結(jié)果是更可信的人工智能訓(xùn)練數(shù)據(jù) & 模型。我們還可以擁有這樣的連鎖結(jié)構(gòu)。模型的模型,就像在半導(dǎo)體電路設(shè)計中那樣一直到底?,F(xiàn)在,一切都有出處了。
好處包括:
(在最廣泛的意義上)捕捉所有層次上的數(shù)據(jù)供應(yīng)鏈中的漏洞。例如你可以判斷傳感器是否在說謊。
你知道數(shù)據(jù)和模型的來歷,并且是以密碼驗證的方式。
您可以在數(shù)據(jù)供應(yīng)鏈中發(fā)現(xiàn)漏洞。這樣一來,如果發(fā)生錯誤,我們能更好地了解其位置以及如何應(yīng)對。你可以將其當做銀行式的和解,不過針對的是人工智能模型。
數(shù)據(jù)有了名譽,因為多雙眼睛都可以檢查那個源,并甚至聲稱自己的數(shù)據(jù)判斷如何有效。相應(yīng)地,模型也有了聲譽。
機會 4:訓(xùn)練數(shù)據(jù) & 模型全球共享注冊系統(tǒng)
但是如果我們有一個可以方便管理另一個數(shù)據(jù)集或數(shù)據(jù)饋送(免費或其他)的全球數(shù)據(jù)庫呢?這包括一系列出自各種機器學(xué)習比賽的 Kaggle 數(shù)據(jù)集、斯坦福 ImageNet 數(shù)據(jù)集及其他不計其數(shù)的數(shù)據(jù)集。
這正是 IPDB 可以做到的。人們可以提交數(shù)據(jù)集并使用其他人的數(shù)據(jù)。數(shù)據(jù)本身會在一個去中心化的文件系統(tǒng)中,就像 IPFS ;而元數(shù)據(jù)(及數(shù)據(jù)指針本身)將會在 IPDB 中。我們會獲得一個人工智能數(shù)據(jù)集的全局共享空間。這有助于實現(xiàn)打造數(shù)據(jù)開放社區(qū)的夢想。
我們無需停留在數(shù)據(jù)集層面;我們也可以包括從這些數(shù)據(jù)集中建立起來的模型。抓取和運行他人的模型并提交自己的模型應(yīng)該很容易。一個全球性的數(shù)據(jù)庫可以大大方便這一過程。我們可以得到行星所擁有的模型。
機會 5:作為 IP 資產(chǎn)的數(shù)據(jù) & 模型→數(shù)據(jù) & 模型交換
讓我們基于訓(xùn)練數(shù)據(jù)和模型的「全局共享注冊系統(tǒng)」這一應(yīng)用。數(shù)據(jù) & 模型可以成為公共共享內(nèi)容的一部分。但它們也可以進行購買與出售!
數(shù)據(jù)和人工智能模型可以被用來作為知識產(chǎn)權(quán)(IP)資產(chǎn),因為它們受到版權(quán)法的保護。這意味著:
如果你創(chuàng)建了數(shù)據(jù)或模型就可以要版權(quán)。無論你是否想進行任何商業(yè)行為。
如果你擁有數(shù)據(jù)或模型的版權(quán),那么你可以將使用權(quán)限授權(quán)給其他人。例如,你可以將你的數(shù)據(jù)授權(quán)給其他人來構(gòu)建他們自己的模型?;蛘吣憧梢詫⒛愕哪P褪跈?quán)給其他人并計入他們的移動應(yīng)用程序。次級授權(quán)、次次級授權(quán)等也是可能的。當然你也可以從他人那里獲得數(shù)據(jù)或模型授權(quán)。
我認為能夠擁有一個人工智能模型的版權(quán)并進行授權(quán),這是相當棒的。數(shù)據(jù)已被公認為是一個潛在的巨大市場;模型會緊跟其上。在區(qū)塊鏈技術(shù)之前是可以對數(shù)據(jù) & 模型宣稱版權(quán)與許可的。相關(guān)法律的出臺已經(jīng)有一段時間了。但區(qū)塊鏈技術(shù)使它變得更好,因為:
版權(quán)聲明提供了一張防篡改的全球公共注冊表;你的版權(quán)聲明是數(shù)字化/加密了的簽名。此注冊表也可以包括數(shù)據(jù) & 模型。
對于你的授權(quán)交易,它也提供了一張防篡改的全球公共注冊表。這次不僅僅是數(shù)字簽名;相反除非你有私鑰,否則你甚至不能轉(zhuǎn)讓權(quán)利。權(quán)利轉(zhuǎn)移是作為一個區(qū)塊鏈式的資產(chǎn)轉(zhuǎn)換進行的。
在我 2013 年致力于使用 ascribe 來幫助數(shù)字藝術(shù)家們獲得報酬的過程中,區(qū)塊鏈上的 IP 與我心心相映。最初的方法有規(guī)模和許可靈活度的上的問題?,F(xiàn)在這些都已經(jīng)被克服,我最近寫的相關(guān)文章有談到這點(https://medium.com/ipdb-blog/a-decentralized-content-registry-for-the-decentralized-web-99cf1335291f#.v3jl6f9om)。這項技術(shù)包括:
Coala IP 是一個靈活的、區(qū)塊鏈友好的 IP 協(xié)議。
IPDB(及 BigchainDB)是一個公共的區(qū)塊鏈共享數(shù)據(jù)庫,用來存儲權(quán)利信息及其他網(wǎng)絡(luò)規(guī)模的元數(shù)據(jù)。
IPFS +物理存儲(比如 Storj 或 Filecoin)是一個去中心化的文件系統(tǒng),用來存儲大數(shù)據(jù) & 模型斑點。
有了這個,我們就有了數(shù)據(jù)與模型作為 IP 資產(chǎn)。
例如使用 ascribe 時,我聲明了于幾年前建立的一個人工智能模型的版權(quán)。該人工智能模型是一個決定使用哪種模擬電路拓撲的 CART(決策樹)。這是它的密碼防偽證書(Certificate of Authenticity /COA)。如果你想從我這獲得一個許可版本,給我發(fā)電子郵件即可: )
一旦我們有了數(shù)據(jù)和模型作為資產(chǎn),我們就可以開始進行資產(chǎn)交換。
一次交換可以是中心化的,像 DatastreamX 處理數(shù)據(jù)那樣。但到目前為止,它們確實只能使用公共數(shù)據(jù)源,因為很多企業(yè)覺得分享的風險比效益要多。
那么去中心化的數(shù)據(jù) & 模型交換呢?對「交換」過程中所共享的數(shù)據(jù)進行去中心化,這樣做有新的好處。去中心化過程沒有一個單一的實體去控制數(shù)據(jù)存儲基礎(chǔ)設(shè)施,也沒有誰擁有什么的分類賬本,如前所述,這更易于組織合作或數(shù)據(jù)共享。比如用于 Deep Nets 的 OpenBazaar。
有了這樣一個去中心化的交換,我們會看到一個真正的開放數(shù)據(jù)市場的出現(xiàn)。這實現(xiàn)了數(shù)據(jù)與人工智能團體間的(包括你的)長期以來的一個夢想。
當然在這些交換之上也會產(chǎn)生一些基于人工智能算法的交易:用人工智能算法購買人工智能模型。人工智能交易算法甚至會變成這個樣子:購買算法來交易人工智能模型,然后自己進行更新!
機會 5A:在上游控制你的數(shù)據(jù) & 模型
這是之前應(yīng)用的重復(fù)。在你登錄 Facebook 時就授予了它非常具體的權(quán)利,包括對你輸入進其系統(tǒng)中的任何數(shù)據(jù)的處置權(quán)限。它會對你的個人資料施加許可。
當一個音樂家用一個標簽來簽名時,他們就是在授予標簽非常具體的權(quán)利:編輯音樂、分發(fā)音樂等等。(通常該標簽會試圖攫取所有版權(quán),這個任務(wù)非常繁重,但那是另一回事了!)
人工智能數(shù)據(jù)和人工智能模型也同理。當你創(chuàng)建可用于建模的數(shù)據(jù)以及創(chuàng)建模型本身時,你可以預(yù)先指定許可從而在上游限制其他人的使用權(quán)限。
對于所有用例,從個人資料到音樂、從人工智能數(shù)據(jù)到人工智能模型,區(qū)塊鏈技術(shù)使這個過程變得更加容易。在區(qū)塊鏈數(shù)據(jù)庫中,你是將權(quán)限作為資產(chǎn),例如一個讀取權(quán)限或查看某條數(shù)據(jù)/模型的權(quán)利。你作為權(quán)利持有人可以將這些作為資產(chǎn)的權(quán)限轉(zhuǎn)讓給系統(tǒng)中的其他人,類似于比特幣的轉(zhuǎn)讓:創(chuàng)建轉(zhuǎn)讓交易并用你的私人密鑰簽名。
有了這個,你就有可以更好地從上游控制你的人工智能訓(xùn)練數(shù)據(jù)、你的人工智能模型等等?!咐?,你可以將這些數(shù)據(jù)進行混合卻不能進行深入學(xué)習。」
這和 DeepMind 在其醫(yī)療保健區(qū)塊鏈項目(healthcare blockchain project)中所采用的部分戰(zhàn)略有點像。在數(shù)據(jù)挖掘中,醫(yī)療數(shù)據(jù)會帶來監(jiān)管和反壟斷問題的風險(尤其是在歐洲)。但如果用戶可以真正擁有自己的醫(yī)療數(shù)據(jù)并控制其上游使用,那么 DeepMind 就可以僅僅告訴消費者和監(jiān)管機構(gòu)說「嘿,實際上客戶擁有自己的數(shù)據(jù),我們只是拿來用而已」。我的朋友 Lawrence Lundy 提供了這個好例子,然后他進一步推斷:
完全可能的是,政府會允許數(shù)據(jù)私有(人類或 AGI)的唯一方式是一個數(shù)據(jù)共享基礎(chǔ)設(shè)施,「網(wǎng)絡(luò)中立」規(guī)則,就像 AT&T 公司和原始的那種電話線。在這個意義上,越來越多的自主人工智能會要求政府接受區(qū)塊鏈及其他數(shù)據(jù)共享基礎(chǔ)設(shè)施,從而實現(xiàn)長遠的可持續(xù)性。- Lawrence Lundy
機會 6:人工智能去中心化自治組織(Decentralized Autonomous Organization/DAO)——可以積累財富且無法關(guān)閉的人工智能
這是一個謊言。一個 AI DAO 屬于人工智能自身,你無法關(guān)閉它。我下文會總結(jié)「如何做」。感興趣的讀者可以繼續(xù)閱讀深入該話題。
到目前為止,我們談?wù)摿藚^(qū)塊鏈作為去中心化數(shù)據(jù)庫的內(nèi)容。但我們也可以去中心化處理過程:基本上就是一個狀態(tài)機的存儲狀態(tài)。周圍有一些基礎(chǔ)設(shè)施的話做起來更容易,而那就是「智能合同(smart contracts)」技術(shù)(比如 Ethereum)的本質(zhì)。
我們之前已經(jīng)以計算機病毒的形式進行了過程去中心化。沒有單個實體擁有或控制它們,而且你不能將其關(guān)閉。但它們有限制——它們主要是會試圖攻破你的計算機,就是這些。
但是,如果你可以與過程進行更豐富的互動,且過程本身可以積累財富呢?目前,通過在過程中使用更好的 API(如智能合同語言)和去中心化價值儲存(如公共區(qū)塊鏈)就可以實現(xiàn)它。
一個 DAO 是一個體現(xiàn)這些特征的過程。其代碼可以擁有自己的東西。
是什么把我們帶向了人工智能。最有可能的是被稱為「人工通用智能」(Artificial General Intelligence/AGI)的人工智能子領(lǐng)域。AGI 和環(huán)境中的交互的自主代理有關(guān)。AGI 可以被模型化為一個反饋控制系統(tǒng)。這是個好消息,因為控制系統(tǒng)有很多優(yōu)點。首先它們有深厚的數(shù)學(xué)基礎(chǔ),這可以追溯到 20 世紀 50 年代(Wiener 的「控制論(Cybernetics)」)。它們捕捉與世界之間的互動(驅(qū)動和傳感),并(基于內(nèi)部模型和外部傳感器來更新狀態(tài))適應(yīng)它??刂葡到y(tǒng)得到了廣泛的應(yīng)用。它們決定了一個簡單的恒溫器如何去適應(yīng)目標溫度。它們消除了高價耳機中的噪音。它們處于成千上萬的設(shè)備的中心,從烤箱到車里的剎車裝置。
人工智能社區(qū)最近對控制系統(tǒng)的接受程度更加熱烈了。比如,它們是 AlphaGo 的關(guān)鍵所在。而且 AGI 本身就是控制系統(tǒng)。
一個 AI DAO 就是一個運行在去中心化處理 & 存儲載體之上的 AGI 式控制系統(tǒng)。其反饋回路會自行進行繼續(xù),輸入、更新狀態(tài)、執(zhí)行輸出,循環(huán)往復(fù)地使用這些資源。
我們可以從一個人工智能入手來得到一個 AI DAO(一個 AGI 代理),并使其去中心化。或者我們可以從一個 DAO 入手并賦予其人工智能的決策能力。
人工智能獲取其丟失的鏈接:資源。DAO 得到其丟失的鏈接:自主決策。正因為如此,AI DAO 的使用范圍比 AI 或 DAO 本身更大。其潛在影響也是成倍的。
這里有一些應(yīng)用:
一個 ArtDAO,創(chuàng)建自己的數(shù)字藝術(shù)并進行銷售。概括地說,它可以做 3D 設(shè)計、音樂、視頻甚至是整部電影。
有自我身份的自動駕駛汽車。概括地說就是之前的任何人工智能應(yīng)用現(xiàn)在是「屬于自己」的了。未來的情況或許是人類一無所有而只是向 AI DAO 租用服務(wù)。
任何注入人工智能的 DAO 應(yīng)用程序。
有更多自主性的任何去中心化 SaaS 應(yīng)用程序。
總結(jié)
本文基于我個人在人工智能和區(qū)塊鏈研究方面的經(jīng)驗,描述了區(qū)塊鏈技術(shù)可以如何輔助人工智能。二者結(jié)合一處即發(fā)!區(qū)塊鏈技術(shù)——尤其是行星尺度的——可以幫助實現(xiàn)人工智能和數(shù)據(jù)團體長期以來的一些夢想,并打開一些機會。
總結(jié)如下:
第三十四屆CIO班招生
國際CIO認證培訓(xùn)
首席數(shù)據(jù)官(CDO)認證培訓(xùn)
責編:pingxiaoli
免責聲明:本網(wǎng)站(http://www.www.gypb.net/)內(nèi)容主要來自原創(chuàng)、合作媒體供稿和第三方投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
本網(wǎng)站刊載的所有內(nèi)容(包括但不僅限文字、圖片、LOGO、音頻、視頻、軟件、程序等)版權(quán)歸原作者所有。任何單位或個人認為本網(wǎng)站中的內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,請及時通知本站,予以刪除。