2012-09-06 13:40:34 來源:CIO時(shí)代網(wǎng)
數(shù)據(jù)中心正在成為新時(shí)代的“信息電廠”,成為知識(shí)經(jīng)濟(jì)的基礎(chǔ)設(shè)施,過去一年,“大數(shù)據(jù)”正在成為一個(gè)熱門話題。
半個(gè)世紀(jì)信息技術(shù)的發(fā)展,主要解決的是云計(jì)算中“結(jié)構(gòu)性”數(shù)據(jù)的存儲(chǔ)、處理與應(yīng)用。“結(jié)構(gòu)性”數(shù)據(jù)的特征有如你到銀行去存取款,銀行的計(jì)算機(jī)系統(tǒng)記錄著你的名字,在名字之后是你存取款的數(shù)量、時(shí)間、類型等信息。這些數(shù)據(jù)的特征是“邏輯性強(qiáng)”,每個(gè)“因”都有“果”。
然而現(xiàn)實(shí)社會(huì)中大量數(shù)據(jù)事實(shí)上沒有“顯現(xiàn)性”的因果關(guān)系,如一個(gè)時(shí)刻的交通堵塞、天氣狀態(tài)、人的狀態(tài)(心理與物理)等,它的特征是隨時(shí)、海量與彈性,如一個(gè)突變天氣分析包含會(huì)有幾百個(gè)PB(Petabyte, 1Petabyte=1024TB)數(shù)據(jù)。而一個(gè)社會(huì)事件如喬布斯去世瞬間所產(chǎn)生在互聯(lián)網(wǎng)上的數(shù)據(jù)(微博、紀(jì)念、文章、視頻等)也是突然暴發(fā)出來。
傳統(tǒng)的計(jì)算機(jī)設(shè)計(jì)與軟件都是以解決“結(jié)構(gòu)性”數(shù)據(jù)為主。對(duì)這一類新型的“非結(jié)構(gòu)”要求一種新的計(jì)算架構(gòu)?;ヂ?lián)網(wǎng)時(shí)代,尤其是社交網(wǎng)絡(luò)、電子商務(wù)與移動(dòng)通訊把人類社會(huì)帶入一個(gè)以“PB”為單位的結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù)信息的新時(shí)代,它就是“大數(shù)據(jù)(Big Data)”時(shí)代。
大數(shù)據(jù)的企業(yè)與技術(shù)
一個(gè)大規(guī)模生產(chǎn)、分享、應(yīng)用數(shù)據(jù)的時(shí)代正在開啟,我們每個(gè)人都成為了數(shù)據(jù)的創(chuàng)造者和使用者,微博、社交網(wǎng)絡(luò)都是最好的例子。
工業(yè)革命以后,書籍等以文字為載體的知識(shí)大約每十年可以翻一番;1970年以后,知識(shí)大約每三年就可以翻一番;如今,全球信息總量每?jī)赡昃涂梢苑环?010年互聯(lián)網(wǎng)的數(shù)據(jù)量,比之前所有年份的總和還要多?,F(xiàn)在,人類每天可以產(chǎn)生數(shù)以PB的數(shù)據(jù),從日志、微博、分享照片、傳送視頻,多種格式的數(shù)據(jù)實(shí)時(shí)、不斷地更新。在醫(yī)療衛(wèi)生、地理信息、電子商務(wù)、影視娛樂等行業(yè),每天也都在創(chuàng)造著大量的數(shù)據(jù)。
數(shù)據(jù)正在成為從工業(yè)經(jīng)濟(jì)向知識(shí)經(jīng)濟(jì)轉(zhuǎn)變的重要特征,成為新時(shí)代最關(guān)鍵的生產(chǎn)要素和產(chǎn)品形態(tài)。
代表著大數(shù)據(jù)時(shí)代的如Apple、Facebook、Amazon等公司正成為這場(chǎng)變革的推動(dòng)力量。同時(shí)新企業(yè)也層出不窮,比如2007年才成立的Dropbox公司,創(chuàng)始人不到27歲,估值已經(jīng)超過40億美元,這是一家提供文件備份及共享服務(wù)的公司,允許用戶在不同平臺(tái)和設(shè)備之間同步并共享文件,Dropbox用戶數(shù)量超過2500萬,每天存儲(chǔ)的文件數(shù)量2億多個(gè),蘋果公司曾出價(jià)8億美元想收購它未成功。
值得一提的是,這家公司最早使用的也是Amazon的S3云計(jì)算平臺(tái),得以低成本迅速起步。Amazon云計(jì)算數(shù)據(jù)存儲(chǔ)服務(wù),原來只是為了利用閑置服務(wù)器資源,現(xiàn)在一年可以帶來近10億美元收入,并且供不應(yīng)求。今年初,Amazon S3云存儲(chǔ)服務(wù)存儲(chǔ)文件是2620億份,這個(gè)數(shù)字最近變成了5660億份,翻了1倍還多。目前Amazon稱自己的S3數(shù)據(jù)存儲(chǔ)服務(wù),擔(dān)心的已經(jīng)不是數(shù)據(jù)的存儲(chǔ)成本,而是更加重要的數(shù)據(jù)處理的問題。
云計(jì)算中的大數(shù)據(jù)有幾個(gè)核心要素,如數(shù)據(jù)在云端的集合與分享、個(gè)人數(shù)據(jù)的無縫連接(隨時(shí)、隨地、同步)以及數(shù)據(jù)的跟蹤分析和挖掘。
源自雅虎的Hadoop這樣大數(shù)據(jù)系統(tǒng)越來越重要,作為開源的分布式數(shù)據(jù)處理系統(tǒng)架構(gòu),Hadoop主要面向存儲(chǔ)和處理成百上千TB直至PB級(jí)別的結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化的大數(shù)據(jù)。Hadoop提供的MapReduce能將大數(shù)據(jù)問題分解成多個(gè)子問題,將它們分配到成百上千個(gè)處理節(jié)點(diǎn)之上,再將結(jié)果匯集到一個(gè)小數(shù)據(jù)集當(dāng)中,從而更容易分析得出最后的結(jié)果。
Hadoop已經(jīng)成為AOL、Facebook、Twitter和Netflix這些公司大數(shù)據(jù)分析的主要解決方案。比如像Facebook一天的數(shù)據(jù)要比很多大公司一年的數(shù)據(jù)還要多,他們通過Hadoop收集和存儲(chǔ)每天生成的數(shù)百萬的文件,使用開源Apache Hive數(shù)據(jù)倉庫工具集中對(duì)這些數(shù)據(jù)進(jìn)行分析。
Opera Solutions這樣的創(chuàng)新公司提供的服務(wù)更加引人注目:客戶將數(shù)據(jù)上傳到Opera平臺(tái),Opera就會(huì)根據(jù)用戶數(shù)據(jù)池里的相關(guān)“信號(hào)”進(jìn)行分析,根據(jù)每個(gè)客戶的個(gè)性化需求,Opera雇傭各行業(yè)的專家來幫助他們進(jìn)行數(shù)據(jù)分析,Opera Solutions的年?duì)I業(yè)額已經(jīng)超過1億美元。
新的創(chuàng)業(yè)公司像MapR、Zettaset、Cloudera、HStreaming這些和Hadoop相關(guān)的大數(shù)據(jù)公司,在資本市場(chǎng)倍受青睞。它的快速成長(zhǎng)將會(huì)成為下一個(gè)改變信息技術(shù)的力量。
免責(zé)聲明:本網(wǎng)站(http://www.www.gypb.net/)內(nèi)容主要來自原創(chuàng)、合作媒體供稿和第三方投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
本網(wǎng)站刊載的所有內(nèi)容(包括但不僅限文字、圖片、LOGO、音頻、視頻、軟件、程序等)版權(quán)歸原作者所有。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),請(qǐng)及時(shí)通知本站,予以刪除。
