2012-08-13 10:55:14 來源:機(jī)房360
但是,對(duì)于IT企業(yè)來說,圍繞大數(shù)據(jù)的問題,仍然存在著很大的挑戰(zhàn),具體而言,是對(duì)大數(shù)據(jù)的分析。這些部門面臨著實(shí)施必要的基礎(chǔ)設(shè)施,并利用信息的艱巨任務(wù)。滿足具體計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)架構(gòu)的需要,使企業(yè)受益。例如,如何每天從計(jì)數(shù)驚人的新的數(shù)據(jù)中攝取30TB的數(shù)據(jù)(相當(dāng)于1,740部高清質(zhì)量的電影),對(duì)其進(jìn)行分析、存儲(chǔ),可能的話還需要重新進(jìn)行分析和存檔?如果你計(jì)算一下,這樣下來,一年的數(shù)據(jù)量大約是10PB,但即使這樣,這一數(shù)字也會(huì)很快變得微不足道,因?yàn)槲覀儗⒑芸爝M(jìn)入到艾可薩字節(jié)時(shí)代(Exabyteera)——每年1,000PB,或更多。
盡管隨著技術(shù)的發(fā)展,圍繞企業(yè)如何適當(dāng)?shù)厥芤嬗?strong>大數(shù)據(jù),以及從大數(shù)據(jù)中獲得相當(dāng)?shù)亩床炝θ匀淮嬖谥恍﹩栴}。企業(yè)可以從兩種截然不同的路徑執(zhí)行“大數(shù)據(jù)農(nóng)場(chǎng)”計(jì)劃。如何選擇已經(jīng)成為一個(gè)很重要的IT難題。
“大數(shù)據(jù)農(nóng)場(chǎng)”計(jì)劃,是對(duì)數(shù)據(jù)進(jìn)行種植、培育、除草、收割并最終消費(fèi),或者存儲(chǔ)起來以備日后之需。但也有兩種不同類型的農(nóng)場(chǎng)計(jì)劃:一種使用許多不同的服務(wù)器來保存數(shù)據(jù),通常被稱為直接連接,另一種使用擴(kuò)展設(shè)計(jì),所有數(shù)據(jù)將被安置在一個(gè)單一的實(shí)體,如文件系統(tǒng)。
首席技術(shù)官和首席信息官都知道在小規(guī)模企業(yè),使用服務(wù)器磁盤往往是最具成本效益和簡(jiǎn)單的。第一、幾百服務(wù)器通常對(duì)于IT工作人員來說不構(gòu)成重大問題。然而,如果需要成千上萬臺(tái)的服務(wù)器來處理數(shù)據(jù),存儲(chǔ)變得非常難以管理,特別是從人工的角度。首席信息官必須不斷雇傭更多的員工,培養(yǎng)并設(shè)法留住他們。
“數(shù)據(jù)存儲(chǔ)在服務(wù)器”的方法具有自限性,因?yàn)闈撛诒仨毥o定一臺(tái)服務(wù)器具有訪問另一臺(tái)服務(wù)器進(jìn)行數(shù)據(jù)分析的權(quán)限。換句話說,這是架構(gòu)的組合問題。它類似于一千人參加一個(gè)電話會(huì)議,所有人試圖在同一時(shí)間發(fā)言。這是常見的大型計(jì)算農(nóng)場(chǎng)之間的服務(wù)器溝通的一個(gè)嚴(yán)重的瓶頸,從而減少了服務(wù)器進(jìn)行分析的能力。隨著數(shù)據(jù)農(nóng)場(chǎng)規(guī)模的擴(kuò)大,畢竟,更多的計(jì)算,可以適用于更大的數(shù)據(jù)集,更可以從中學(xué)習(xí),并從中提取價(jià)值。直接存儲(chǔ)模式達(dá)到極限的能力,有效地處理大數(shù)據(jù)。
相比之下,使用擴(kuò)展存儲(chǔ)模型的一個(gè)單一的文件,直接提供的數(shù)據(jù)計(jì)算服務(wù)器并行消除瓶頸。服務(wù)器現(xiàn)在可以自由地進(jìn)行數(shù)據(jù)分析,而數(shù)據(jù)移動(dòng)引擎。無論數(shù)據(jù)規(guī)模如何,管理擴(kuò)展很簡(jiǎn)單,因?yàn)橹挥幸粋€(gè)實(shí)體進(jìn)行管理?,F(xiàn)在可以實(shí)現(xiàn)規(guī)模效率。今天,數(shù)十PB的數(shù)據(jù)可以由一個(gè)單一的工作人員來管理。更重要的是,這是一個(gè)數(shù)據(jù)倉庫。其尺寸和性能可擴(kuò)展,以配合新的數(shù)據(jù)傳入來源和業(yè)務(wù)需要,分析和存儲(chǔ)數(shù)據(jù)。
但大數(shù)據(jù)規(guī)模系統(tǒng)的最重要的方面是服務(wù)器自己來移動(dòng)數(shù)據(jù),這節(jié)約了需要進(jìn)行拆除的寶貴。時(shí)間是大數(shù)據(jù)的最終約束。數(shù)據(jù)在服務(wù)器之間傳輸,有助于方便一臺(tái)服務(wù)器上進(jìn)行分析工作,但所需要的數(shù)據(jù)則是駐留在另一臺(tái)服務(wù)器中,是善意的IT項(xiàng)目的大數(shù)據(jù)的殺手。時(shí)間不僅僅意味著金錢,其也是一種競(jìng)爭(zhēng)優(yōu)勢(shì)。向外擴(kuò)展的架構(gòu),尤其是那些隨著時(shí)間的推移可以定位在不同的媒體,無需外部運(yùn)動(dòng),意味著數(shù)據(jù)遷移結(jié)束。數(shù)據(jù)被攝入、分析、短期和長(zhǎng)期存儲(chǔ)在單一的實(shí)體中。
大數(shù)據(jù)可以被視為不可抗拒的力量之間的沖突,無所不在的和越來越多的新數(shù)據(jù),以及企業(yè)的不動(dòng)產(chǎn)。隨著時(shí)間的推移,它們每一天都在增加,而且不會(huì)消失!所以針對(duì)這一點(diǎn),企業(yè)必須認(rèn)識(shí)到從甲地到乙地移動(dòng)數(shù)據(jù),僅僅定位的分析是失敗的。例如,您不需要傳輸1PB的數(shù)據(jù)從服務(wù)器到數(shù)據(jù)計(jì)算農(nóng)場(chǎng)要花費(fèi)多少時(shí)間。即使是以10千兆字節(jié)每秒的速度,以今天的標(biāo)準(zhǔn)這已經(jīng)是非常快的了,它也需要100秒來移動(dòng)一個(gè)字節(jié),也就是不超過2分鐘的時(shí)間。這是沒有問題的。但傳輸1PB的數(shù)據(jù)它。則需要1000倍的時(shí)間,即100000秒(或27小時(shí))。如果你的IT基礎(chǔ)設(shè)施只能每秒傳輸1千兆字節(jié)的數(shù)據(jù),這會(huì)花費(fèi)11天的時(shí)間。二者僅僅還只是一PB的數(shù)據(jù),更多的數(shù)據(jù)很快增長(zhǎng)為大數(shù)據(jù)。
底線是這樣的:一旦提取,應(yīng)該不會(huì)有大數(shù)據(jù)移動(dòng)。為什么要浪費(fèi)時(shí)間在服務(wù)器之前傳輸數(shù)據(jù)呢?分析工作必須能夠直接讀取數(shù)據(jù),直接進(jìn)行分析并得出結(jié)果,而不必在服務(wù)器之間移動(dòng)文件。這就是為什么這是最佳方法,這才能跟上大數(shù)據(jù)的步伐。如果你一想到大數(shù)據(jù),您可以這樣考慮:這是所有關(guān)于規(guī)模,和由大數(shù)據(jù)構(gòu)成的擴(kuò)展架構(gòu)比賽的挑戰(zhàn)。
免責(zé)聲明:本網(wǎng)站(http://www.www.gypb.net/)內(nèi)容主要來自原創(chuàng)、合作媒體供稿和第三方投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
本網(wǎng)站刊載的所有內(nèi)容(包括但不僅限文字、圖片、LOGO、音頻、視頻、軟件、程序等)版權(quán)歸原作者所有。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),請(qǐng)及時(shí)通知本站,予以刪除。
