2012-10-11 15:05:46 來(lái)源:至頂網(wǎng)
我們正處于一場(chǎng)關(guān)于大數(shù)據(jù)和分布式計(jì)算的炒作中,該是讓大數(shù)據(jù)泡沫破裂的時(shí)候了。
是的,穿過(guò)一個(gè)炒作周期來(lái)使技術(shù)跨越鴻溝,從早期的采用者到更廣泛的大眾群體。而且,至少它暗示了一個(gè)超越學(xué)術(shù)對(duì)話和試點(diǎn)項(xiàng)目的技術(shù)進(jìn)步。但是更廣泛的觀眾采用此項(xiàng)技術(shù)可能只是隨波逐流,一直就缺少一些重要的警示觀點(diǎn)。
跟隨潮流
在一個(gè)炒作周期內(nèi),通常有一個(gè)跟隨潮流的供應(yīng)商群,他們倉(cāng)促實(shí)施一個(gè)時(shí)髦的技術(shù),試圖要保持與其相關(guān)而且不會(huì)在混亂中迷失方向。但是這些公司的產(chǎn)品可能會(huì)使市場(chǎng)混淆,因?yàn)樽罱K這些技術(shù)會(huì)被不恰當(dāng)?shù)厥褂谩?/p>
使用這些產(chǎn)品的項(xiàng)目將面臨失敗的風(fēng)險(xiǎn) ,即使客戶已經(jīng)付出了大量的資源和精力,也有可能產(chǎn)出幾乎沒(méi)有投資回報(bào)率,然后客戶可能會(huì)開(kāi)始質(zhì)疑被熱炒的技術(shù)。現(xiàn)在Hadoop堆棧正在面臨這種局面。
打破大數(shù)據(jù)泡沫以鑒別有關(guān)其產(chǎn)品和模式的某些細(xì)微的差別開(kāi)始。以下是一些重要因素,分為三個(gè)重點(diǎn)領(lǐng)域,這些應(yīng)該在你考慮一個(gè)hadoop分布式基礎(chǔ)架構(gòu)的相關(guān)技術(shù)之前弄明白。
Hadoop不是RDBBMS的殺手
Hadoop分布式系統(tǒng)在商品硬件和存儲(chǔ)上運(yùn)行,使它比傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)便宜很多,但它并不是一個(gè)數(shù)據(jù)庫(kù)替代品。Hadoop分布式架構(gòu)的建立是為了利用對(duì)較大數(shù)據(jù)塊的順序數(shù)據(jù)訪問(wèn)(一次寫(xiě)入多次讀?。┒皇菃为?dú)的記錄中。正因?yàn)槿绱耍琀adoop分布式系統(tǒng)針對(duì)分析工作負(fù)載進(jìn)行了優(yōu)化,而不是關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)的交易處理工作。
坦白的說(shuō),低延遲的讀和寫(xiě)不在Hadoop的分布式文件系統(tǒng)(HDFS)中并不奏效。僅僅是協(xié)調(diào)的寫(xiě)入和讀取單個(gè)字節(jié)的數(shù)據(jù),就要求多個(gè)終端控制協(xié)議/網(wǎng)端協(xié)議連接到Hadoop的分布式系統(tǒng),這給交易操作帶來(lái)了非常高的延遲。
然而,在一個(gè)優(yōu)化好的Hadoop集群中,讀取和寫(xiě)入大塊數(shù)據(jù)的吞吐量是非常高的。
Hive文件和非Hive文件
Hive文件允許開(kāi)發(fā)人員查詢Hadoop分布式系統(tǒng)內(nèi)的數(shù)據(jù)并使用一個(gè)類似結(jié)構(gòu)化查詢語(yǔ)言(SQL)的語(yǔ)言。越來(lái)越多的人知道結(jié)構(gòu)化查詢語(yǔ)言可以編寫(xiě)的Hadoop分布式系統(tǒng)并行編程技術(shù)的本地代碼,這使得使用Hive文件能有一個(gè)有吸引力的和更便宜的辦法來(lái)招聘新的人才,或者讓開(kāi)發(fā)人員學(xué)習(xí)Java程序設(shè)計(jì)語(yǔ)言和編程技術(shù)代碼編程模式。
然而,在作出關(guān)于Hive文件作為你的大數(shù)據(jù)解決方案的任何決定之前,有一些非常重要的權(quán)衡需要注意:
HiveQL(Hive文件結(jié)構(gòu)化查詢語(yǔ)言的方言)只允許您查詢結(jié)構(gòu)化數(shù)據(jù)。
Hive文件本身并沒(méi)有一個(gè)Extract/Transform/Load(ETL)工具。所以盡管你可以節(jié)省錢(qián)使用Hadoop分布式系統(tǒng)和Hive文件作為您的數(shù)據(jù)庫(kù),內(nèi)部開(kāi)發(fā)人員也可以運(yùn)行結(jié)構(gòu)化查詢語(yǔ)言的技能組合,但是維護(hù)定制加載腳本和隨需求變化準(zhǔn)備數(shù)據(jù)支付費(fèi)用。
Hive底層使用HDFS和Hadoop MapReduce計(jì)算方法??磥?lái)這意味著,其原因就像已經(jīng)討論過(guò)的那樣,從傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)到習(xí)慣于正常的結(jié)構(gòu)化查詢語(yǔ)言響應(yīng)時(shí)間的最終用戶,可能要對(duì)Hive文件使用的有點(diǎn)笨拙的批處理方法來(lái)“查詢”而感到失望了。
這是實(shí)時(shí)的Hadoop分布式系統(tǒng)嗎? 并非真的如此。
讓我們來(lái)探索一些使Hadoop分布式系統(tǒng)不適用于實(shí)時(shí)應(yīng)用的技術(shù)因素。Hadoop分布式系統(tǒng)的MapReduce計(jì)算方法沿用了一個(gè)Map預(yù)處理步驟和一個(gè)Reduce數(shù)據(jù)聚合/提煉的步驟。雖然有可能對(duì)實(shí)時(shí)流數(shù)據(jù)應(yīng)用這種Map操作,但是Reduce就不能了。
這是因?yàn)镽educe步驟要求所有輸入的數(shù)據(jù)首先要為每一個(gè)獨(dú)特的數(shù)據(jù)鍵進(jìn)行映射和整理。然而對(duì)這個(gè)涉及到緩沖區(qū)的過(guò)程有一個(gè)攻擊,甚至黑客都無(wú)法進(jìn)行實(shí)時(shí)操作,因此緩沖區(qū)只能持有少量的數(shù)據(jù)。
某些NoSQL產(chǎn)品也使用MapReduce來(lái)分析工作負(fù)載。因此當(dāng)這些數(shù)據(jù)存儲(chǔ)庫(kù)可以執(zhí)行接近實(shí)時(shí)的數(shù)據(jù)查詢時(shí),它們也不是用于實(shí)時(shí)分析的工具。
盡管還有其它的一些大數(shù)據(jù)的謠言需要粉碎,Hadoop分布式系統(tǒng)也無(wú)法作為關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)的更換。Hive文件的各種缺點(diǎn)和編程工具對(duì)實(shí)時(shí)流數(shù)據(jù)的應(yīng)用的不適應(yīng)性是目前在我們的觀察中存在的最大的障礙。
最后,要實(shí)現(xiàn)關(guān)于對(duì)大數(shù)據(jù)的承諾,需要透過(guò)表象去了解合適的應(yīng)用。信息技術(shù)(IT)組織必須沖破大數(shù)據(jù)泡沫,并將自己對(duì)Hadoop分布式系統(tǒng)的努力集中到提供真正的、不同的價(jià)值的領(lǐng)域。
免責(zé)聲明:本網(wǎng)站(http://www.www.gypb.net/)內(nèi)容主要來(lái)自原創(chuàng)、合作媒體供稿和第三方投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
本網(wǎng)站刊載的所有內(nèi)容(包括但不僅限文字、圖片、LOGO、音頻、視頻、軟件、程序等)版權(quán)歸原作者所有。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),請(qǐng)及時(shí)通知本站,予以刪除。
