2012-07-05 13:57:30 來源:互聯(lián)網(wǎng)
大數(shù)據(jù)所帶來的商業(yè)機(jī)會被越來越多具有技術(shù)前瞻性的廠商所重視。商業(yè)利潤的分布也有了很大變化,據(jù)市調(diào)機(jī)構(gòu)測算:今年預(yù)計總價值50億美元的大數(shù)據(jù)市場目前有44%的份額來自服務(wù)類產(chǎn)品,31%源于硬件銷售,而軟件支持則占去了另外25%。這導(dǎo)致傳統(tǒng)的IT企業(yè)憑借多年的技術(shù)積累和客戶資源在向大數(shù)據(jù)領(lǐng)域轉(zhuǎn)型,這個市場也為具有獨特解決方案或服務(wù)的新興公司帶來了超越前者的機(jī)會。
像IBM、惠普、戴爾這樣的傳統(tǒng)硬件廠商,依靠在軟、硬件這樣的優(yōu)勢,逐漸向客戶提供端到端的解決方案。除了加強(qiáng)自身的研發(fā)力度,更在大數(shù)據(jù)的潛在科技突破點上攻城略地,廣泛的合作、兼并動作頻頻。2010年EMC通過收購Greenplum正式進(jìn)入了數(shù)據(jù)倉庫市場。并在次年推出了支持大數(shù)據(jù)分析的下一代EMC Greenplum統(tǒng)一分析平臺;同年IBM收購了數(shù)據(jù)分析公司Netezza,開始拓展商業(yè)價值方面的市場;惠普對 Vertica進(jìn)行收購;去年10月,甲骨文發(fā)布了新版NoSQL數(shù)據(jù)庫企業(yè)版,這是運行于Hadoop 之上的大數(shù)據(jù)軟件之一;微軟宣布與Hortonwork公司建立新的合作伙伴關(guān)系,后者致力于Hadoop開發(fā)。為了增強(qiáng)非傳統(tǒng)數(shù)據(jù)分析的能力,Teradata收購了Aster Data公司。新興的大數(shù)據(jù)企業(yè)如雨后春筍般涌現(xiàn)。ClickFox、Cloudera、1010data以前名不見經(jīng)傳的廠商迅速崛起,以“大數(shù)據(jù)即服務(wù)”方案力爭在未來龐大的市場需求依靠自身的創(chuàng)新為客戶創(chuàng)造出獨特的價值。
現(xiàn)在我們掃描一下主要廠商在大數(shù)據(jù)領(lǐng)域的布局狀況:
IBM提供BigInsights、BigSheets和BigCloud
僅僅幾年前,IBM開始在其實驗室嘗試使用Hadoop,但是它在去年將相關(guān)產(chǎn)品和 服務(wù)納入到商業(yè)版,甲骨文和微軟在其之后才宣布各自也將積極接受該平臺。IBM在去年5月推出了InfoSphere BigInsights軟件。該軟件包包括Apache Hadoop發(fā)行版、面向MapReduce編程的Pig編程語言、針對IBM的DB2數(shù)據(jù)庫的連接件以及IBM BigSheets,后者是一種基于瀏覽器的、使用電子表格隱喻(spreadsheet-metaphor)的界面,用于探究和分析Hadoop里面的數(shù)據(jù)。
IBM隨后又在10月通過其智慧云企業(yè)(SmartCloud Enterprise)基礎(chǔ)架構(gòu),將BigInsights和BigSheets作為一項服務(wù)來提供。這項服務(wù)分基礎(chǔ)版和企業(yè)版;賣點就是客戶不必購買支持性硬件,也不需要IT專門知識就可以學(xué)習(xí)和試用大數(shù)據(jù)處理和分析功能。據(jù)IBM聲稱,客戶用不了30分鐘就能搭建起Hadoop集群,并將數(shù)據(jù)轉(zhuǎn)移到集群里面,數(shù)據(jù)處理費用是每個集群每小時60美分起。
Oracle:數(shù)據(jù)庫+大數(shù)據(jù)機(jī)
Oracle的大數(shù)據(jù)策清晰而直接。NoSQL數(shù)據(jù)庫和Big Data Appliance組合為客戶直接擁有處理非結(jié)構(gòu)化海量數(shù)據(jù)的能力。甲骨文大數(shù)據(jù)機(jī)(Oracle Big Data Appliance)將甲骨文-Sun分布式計算平臺與Cloudera的Apache Hadoop發(fā)行版、Cloudera管理器管理控制臺、R分析軟件的開源發(fā)行版以及甲骨文NoSQL數(shù)據(jù)庫結(jié)合起來。甲骨文還包括連接件,因而讓數(shù)據(jù)能 夠在大數(shù)據(jù)機(jī)與甲骨文Exadata或傳統(tǒng)的甲骨文數(shù)據(jù)庫部署環(huán)境之間來回傳送。甲骨文為這套綜合的軟硬件“工程一體化系統(tǒng)”提供了一線支持;但是即使出 現(xiàn)棘手的Hadoop難題,甲骨文也可以利用Cloudera的專長,它還可以介紹客戶使用Cloudera的Hadoop培訓(xùn)和咨詢服務(wù)。
大數(shù)據(jù)機(jī)通過全機(jī)架(full-rack)配置,每個機(jī)架配備864GB主內(nèi)存、216個處理器核心、648TB原始磁盤存儲容量,以及節(jié)點之間每秒40千兆的InifiniBand內(nèi)部連接。軟硬件總計售價將達(dá)到45萬美元,每年收取12%的軟硬件支持費。這個價格頗具競爭力,相當(dāng)于每TB不到700美元。
[page] 微軟:面對開放的懸疑
微軟在去年推出了基于Azure云平臺的測試版Hadoop服務(wù),今年它承諾會推出與Windows兼容的基于Hadoop的大數(shù)據(jù)解決方案(Big Data Solution),這是微軟SQL Server 2012版本的一部分。微軟宣布推出了兩個基于Hadoop的大數(shù)據(jù)處理的社區(qū)技術(shù)預(yù)覽版連接器組件,一個用于SQL Server,另一個用于SQL Server并行數(shù)據(jù)倉庫(PDW)。該連接器是一個部署在Linux環(huán)境中的命令行工具。
SQL Server Hadoop連接器在微軟大數(shù)據(jù)之路上最重要的一步。但由于Hadoop、Linux和Sqoop都是開源技術(shù),這意味著微軟要對開源世界大規(guī)模地敞開胸懷,這一點值得用戶關(guān)注。另外,微軟還宣布將推出LINQ Pack、LINQ to HPC、Project“Daytona”以及Excel DataScope,這些產(chǎn)品都將專為研究人員和業(yè)務(wù)分析師打造,用以在Windows Azure上做大數(shù)據(jù)分析。
EMC:單一的數(shù)據(jù)分析平臺
Greenplum在大數(shù)據(jù)方面有43000萬美元營收,目前由EMC公司所有。EMC Greenplum統(tǒng)一分析平臺(UAP)是一款單一軟件平臺,數(shù)據(jù)團(tuán)隊和分析團(tuán)隊可以在該平臺上無縫地共享信息、協(xié)作分析,沒必要在不同的孤島上工作, 或者在不同的孤島之間轉(zhuǎn)移數(shù)據(jù)。正因為如此,UAP包括ECM Greenplum關(guān)系數(shù)據(jù)庫、EMC Greenplum HD Hadoop發(fā)行版和EMC Greenplum Chorus,而后者是一種協(xié)作式、類似社交網(wǎng)絡(luò)的界面,可供數(shù)據(jù)分析團(tuán)隊處理,無論團(tuán)隊成員是有博士頭銜的數(shù)據(jù)科學(xué)家、數(shù)據(jù)集成專家和商業(yè)智能分析員, 還是數(shù)據(jù)庫管理員和業(yè)務(wù)部門的用戶及管理人員。
EMC為大數(shù)據(jù)開發(fā)的硬件是模塊化的EMC數(shù)據(jù)計算設(shè)備(DCA),它能夠在一個設(shè)備里面運行并擴(kuò)展Greenplum關(guān)系數(shù)據(jù)庫和 Greenplum HD節(jié)點。DCA提供了一個共享的指揮中心(Command Center)界面,讓管理員可以監(jiān)控、管理和配置Greenplum數(shù)據(jù)庫和Hadoop系統(tǒng)性能及容量。UAP軟件將數(shù)據(jù)訪問、管理和工作流統(tǒng)一起 來,并與其他數(shù)據(jù)源和數(shù)據(jù)處理方法聯(lián)系起來;隨著Hadoop平臺日趨成熟,預(yù)計分析功能會急劇增加。
亞馬遜:深入了解用戶需求
早在2009年就推出了亞馬遜彈性MapReduce(Amazon Elastic MapReduce),對Hadoop的需求和應(yīng)用可謂了若指掌,這包括了運行試點項目的新手,內(nèi)部部署的預(yù)置型系統(tǒng)遇到需求過載的難題,或是利用彈性MapReduce來獲取額外容量的專業(yè)人士。
彈性MapReduce是一項能夠迅速擴(kuò)展的Web服務(wù),運行在亞馬遜彈性計算云(Amazon EC2)和亞馬遜簡單存儲服務(wù)(Amazon S3)上。面對數(shù)據(jù)密集型任務(wù),比如互聯(lián)網(wǎng)索引、數(shù)據(jù)挖掘、日志文件分析、機(jī)器學(xué)習(xí)、金融分析、科學(xué)模擬和生物信息學(xué)研究,用戶需要多大容量,立即就能配置到多大容量。除數(shù)據(jù)處理外,用戶還可以使用Karmasphere Analyst的基于服務(wù)的版本,Karmasphere Analyst是一種可視化工作區(qū),用于在亞馬遜彈性MapReduce上分析數(shù)據(jù)。Karmasphere提供了可視化工具,以便使用SQL及其他語言,針對在亞馬遜S3、亞馬遜彈性MapReduce作業(yè)流或本地文件系統(tǒng)上的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),執(zhí)行即席查詢和分析。用戶還可以提取結(jié)果文件, 以便在數(shù)據(jù)庫或者微軟Excel或Tableau等工具中使用。
[page] SAP: HAHA內(nèi)存計算技術(shù)加速計算
SAP基于內(nèi)存計算的高性能分析應(yīng)用軟件(SAP HANA)將構(gòu)建一個公開的平臺,開放給不同領(lǐng)域、不同行業(yè)的合作伙伴,聯(lián)手合作伙伴共同運作,讓更多用戶通過HANA得到真正的收益。國內(nèi)一家快消品企業(yè)完成9500萬條信息的數(shù)據(jù)分析在采用新的SAP內(nèi)存計算分析技術(shù)后,響應(yīng)時間僅需四秒鐘。目前,SAP已與包括英特爾、IBM、惠普、戴爾、富士通、思科等在內(nèi)的多家伙伴達(dá)成合作共識。
Sybase:用SQL數(shù)據(jù)庫應(yīng)對大數(shù)據(jù)
Sybase并沒有推出類似Oracle的NoSQL數(shù)據(jù)庫功能,但是據(jù)了解,他們在最新版本的數(shù)據(jù)庫中,已經(jīng)將大數(shù)據(jù)提到了一個非常重要的位置。在Sybase ASE 15.7當(dāng)中,新增的一個重要特性就是對大對象(LOB)的管理增強(qiáng),包括LOB壓縮、行內(nèi)LOB、復(fù)制機(jī)制以及LOB的讀取與運算方面都進(jìn)行了特別的改進(jìn)。LOB中包含了非結(jié)構(gòu)化數(shù)據(jù),因此Sybase ASE 15.7新增的這些功能都使得DBA在應(yīng)對大數(shù)據(jù)時更加輕松。
另外在他們的分析數(shù)據(jù)庫Sybase IQ 15.4中,還添加了如MapReduce API、對預(yù)測模型語言的支持、集成的Hadoop以及擴(kuò)展數(shù)據(jù)挖掘算法函數(shù)庫等功能。很明顯,這一系列新特性與大數(shù)據(jù)的關(guān)系密切,是新版本中最大的亮點。
Informatica:不拒絕任何格式
Informatica推出的HParser是一種針對Hadoop而優(yōu)化的數(shù)據(jù)轉(zhuǎn)換環(huán)境。軟件支持靈活高效地處理Hadoop里面的任何文件格式,為Hadoop開發(fā)人員提供了即開即用的解析功能,以便處理復(fù)雜而 多樣的數(shù)據(jù)源,包括日志、文檔、二進(jìn)制數(shù)據(jù)或?qū)哟问綌?shù)據(jù),以及眾多行業(yè)標(biāo)準(zhǔn)格式(如銀行業(yè)的NACHA、支付業(yè)的SWIFT、金融數(shù)據(jù)業(yè)的FIX和保險業(yè) 的ACORD)。正如數(shù)據(jù)庫內(nèi)處理技術(shù)加快了各種分析方法,Informatica同樣將解析代碼添加到Hadoop里面,以便充分利用所有這些處理功 能,不久會添加其他的數(shù)據(jù)處理代碼。
Informatica希望能夠借助統(tǒng)一的環(huán)境和方法,全面滿足數(shù)據(jù)管理和數(shù)據(jù)集成方面的要求。這家公司的企業(yè)客戶超過 4300個,它估計10%以上的客戶正進(jìn)入到大數(shù)據(jù)領(lǐng)域(大數(shù)據(jù)的容量超過100TB)。市場地位和技術(shù)創(chuàng)新使得Informatica成為值得關(guān)注的一家Hadoop專業(yè)廠商。
Cloudera:提供Hadoop的企業(yè)安全
Cloudera公司自2008年以來就一直致力于將開源Apache Hadoop打造成一款供企業(yè)使用的可靠平臺。這家公司有100多個客戶,不過鑒于Cloudera最近與IT業(yè)界老大的數(shù)據(jù)庫供應(yīng)商甲骨文結(jié)為合作伙伴,今年其客戶數(shù)量有望大幅增加。
Cloudera為其Apache Hadoop軟件發(fā)行版增添了兩個重要部分:一個是用于控制和管理Hadoop部署環(huán)境的Cloudera管理器控制臺,另一個是企業(yè)級支持。 Cloudera管理器提供了基于向?qū)У陌惭b和配置菜單,以便部署Hadoop。另外,它還提供了一些工具,幫助系統(tǒng)管理人員監(jiān)控平臺的運行狀況、診斷問題、優(yōu)化性能,以及在配置和安全方面作出所需的變更。
Cloudera支持服務(wù)分每天8小時每周五天或每天24小時每周七天這兩種,服務(wù)包括配置檢查、問題逐級上報和解決、與第三方系統(tǒng)集成以及知識庫、文章及其他技術(shù)資源。除了現(xiàn)有的這些服務(wù)外,還有培訓(xùn)和咨詢服務(wù)。Cloudera 企業(yè)解決方案包括Hadoop軟件發(fā)行版、Cloudera管理器及支持,標(biāo)價為每年每個節(jié)點4000美元(不包括硬件)。
[page] Datameer將商業(yè)智能運用到大數(shù)據(jù)上
Datameer公司宣稱其Datameer分析解決方案(DAS)是一款面向Hadoop、針對企業(yè)用戶的商業(yè)智能(BI)平臺。但是DAS并不將Hadoop當(dāng)作信息孤島:它可以通過JDBC、Hive、HTTP或其他標(biāo)準(zhǔn),連接到任何數(shù)據(jù)源。它包含了一個由向?qū)?qū)動的集成平臺,讓用戶可以安排調(diào)度負(fù)載,并且轉(zhuǎn)換來自任何這些數(shù)據(jù)源的龐大的結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)集。用戶可以通過類似電子表格的DAS界面,運用180多項分析功能中的任何一項功能。企業(yè)用戶可以獲得拖放式報告和儀表板功能。DAS可以在私有云或公共云上運行,而且有一套代表性狀態(tài)傳輸(REST)應(yīng)用編程接口(API),用于數(shù)據(jù)導(dǎo)入和導(dǎo)出。
由于眾多廠商的積極推動,大數(shù)據(jù)在各個領(lǐng)域正發(fā)揮著重要作用:
醫(yī)療保健/流行病的研究和控制
像流感這樣的季節(jié)性疾病在人群中以一定的模式開始,如果沒有及早發(fā)現(xiàn)和控制,它們就會傳播到更大的區(qū)域。這對發(fā)展中以及發(fā)達(dá)的國家都是一個最大的挑戰(zhàn)。當(dāng)前絕大部分時間的問題是人們之間的癥狀各異,而且不同的醫(yī)護(hù)人員治療他們的方法也不同。人群中也沒有一種常見的癥狀分類。在這種典型的非結(jié)構(gòu)化數(shù)據(jù)上采用大數(shù)據(jù)分析將有助于地方政府有效地應(yīng)對疫情的情況。
智能電網(wǎng):
智能電網(wǎng)現(xiàn)在歐洲已經(jīng)做到了終端,也就是所謂的智能電表。在德國,為了鼓勵使用太陽能,家庭安裝太陽能裝置后,除了供自家使用,還可以把多余電的電賣給電網(wǎng)。智能電網(wǎng)通過收集每隔五分鐘或十分鐘收集一次數(shù)據(jù),收集來的這些數(shù)據(jù)可以用來預(yù)測客戶的用電習(xí)慣等,從而推斷出在未來兩三個月時間,整個電網(wǎng)大概需要的用電量。有了這個預(yù)測,就可以向供電企業(yè)提前購買電。這有點像期貨,提前購買會比較便宜,這個預(yù)測一方面可以降低采購成本,另一方面可以使供電單位應(yīng)付原來不可預(yù)知的用電高峰。
傳媒廣告:
廣告業(yè)通常包括兩類數(shù)據(jù):一類是廣告庫,即廣告內(nèi)容信息和廣告客戶信息,這類信息很適合傳統(tǒng)數(shù)據(jù)庫;另一類信息是用戶看到廣告之后的行為。經(jīng)歷長期累計,會產(chǎn)生幾百萬億用戶行為。這兩種數(shù)據(jù)可以相結(jié)合,經(jīng)過計算機(jī)的智能算法就能產(chǎn)生價值。顯然第二種信息更重要,因為它能給用戶提供想要的信息,比如搜索一個詞,可以利用所有用戶在他之前、在他之后的群體智能、群體行為,判定哪一類的信息最重要、最優(yōu)質(zhì),哪一類信息可能是無效或非正常信息,然后經(jīng)過反饋機(jī)制把最好的內(nèi)容提供給用戶,甚至推薦相關(guān)的一些搜索、查詢信息??偠灾?,對任何企業(yè)來說,數(shù)據(jù)是命根子;對大數(shù)據(jù)處理就是數(shù)據(jù)中心或云計算存在的理由。
制造企業(yè):
制造業(yè)算法對生產(chǎn)線的傳感器信息進(jìn)行分析,形成了自我調(diào)節(jié)的流程,從而減少了浪費,避免了代價高昂(有時十分危險的)的人為干預(yù),最終提升產(chǎn)量。在先進(jìn)的“數(shù)碼化”油田,儀表不時讀取有關(guān)井口狀況、管道和機(jī)械系統(tǒng)的各類數(shù)據(jù)。這些信息由一組計算機(jī)進(jìn)行分析,并將結(jié)果輸入實時運營中心。后者則調(diào)整油量以優(yōu)化生產(chǎn)和最大限度縮短停機(jī)時間。一家大型石油公司因此減少了10%~25%運營成本和員工成本,產(chǎn)量提高了5%。
電子商務(wù):
eBay將結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù) 結(jié)合在一起。為了準(zhǔn)確分析用戶的購物行為,eBay定義了超過500種類型的數(shù)據(jù),對顧客的行為進(jìn)行跟蹤分析。體現(xiàn)在廣告收入上,通過該系統(tǒng),eBay能 夠精確計算出每一個關(guān)鍵字為其帶來的投資回報。通過對廣告投放的優(yōu)化,eBay 產(chǎn)品銷售的廣告費降低了99%,頂級賣家占總銷售額的百分比卻上升至32%。
免責(zé)聲明:本網(wǎng)站(http://www.www.gypb.net/)內(nèi)容主要來自原創(chuàng)、合作媒體供稿和第三方投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
本網(wǎng)站刊載的所有內(nèi)容(包括但不僅限文字、圖片、LOGO、音頻、視頻、軟件、程序等)版權(quán)歸原作者所有。任何單位或個人認(rèn)為本網(wǎng)站中的內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,請及時通知本站,予以刪除。
