2012-11-06 11:41:41 來源:中關(guān)村在線
近年來,微博成為了時(shí)下最為時(shí)髦的互聯(lián)網(wǎng)應(yīng)用。它不僅是互聯(lián)網(wǎng)發(fā)展的一個(gè)新興產(chǎn)物,也是社交平臺更趨豐富和細(xì)化的應(yīng)用分支。自從2009年新浪推出國內(nèi)首個(gè)微博平臺以來,微博在國內(nèi)的發(fā)展猶如雨后春筍,遍布大江南北。
2010年迎來了國內(nèi)微博發(fā)展的春天,新浪騰訊等門戶網(wǎng)站均推出微博業(yè)務(wù)。自去年以來,微博用戶數(shù)量獲得迅猛增長。今年5月份新浪發(fā)布的第一財(cái)季報(bào)告顯示,僅新浪微博用戶數(shù)就已增至3.24億人。而另一個(gè)微博巨頭——騰訊微博,也呈現(xiàn)出發(fā)展迅猛的姿態(tài),微博注冊用戶也突破3億大關(guān)。
微博獲得迅猛發(fā)展有著深層次的原因。一方面,微博的內(nèi)容組成只是由簡單的只言片語組成,對用戶的技術(shù)和文字功底要求較低,而且在語言的編排組織上,也沒有博客那么高。另一方面,隨著微博的推廣,運(yùn)營商開放API使得用戶都可以通過手機(jī)、平板電腦、PC等各種終端和系統(tǒng)平臺實(shí)時(shí)更新和追蹤微博內(nèi)容。
除此之外,最為重要的原因是中國人口基數(shù)大,中國網(wǎng)民數(shù)量眾多,微博的使用人群數(shù)量也大,狀態(tài)信息更新頻繁、信息傳播迅速。根據(jù)中國互聯(lián)網(wǎng)信息中心的統(tǒng)計(jì),截至2011年12月底,中國網(wǎng)民數(shù)量突破5億,達(dá)到5.13億。眾多網(wǎng)民的背后,不僅有助于擴(kuò)充微博用戶群體規(guī)模,也為廣大商家和運(yùn)營商從微博中獲取商機(jī)帶來了便利。
微博大數(shù)據(jù):大商機(jī) 大煩惱
直觀、便捷、高效的傳播與轉(zhuǎn)發(fā)模式,是微博運(yùn)營商挖掘商機(jī)的潛在動力。每一個(gè)微博注冊用戶,既是用戶者同時(shí)也是消費(fèi)者。美國財(cái)經(jīng)網(wǎng)站CNNMoney曾撰文指出,F(xiàn)acebook每名用戶每個(gè)季度能給其貢獻(xiàn)1.21美元的營收,在這個(gè)微博火熱的時(shí)代,誰搶占了微博的先機(jī),誰就會在激烈的競爭中更脫穎而出。
隨著用戶的增加,微博將會逐步實(shí)現(xiàn)商業(yè)化。其核心是為用戶提供增值服務(wù),利用廣告對應(yīng)的頁面吸引粉絲互動,對品牌和產(chǎn)品進(jìn)行推廣,幫助微博運(yùn)營商實(shí)現(xiàn)盈利;另一方面,國內(nèi)外已經(jīng)出現(xiàn)很多專業(yè)數(shù)據(jù)挖掘和分析機(jī)構(gòu),利用微博平臺收集海量數(shù)據(jù),對微博用戶的言論和興趣愛好進(jìn)行分析,從微博“大數(shù)據(jù)”中挖掘商業(yè)價(jià)值。
然而,由于微博用戶、微博內(nèi)容及其復(fù)雜性的持續(xù)增加,要想實(shí)現(xiàn)高效、快速的從海量微博內(nèi)容中挖掘有價(jià)值的信息,并從中提煉出具有商業(yè)價(jià)值的決策分析數(shù)據(jù),對于任何一個(gè)數(shù)據(jù)挖掘的企業(yè)或者微博運(yùn)營商來說都面臨著極大的挑戰(zhàn)。
新浪微博平臺首席架構(gòu)師楊衛(wèi)華表示,一方面,微博運(yùn)營商需要提供高效、可靠、穩(wěn)定的微博平臺,支撐不斷增長的微博用戶和微博內(nèi)容,尤其是音視頻等海量非結(jié)構(gòu)化數(shù)據(jù)帶來的高訪問量需求;另一方面,要有符合開放、易用而又支持定制化、可輕松擴(kuò)展的數(shù)據(jù)挖掘平臺,充分利用已有的硬件平臺,支撐高效靈活的數(shù)據(jù)挖掘和分享應(yīng)用。
精“芯”構(gòu)建數(shù)據(jù)挖掘平臺
微博面臨的諸多挑戰(zhàn),其實(shí)也見證了大數(shù)據(jù)應(yīng)用下的常見困境。微博運(yùn)營商需要搭建起能夠支撐不斷增長的用戶訪問需求,并提供開放、可支持定制化的API,為運(yùn)營商和第三方實(shí)現(xiàn)微博數(shù)據(jù)價(jià)值挖掘奠定基礎(chǔ)。
新浪微博平臺首席架構(gòu)師楊衛(wèi)華就曾表示,很多突發(fā)事件的訪問峰值,會給微博運(yùn)營商帶來嚴(yán)峻挑戰(zhàn)。“(除此之外)我們還要關(guān)注怎么樣打造一個(gè)高性能架構(gòu)。”楊衛(wèi)華接著表示。這些問題的本質(zhì)其實(shí)是架構(gòu)需要考慮高訪問量、海量數(shù)據(jù)下的易于擴(kuò)展、低延遲、高可用和異地分布的問題。新浪微博每天有數(shù)十億外部網(wǎng)頁和API接口訪問需求。高性能系統(tǒng)要具備低延遲、高實(shí)時(shí)性的特點(diǎn)。微博的核心價(jià)值就在于實(shí)現(xiàn)高實(shí)時(shí)性,而實(shí)時(shí)性的核心就是盡可能讓數(shù)據(jù)鄰近CPU,避免出現(xiàn)磁盤IO問題。
新浪研發(fā)部平臺架構(gòu)高級總監(jiān)童劍也告訴記者,現(xiàn)在新浪微博的服務(wù)器群組,在晚上高峰期,每秒要接受100萬以上的響應(yīng)請求,壓力巨大。新浪也在不斷尋找性能更強(qiáng)的服務(wù)器來滿足他們的需求。為此,新浪微博從推出伊始就與英特爾建立起了廣泛的合作關(guān)系。得益于得天獨(dú)厚的優(yōu)勢,英特爾至強(qiáng)平臺能夠提供顯著的性能優(yōu)勢,即時(shí)響應(yīng)數(shù)百萬訪問請求和微博消息隊(duì)列處理。在此基礎(chǔ)上,一方面x86架構(gòu)能夠提供更具性價(jià)比的解決方案,能夠適應(yīng)和滿足新浪微博推出初期未能帶來盈利的問題,并支撐微博的持續(xù)發(fā)展和業(yè)務(wù)擴(kuò)充;另一方面,開放性架構(gòu)有助于新浪微博推廣和開放API,讓更多第三方依托微博平臺開發(fā)出微博數(shù)據(jù)挖掘等應(yīng)用。其開放性也體現(xiàn)在可以更好的兼容并支持微博程序代碼的優(yōu)化,滿足更高的資源整合和性能要求。
新浪微博平臺上的風(fēng)云榜、微數(shù)據(jù)、微報(bào)告,以及餐客等第三方微博數(shù)據(jù)挖掘,就是基于微博內(nèi)容對海量數(shù)據(jù)進(jìn)行挖掘和價(jià)值提煉的典型應(yīng)用。在基于英特爾架構(gòu)的基礎(chǔ)上,新浪還特別重視軟件層面的大數(shù)據(jù)解決方案。
根據(jù)楊衛(wèi)華的介紹,目前新浪微博主要采用2種方法來處理海量數(shù)據(jù),分別是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫和NoSQL。在關(guān)系數(shù)據(jù)庫中,可以通過sharding將數(shù)據(jù)分散至多臺服務(wù)器上,并針對不同時(shí)間段的熱門微博內(nèi)容或者關(guān)鍵詞,通過時(shí)間分片進(jìn)行sharding。比如針對微博熱詞或者微博賬號影響力按照一定規(guī)則進(jìn)行排序,提供風(fēng)云榜排名,也可支持微博用戶鑒定自我影響力和了解當(dāng)前熱門話題。NoSQL屬于非關(guān)系型數(shù)據(jù)庫,同時(shí)也是Hadoop框架中的HBase子模塊,能夠搭建起應(yīng)對微博海量數(shù)據(jù)的解決方案。對于音視頻、投票排名等非結(jié)構(gòu)化數(shù)據(jù),可以通過對微博數(shù)據(jù)按行業(yè)類別進(jìn)行挖掘、分析和處理,并將處理結(jié)果形成微報(bào)告,指導(dǎo)運(yùn)營工作。而開放API的新浪微博,也可以為第三方開發(fā)內(nèi)容更為豐富的微博數(shù)據(jù)挖掘應(yīng)用提供外部接口。不遠(yuǎn)的未來,新浪微博將升級系統(tǒng),直接采用能夠與現(xiàn)有架構(gòu)實(shí)現(xiàn)完美支持、并將性能發(fā)揮至極致的英特爾Hadoop發(fā)行版,實(shí)現(xiàn)大數(shù)據(jù)完整解決方案。
英特爾Hadoop發(fā)行版,專門針對英特爾架構(gòu)平臺進(jìn)行了一系列優(yōu)化,能獲得比非英特爾發(fā)行版Hadoop的性能實(shí)現(xiàn)成倍增長,使其處理能力達(dá)到或者接近于實(shí)時(shí)的效果,同時(shí)可確保更好的穩(wěn)定性。英特爾Hadoop Manager 2.0可幫助管理員簡化Hadoop的部署和管理工作,提高效率。這些,讓已經(jīng)部署了英特爾硬件平臺的新浪微博看到了希望,精“芯”構(gòu)筑的軟硬一體數(shù)據(jù)挖掘平臺,為開放API給第三方提供更多微博數(shù)據(jù)挖掘提供更好支持。
總結(jié):
大數(shù)據(jù),既是一種機(jī)遇也是一種挑戰(zhàn)。作為國內(nèi)最大的微博平臺,新浪微博在應(yīng)對不斷增長的微博用戶和數(shù)據(jù)內(nèi)容帶來的挑戰(zhàn)的同時(shí),也需要特別抓住微博帶來的巨大商業(yè)價(jià)值。基于英特爾平臺的底層架構(gòu)和英特爾Hadoop發(fā)行版分布式處理系統(tǒng),可以幫助提供可靠、高效而又易于擴(kuò)展的微博平臺。在實(shí)現(xiàn)新浪微博通過微博數(shù)據(jù)進(jìn)行挖掘,滿足微博用戶個(gè)性化應(yīng)用體驗(yàn)的同時(shí),也可以滿足第三方挖掘微博數(shù)據(jù)價(jià)值為企業(yè)提供決策參考的需求。
免責(zé)聲明:本網(wǎng)站(http://www.www.gypb.net/)內(nèi)容主要來自原創(chuàng)、合作媒體供稿和第三方投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
本網(wǎng)站刊載的所有內(nèi)容(包括但不僅限文字、圖片、LOGO、音頻、視頻、軟件、程序等)版權(quán)歸原作者所有。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),請及時(shí)通知本站,予以刪除。
