2012-08-29 14:34:25 來源:機房360
數(shù)據(jù)治理的作用便是為了保護大數(shù)據(jù)。雖然大數(shù)據(jù)通常涉及到大量非結(jié)構(gòu)化信息,許多企業(yè)的IT部門發(fā)現(xiàn)大數(shù)據(jù)還僅僅只是最近的現(xiàn)象。因此,根據(jù)數(shù)據(jù)管理分析師表示,大數(shù)據(jù)的環(huán)境治理還處在其早期階段,關(guān)于如何有效地進行大數(shù)據(jù)的管理還存在諸多廣泛的方法。
“大數(shù)據(jù)是這樣一個新的領(lǐng)域,到目前為止還沒有人開發(fā)出相關(guān)的管理程序和政策。”Forrester研究公司的分析師BorisEvelson在馬薩諸塞州劍橋說。“而且存在的問題比答案要多得多。”
一個根本的問題是,大數(shù)據(jù)池更多的是面向數(shù)據(jù)的勘探和發(fā)現(xiàn),而非傳統(tǒng)的商業(yè)智能報告和分析,Evelson補充說。他說,這帶來了一個惡性循環(huán):“數(shù)據(jù)不能被管理直到其被模型化,但又必須在通過數(shù)據(jù)分析之后才能被模型化。”
數(shù)據(jù)管理程序提供了一個框架,用于設(shè)置數(shù)據(jù)使用政策和實施控制,以確保信息保持準確一致和可以被訪問。顯然,在這個重大挑戰(zhàn)的過程中,管理大數(shù)據(jù)需要分類、建模和數(shù)據(jù)映射,并進行數(shù)據(jù)捕獲和儲存,特別是針對大量非結(jié)構(gòu)化特性的信息。
“為了從大數(shù)據(jù)中獲得有意義的商業(yè)信息,我們需要做各種各樣的準備工作,類似于數(shù)據(jù)的語義分析,然后將其渲染成概念模型或本體的語義分析。”位于新澤西州Holmdel的數(shù)據(jù)管理的顧問公司AskGet的總裁馬爾科姆·奇澤姆說。
在大數(shù)據(jù)中尋找線索
困難的是,大數(shù)據(jù)治理過程中的一切是那么的新。“在談到大數(shù)據(jù)時,存在著很大的不成熟,大部分數(shù)據(jù)管理者真的可以說是毫無頭緒。”奇澤姆說。
大數(shù)據(jù),其中也包括大量的結(jié)構(gòu)性交易數(shù)據(jù),具有特殊的功能。通常用三個詞來定義:數(shù)量、種類和速度。而Forrester還在其定義中增加了變化性這一特性,而其對手咨詢公司Gartner則將這一特性定義為復(fù)雜性。
此外,數(shù)據(jù)往往來自外部來源,其準確性并不總是能很容易地驗證;同時,文本數(shù)據(jù)的含義和上下文不一定是連貫的。在許多情況下,它存儲在Hadoop的文件系統(tǒng)或NoSQL數(shù)據(jù)庫,而不是傳統(tǒng)的數(shù)據(jù)倉庫。對于許多企業(yè)來說,大數(shù)據(jù)涉及所有有關(guān)的人員:IT經(jīng)理、程序員、數(shù)據(jù)架構(gòu)師、數(shù)據(jù)建模師和數(shù)據(jù)管理專業(yè)人員。
美國馬薩諸塞州斯托雅典娜IT解決方案的創(chuàng)始人兼顧問里克·謝爾曼說,試圖管理海量大數(shù)據(jù)的最大隱患之一是失去的業(yè)務(wù)優(yōu)先級的視線。
例如,被企業(yè)抓獲的大部分非結(jié)構(gòu)化數(shù)據(jù)來自社會媒體,通常只有一小部分信息是有價值的,根據(jù)謝爾曼介紹。“試圖管理或控制一切非結(jié)構(gòu)化數(shù)據(jù),將是一個很大的錯誤。”他警告說,企業(yè)最終可能會浪費時間和資源在不重要的數(shù)據(jù)上面。
加利福尼亞州紐瓦克GraniteFalls咨詢公司總裁DanetteMcGilvray表示,如果沒有經(jīng)過理性的處理,大數(shù)據(jù)對數(shù)據(jù)管理和治理團隊來說只可能是在消磨時間。“我們分辨大數(shù)據(jù)是否是值得管理的唯一途徑是:我們必須知道哪些業(yè)務(wù)需要這些數(shù)據(jù)。”McGilvray說。“當(dāng)涉及到大數(shù)據(jù),我們?nèi)匀槐仨氂涀∵@一點。”
位于美國佛羅里達州奧蘭多的數(shù)據(jù)治理研究有限責(zé)任公司,是一家咨詢和培訓(xùn)公司,其創(chuàng)始人兼總裁格溫·托馬斯建議,傳入數(shù)據(jù)的質(zhì)量判斷應(yīng)該是數(shù)據(jù)管理經(jīng)理的首要任務(wù)之一。她說,積極進行數(shù)據(jù)質(zhì)量檢查,可以節(jié)省很多時間和減少很多麻煩。
托馬斯說,新數(shù)據(jù)映射到企業(yè)相關(guān)使用分類信息參考數(shù)據(jù)的重要性經(jīng)常被低估。大數(shù)據(jù)與現(xiàn)有參考數(shù)據(jù)的對齊是“一個巨大的細節(jié)問題”她說。“事實上,如果這樣做的不對,大數(shù)據(jù)的處理結(jié)果信息可能會產(chǎn)生誤導(dǎo),不準確或不完整的。”
為了幫助確保正確的數(shù)據(jù)映射,任務(wù)應(yīng)該被分配到一個高級數(shù)據(jù)架構(gòu)師,而不是留給一位不太有經(jīng)驗的數(shù)據(jù)建模師或于IT無關(guān)的人員,托馬斯表示。
奇澤姆說,數(shù)據(jù)管理經(jīng)理也應(yīng)優(yōu)先與那些經(jīng)常啟動大數(shù)據(jù)裝置的程序員和數(shù)據(jù)模型企業(yè)用戶進行對話。不過,這樣的討論應(yīng)該從Hadoop和NoSQL的技術(shù)升值、以及他們與關(guān)系數(shù)據(jù)庫有何不同、已經(jīng)對需要一個統(tǒng)一的方法來管理的理解開始。
企業(yè)應(yīng)該避免讓程序員和用戶從筒倉驅(qū)動的角度來建立大數(shù)據(jù)系統(tǒng)和所需的數(shù)據(jù)模型和映射工作。這可能會耗費很多的費用,造成設(shè)施不足,無法達到預(yù)期的商業(yè)利益,同時又浪費了不必要的系統(tǒng)投資。
免責(zé)聲明:本網(wǎng)站(http://www.www.gypb.net/)內(nèi)容主要來自原創(chuàng)、合作媒體供稿和第三方投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
本網(wǎng)站刊載的所有內(nèi)容(包括但不僅限文字、圖片、LOGO、音頻、視頻、軟件、程序等)版權(quán)歸原作者所有。任何單位或個人認為本網(wǎng)站中的內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,請及時通知本站,予以刪除。
