2019-07-29 11:33:08 來源:數(shù)據(jù)工匠俱樂部

圖1. 物聯(lián)網(wǎng)、工業(yè)4.0數(shù)據(jù)特征:時序空間數(shù)據(jù)12大特點
聯(lián)網(wǎng)的設(shè)備按照設(shè)定的周期,或受外部的事件觸發(fā),源源不斷的產(chǎn)生數(shù)據(jù),每一個數(shù)據(jù)點是在一時間點產(chǎn)生的,這個時間對于數(shù)據(jù)的計算和分析十分重要,必須要記錄。
網(wǎng)絡(luò)爬蟲的數(shù)據(jù)、微博、微信的海量數(shù)據(jù)都是非結(jié)構(gòu)化的,可以是文字、圖片、視頻等等。但物聯(lián)網(wǎng)設(shè)備產(chǎn)生的數(shù)據(jù)往往是結(jié)構(gòu)化的,而且是數(shù)值型的,比如智能電表采集的電流、電壓就可以用4字節(jié)的標準的浮點數(shù)來表示。
聯(lián)網(wǎng)設(shè)備產(chǎn)生的數(shù)據(jù)是機器日志數(shù)據(jù),一般不容許而且也沒有修改的必要。很少有場景,需要對采集的原始數(shù)據(jù)進行修改。但對于一個典型的信息化或互聯(lián)網(wǎng)應(yīng)用,記錄是一定可以修改或刪除的。
一個物聯(lián)網(wǎng)設(shè)備采集的數(shù)據(jù)與另外一個設(shè)備采集的數(shù)據(jù)是完全獨立的。一臺設(shè)備的數(shù)據(jù)一定是這臺設(shè)備產(chǎn)生的,不可能是人工或其他設(shè)備產(chǎn)生的,也就是說一臺設(shè)備的數(shù)據(jù)只有一個生產(chǎn)者,數(shù)據(jù)源是唯一的。
對于互聯(lián)網(wǎng)應(yīng)用,一條數(shù)據(jù)記錄,往往是一次寫,很多次讀。比如一條微博或一篇微信公共號文章,一次寫,但有可能上百萬人讀。但物聯(lián)網(wǎng)設(shè)備產(chǎn)生的數(shù)據(jù)不一樣,對于產(chǎn)生的數(shù)據(jù),一般是計算、分析程序自動的讀,而且計算、分析次數(shù)不多,只有分析事故等場景,人才會主動看原始數(shù)據(jù)。
對于一條銀行記錄,或者一條微博、微信,對于它的用戶而言,每一條都很重要。但對于物聯(lián)網(wǎng)數(shù)據(jù),每個數(shù)據(jù)點與數(shù)據(jù)點的變化并不大,一般是漸變的,大家關(guān)心的更多是一段時間,比如過去的五分鐘,過去的一個小時數(shù)據(jù)變化的趨勢,一般對某一特定時間點的數(shù)據(jù)值并不關(guān)注。
采集的數(shù)據(jù)一般都有基于時長的保留策略,比如僅僅保留一天、一周、一個月、一年甚至更長時間,為節(jié)省存儲空間,系統(tǒng)最好能自動刪除。
對于物聯(lián)網(wǎng)數(shù)據(jù),做計算和分析的時候,一定是指定時間范圍的,不會只針對一個時間點或者整個歷史進行。而且往往需要根據(jù)分析的維度,對物聯(lián)網(wǎng)設(shè)備的一個子集采集的數(shù)據(jù)進行分析,比如某個地理區(qū)域的設(shè)備,某個型號、某個批次的設(shè)備,某個廠商的設(shè)備等。
對于大部分互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用,更多的是離線分析,即使有實時分析,但實時分析的要求并不高。比如用戶畫像、可以積累一定的用戶行為數(shù)據(jù)后進行,早一天晚一天畫不會怎么影響結(jié)果。但是對于物聯(lián)網(wǎng)應(yīng)用,對數(shù)據(jù)的實時計算要求往往很高,因為需要根據(jù)計算結(jié)果進行實時報警,以避免事故的發(fā)生。
給定物聯(lián)網(wǎng)數(shù)量、數(shù)據(jù)采集頻次,就可以較為準確的估算出所需要的帶寬和流量,每天新生成的數(shù)據(jù)大小。而不是像電商,在雙11期間,淘寶、天貓、京東等流量是幾十倍的漲幅。不像12306網(wǎng)站,春節(jié)期間,網(wǎng)站流量是幾十倍的增長。
與典型的互聯(lián)網(wǎng)相比,還有不一樣的數(shù)據(jù)處理需求。比如要檢查某個具體時間的設(shè)備采集的某個量,但傳感器實際采集的時間不是這個時間點,這時候往往需要做插值處理。還有很多場景,需要基于采集量,做復(fù)雜的數(shù)學(xué)函數(shù)計算。
以智能電表為例,一臺智能電表每隔15分鐘采集一次數(shù)據(jù),每天自動生成96條記錄,全國就有接近5億臺智能電表,每天光智能電表就生成近500億條記錄。一臺聯(lián)網(wǎng)的汽車每隔10到15秒就采集一次數(shù)據(jù)發(fā)到云端,一臺車一天就很容易產(chǎn)生1000條記錄。如果中國2億輛車全部聯(lián)網(wǎng),每天將產(chǎn)生2000億條記錄。五年之內(nèi),物聯(lián)網(wǎng)設(shè)備產(chǎn)生的數(shù)據(jù)將占世界數(shù)據(jù)總量的90%以上。
物聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)的數(shù)據(jù)是流式數(shù)據(jù),象視頻流,而且單個數(shù)據(jù)點的價值很低,甚至丟失一小段時間的數(shù)據(jù)也不影響分析的結(jié)論,也不影響系統(tǒng)的正常運行。但看似簡單的事情,由于數(shù)據(jù)記錄條數(shù)巨大,導(dǎo)致數(shù)據(jù)的實時寫入成為瓶頸,查詢分析極為 緩慢,成為新的技術(shù)挑戰(zhàn)。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫、NoSQL 數(shù)據(jù)庫以及流式計算引擎由于沒有充分利用物聯(lián)網(wǎng)數(shù)據(jù)的特點,性能提升極為有限,只能依靠集群技術(shù),投入更多的計算資源 和存儲資源來處理,系統(tǒng)的運營維護成本急劇上升。
面對這一高速增長的物聯(lián)網(wǎng)數(shù)據(jù)市場,近幾年出現(xiàn)一批專注時序數(shù)據(jù)處理的公司,比如美國的InfluxData,其融資已經(jīng)超過1.3億美元,其產(chǎn)品InfluxDB在IT運維監(jiān)測方面有相當?shù)氖袌稣加新省T诠I(yè)控制領(lǐng)域老牌實時數(shù)據(jù)庫公司OSIsoft在2017年5月獲得軟銀12億美元的投資,期望成為新興的物聯(lián)網(wǎng)領(lǐng)域的數(shù)據(jù)庫的領(lǐng)頭羊。開源社區(qū)也十分活躍,比如基于HBase開發(fā)的OpenTSDB。中國國內(nèi),阿里、百度、華為都有基于OpenTSDB的產(chǎn)品。
筆者帶領(lǐng)團隊在吸取眾多傳統(tǒng)關(guān)系型數(shù)據(jù)庫、NoSQL 數(shù)據(jù)庫、流式計算引擎、消息隊列等軟件的優(yōu)點之后自主開發(fā)了TDengine, 一個完整的時序大數(shù)據(jù)處理引擎。TDengine的性能遠超InfluxDB, 而且其安裝、部署、維護簡單,使用SQL接口,學(xué)習成本幾乎為零,有望成為時序數(shù)據(jù)處理市場的一匹黑馬。
免責聲明:本網(wǎng)站(http://www.www.gypb.net/)內(nèi)容主要來自原創(chuàng)、合作媒體供稿和第三方投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
本網(wǎng)站刊載的所有內(nèi)容(包括但不僅限文字、圖片、LOGO、音頻、視頻、軟件、程序等)版權(quán)歸原作者所有。任何單位或個人認為本網(wǎng)站中的內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,請及時通知本站,予以刪除。
