數(shu)(shu)(shu)據(ju)湖(hu)(Data Lake)是(shi)一(yi)種(zhong)在系統或存儲庫中(zhong)以自然格式存儲數(shu)(shu)(shu)據(ju)的(de)方法,它有(you)助于(yu)以各(ge)(ge)種(zhong)模(mo)式和結構形式配置數(shu)(shu)(shu)據(ju),通常是(shi)對象(xiang)塊或文件(jian)。數(shu)(shu)(shu)據(ju)湖(hu)的(de)主要思想是(shi)對企業中(zhong)的(de)所(suo)有(you)數(shu)(shu)(shu)據(ju)進行統一(yi)存儲,從原始數(shu)(shu)(shu)據(ju)(這(zhe)意(yi)味著(zhu)源系統數(shu)(shu)(shu)據(ju)的(de)精確副本)轉換為用于(yu)報(bao)告、可視化、分析、機器學習等各(ge)(ge)種(zhong)任(ren)務的(de)轉換數(shu)(shu)(shu)據(ju)。
湖(hu)中的數據(ju)包括:結構化(hua)(hua)數據(ju)從關系數據(ju)庫(行和列(lie)),半結構化(hua)(hua)數據(ju)(CSV、XML、JSON的日志),非(fei)結構化(hua)(hua)數據(ju)(電子郵(you)件,文檔,PDF),二進(jin)制數據(ju)(圖(tu)像、音頻、視頻),從而形(xing)成一個集中式(shi)數據(ju)存(cun)儲容納所有形(xing)式(shi)的數據(ju)。[1]
數(shu)(shu)(shu)(shu)據(ju)(ju)湖的(de)概念,是相對(dui)于數(shu)(shu)(shu)(shu)據(ju)(ju)倉庫(ku)的(de)預先數(shu)(shu)(shu)(shu)據(ju)(ju)高(gao)度結構(gou)化(hua)(hua)寫入格式(scheme on write)而言的(de)。由于大部分(fen)數(shu)(shu)(shu)(shu)據(ju)(ju)的(de)價值還沒有完全明確,因此無法做到足夠的(de)結構(gou)化(hua)(hua)。此時(shi),就盡可(ke)能接收原(yuan)始(shi)數(shu)(shu)(shu)(shu)據(ju)(ju),等到需要(yao)讀取時(shi)再按照讀取模(mo)式(scheme on read)進行數(shu)(shu)(shu)(shu)據(ju)(ju)組織。
一、數據湖的特點及云端數據治理的必要性
數據湖(hu)是(shi)包含兩個(ge)特征(zheng)的信(xin)息系統(tong):
1) 可以(yi)保存大(da)數(shu)據的并行(xing)系統;
2) 能夠在數(shu)據(ju)不(bu)移動(dong)的情況下進行計算的系(xi)統(tong)。
這意味(wei)著,數據本身的服務化、運(yun)營化被提上了(le)日程。通過(guo)不同的轉(zhuan)換、清洗(xi)等數據治理體系,將原始數據最(zui)終以業務需要的模式有效輸(shu)出。
但從另一(yi)方面說,要充分(fen)利用數(shu)(shu)據(ju)(ju)(ju)湖(hu)的(de)(de)(de)(de)(de)能力(li),就(jiu)需要從整個IT及數(shu)(shu)據(ju)(ju)(ju)治(zhi)理(li)的(de)(de)(de)(de)(de)角度(du)來(lai)構建有(you)(you)效(xiao)的(de)(de)(de)(de)(de)數(shu)(shu)據(ju)(ju)(ju)輸(shu)入輸(shu)出,否(fou)則(ze)極(ji)其容(rong)易出現(xian)“單向”數(shu)(shu)據(ju)(ju)(ju)湖(hu),進而演變成數(shu)(shu)據(ju)(ju)(ju)的(de)(de)(de)(de)(de)垃圾場。在數(shu)(shu)據(ju)(ju)(ju)倉庫之父Bill Inmon的(de)(de)(de)(de)(de)專著《數(shu)(shu)據(ju)(ju)(ju)湖(hu)架構》中(zhong),提出了通(tong)過(guo)分(fen)類數(shu)(shu)據(ju)(ju)(ju)池(pool)的(de)(de)(de)(de)(de)模式,來(lai)構建一(yi)個具備分(fen)析操作(zuo)能力(li)的(de)(de)(de)(de)(de)數(shu)(shu)據(ju)(ju)(ju)湖(hu)的(de)(de)(de)(de)(de)架構,從而達到(dao)數(shu)(shu)據(ju)(ju)(ju)的(de)(de)(de)(de)(de)最大效(xiao)用比。[2]Bill的(de)(de)(de)(de)(de)思路(lu)沒有(you)(you)問題,但如何針對各種(zhong)繁雜的(de)(de)(de)(de)(de)業務(wu)流程進行(xing)不(bu)(bu)(bu)同(tong)分(fen)類數(shu)(shu)據(ju)(ju)(ju)池的(de)(de)(de)(de)(de)構建,則(ze)需要根據(ju)(ju)(ju)不(bu)(bu)(bu)同(tong)行(xing)業的(de)(de)(de)(de)(de)特點來(lai)合理(li)規劃不(bu)(bu)(bu)同(tong)數(shu)(shu)據(ju)(ju)(ju)池。也就(jiu)是(shi)說,要構建有(you)(you)效(xiao)的(de)(de)(de)(de)(de)數(shu)(shu)據(ju)(ju)(ju)湖(hu)架構,必須要有(you)(you)合理(li)的(de)(de)(de)(de)(de)數(shu)(shu)據(ju)(ju)(ju)治(zhi)理(li)體(ti)系。
圖 數據生命周期管理&數據安全管理
二、云端數據治理的定義
目前越(yue)來(lai)越(yue)多(duo)的(de)企(qi)業(ye)將(jiang)業(ye)務系(xi)統數(shu)據(ju)(ju)部署在云端(duan),其在操作方面的(de)新(xin)特點,如(ru)數(shu)據(ju)(ju)的(de)遠程存(cun)儲和傳輸、數(shu)據(ju)(ju)安全性等,都超(chao)越(yue)了傳統的(de)數(shu)據(ju)(ju)治理體系(xi)范疇(chou),這就引(yin)出(chu)了云端(duan)數(shu)據(ju)(ju)治理的(de)體系(xi)。
云(yun)(yun)端數(shu)(shu)(shu)(shu)據(ju)治理是以云(yun)(yun)端數(shu)(shu)(shu)(shu)據(ju)為主要治理對象,制定與(yu)云(yun)(yun)端數(shu)(shu)(shu)(shu)據(ju)戰略(lve)、數(shu)(shu)(shu)(shu)據(ju)管(guan)理、數(shu)(shu)(shu)(shu)據(ju)優(you)(you)化、數(shu)(shu)(shu)(shu)據(ju)安全、隱私(si)保護等(deng)相關(guan)策略(lve),指導組織規劃(hua)、構(gou)建、評(ping)估、優(you)(you)化數(shu)(shu)(shu)(shu)據(ju)治理體系(xi)的活動集合。[3]
一個(ge)完整(zheng)的(de)云端數(shu)據(ju)治(zhi)流程主要圍(wei)繞如下方(fang)面(mian)實施:管(guan)(guan)理元數(shu)據(ju)、管(guan)(guan)理主數(shu)據(ju)、提高數(shu)據(ju)質量、數(shu)據(ju)生命周期(qi)管(guan)(guan)理、數(shu)據(ju)安全管(guan)(guan)理,然后通(tong)過在不同數(shu)據(ju)池中(zhong)進行(xing)各個(ge)方(fang)面(mian)的(de)過程實施,構建一個(ge)有效數(shu)據(ju)湖。
“無治理不信(xin)息”,是指這里的(de)數據要轉(zhuan)變為信(xin)息,進而(er)提煉成知識,必須(xu)通過(guo)數據治理,才(cai)能帶來更多的(de)價值。
圖 數據生命周期管理中的成本考量
三、安防和AI的數據湖
3.1 安防視頻監控系統的數據要求
對(dui)一(yi)套(tao)安防(fang)系統(tong)(tong)而(er)言,數以萬計的(de)相機接入,數據(ju)(ju)洪流(liu)源源不斷流(liu)入后(hou)端云存儲系統(tong)(tong)中,導致(zhi)如下幾個數據(ju)(ju)訴(su)求:
1、海量多(duo)媒(mei)體(ti)數據(ju)內容組(zu)織、檢索;具體(ti)來(lai)講(jiang),對圖像的調度(du)時間要(yao)求≤1秒(miao);
編解碼及(ji)整網傳輸延時(shi)≤300毫秒;監(jian)控(kong)系統(tong)規模再大也不(bu)能影響這個指(zhi)標;
多維度的內(nei)容組織及挖掘,前端及后(hou)端智能結合,內(nei)容大(da)數據索引化(hua)。
圖 宇視SMV安防機器視覺戰略框圖
2、數據保存的安(an)全可靠性
圖(tu)像數據(ju)需要專業存(cun)儲設備存(cun)儲并(bing)用RAID,甚至(zhi)多(duo)節點糾刪卷進(jin)行(xing)保護;讀(du)寫分離體系,數據(ju)存(cun)儲永(yong)遠放在第一位保證,無論錄像還是圖(tu)片;
優化的數據組織方式,更(geng)懂存儲特質(zhi)的數據業務設計,最(zui)大化挖掘不同(tong)存儲介質(zhi)性能;
端(duan)到(dao)端(duan)接入授權(quan)、全鏈路數據加密保(bao)障(zhang)的安全保(bao)障(zhang),無(wu)論是中間網絡(luo)截獲還是存儲介質暴露,均無(wu)法直接恢復出有效數據。
3.2 AI帶來的數據存儲挑戰
一方(fang)面,存(cun)儲(chu)對象(xiang)由最(zui)早單(dan)純(chun)的(de)(de)(de)(de)原始視(shi)頻變到了視(shi)頻、圖片、AI分析后(hou)的(de)(de)(de)(de)結(jie)構化(hua)半結(jie)構化(hua)數據(ju)。對象(xiang)的(de)(de)(de)(de)改變,使(shi)得存(cun)儲(chu)系統要(yao)更多的(de)(de)(de)(de)考慮(lv),如何更好的(de)(de)(de)(de)去(qu)(qu)適配多樣化(hua)的(de)(de)(de)(de)存(cun)儲(chu)對象(xiang)?如何最(zui)高效的(de)(de)(de)(de)去(qu)(qu)存(cun)儲(chu)各類數據(ju),并提供可(ke)靠(kao)的(de)(de)(de)(de)保護?海量(liang)小(xiao)文(wen)件混合存(cun)儲(chu)的(de)(de)(de)(de)時候,如何避免(mian)傳統存(cun)儲(chu)中性能的(de)(de)(de)(de)大打折扣?
另一方面,存(cun)儲的(de)寫讀模型也(ye)發生了(le)大變(bian)化(hua)。原(yuan)先的(de)原(yuan)始視頻(pin)存(cun)入(ru)存(cun)儲后基本(ben)不會(hui)被調(diao)閱,寫讀模型基本(ben)為(wei)10:1,但(dan)AI技(ji)術的(de)出(chu)現徹底(di)激活了(le)這(zhe)些數據,存(cun)入(ru)的(de)視頻(pin)可以被高(gao)(gao)性(xing)能分析(xi)服務器(qi)提(ti)取進(jin)行人物分析(xi)、車型分析(xi)、結構(gou)化(hua)分析(xi),寫讀模型也(ye)變(bian)成了(le)1:1甚至(zhi)是(shi)1:N。在這(zhe)樣的(de)寫讀模型下,對(dui)存(cun)儲設備也(ye)提(ti)出(chu)了(le)更(geng)高(gao)(gao)要(yao)(yao)求(qiu),存(cun)儲不再是(shi)單單考(kao)慮(lv)如何存(cun)的(de)更(geng)快(kuai)存(cun)的(de)更(geng)多,而是(shi)要(yao)(yao)考(kao)慮(lv)如何與AI業務融合,最(zui)優結合。
而當(dang)AI技術對數(shu)(shu)據價(jia)值進行提煉后(hou)(hou),提煉出來的(de)(de)(de)數(shu)(shu)據價(jia)值就發生(sheng)了變(bian)化。例如:可能原(yuan)始視頻(pin)只需要(yao)保留(liu)30天,但是(shi)經(jing)過(guo)結構化分析(xi)后(hou)(hou)的(de)(de)(de)涉案嫌疑人圖片的(de)(de)(de)重(zhong)要(yao)性就不(bu)言而喻了,需要(yao)永久保存。所以當(dang)一套(tao)存儲系(xi)統中存在這(zhe)樣(yang)那樣(yang)不(bu)同(tong)重(zhong)要(yao)程(cheng)度的(de)(de)(de)數(shu)(shu)據時,完善的(de)(de)(de)生(sheng)命周期管理(li)體系(xi)、如何來區分數(shu)(shu)據的(de)(de)(de)重(zhong)要(yao)性,并提供(gong)有(you)層次的(de)(de)(de)保護技術就變(bian)得尤為(wei)重(zhong)要(yao)。
當(dang)上面(mian)的(de)種(zhong)種(zhong)挑戰(zhan)出現后,我們(men)還將(jiang)直(zhi)面(mian)一個(ge)現實問題:在爆炸(zha)量的(de)數據(ju)、超高(gao)的(de)性(xing)能要求和(he)翻倍的(de)成本面(mian)前,我們(men)如何去(qu)追求性(xing)能容量的(de)最優配比,找(zhao)到最低TCO的(de)方案(an),實現最優解。
這一系列的(de)變(bian)化,促使安防數(shu)(shu)據(ju)(ju)已(yi)經演變(bian)成了一個(ge)新的(de)數(shu)(shu)據(ju)(ju)湖,必須借(jie)助(zhu)一系列的(de)數(shu)(shu)據(ju)(ju)治(zhi)理手段(duan),才能推動數(shu)(shu)據(ju)(ju)的(de)有效利用。
圖 數據在不同存儲介質之間的流轉模式
四、宇視云存儲的數據湖解決方案
2016年(nian),宇(yu)視(shi)(shi)發布SMV安(an)(an)防(fang)(fang)機器視(shi)(shi)覺戰略,其中(zhong)很重要的(de)(de)一點就是(shi)充分(fen)認(ren)識(shi)AI對(dui)于安(an)(an)防(fang)(fang)數(shu)(shu)(shu)(shu)(shu)據(ju)的(de)(de)變革訴求(qiu)。以(yi)視(shi)(shi)圖(tu)服(fu)務(wu)化體(ti)(ti)系(xi)模式,在(zai)宇(yu)視(shi)(shi)云存儲中(zhong)通過(guo)構(gou)建“視(shi)(shi)頻(pin)原(yuan)始(shi)數(shu)(shu)(shu)(shu)(shu)據(ju)池(chi)(chi)”、“圖(tu)片(pian)原(yuan)始(shi)數(shu)(shu)(shu)(shu)(shu)據(ju)池(chi)(chi)”、“半(ban)結構(gou)化數(shu)(shu)(shu)(shu)(shu)據(ju)池(chi)(chi)”、“結構(gou)化數(shu)(shu)(shu)(shu)(shu)據(ju)池(chi)(chi)”、“歸檔(dang)數(shu)(shu)(shu)(shu)(shu)據(ju)池(chi)(chi)”等多個數(shu)(shu)(shu)(shu)(shu)據(ju)池(chi)(chi)的(de)(de)聯動,并根(gen)據(ju)數(shu)(shu)(shu)(shu)(shu)據(ju)特點引入SSD、硬盤、磁帶庫等不(bu)同存儲介質來適(shi)配下圖(tu)中(zhong)數(shu)(shu)(shu)(shu)(shu)據(ju)訪問模型,在(zai)統一的(de)(de)數(shu)(shu)(shu)(shu)(shu)據(ju)治理框架(jia)下,通過(guo)安(an)(an)防(fang)(fang)標(biao)準(zhun)和(he)TCO的(de)(de)統一考量(liang)體(ti)(ti)系(xi),借助不(bu)同介質特點,控制數(shu)(shu)(shu)(shu)(shu)據(ju)的(de)(de)流轉,達到數(shu)(shu)(shu)(shu)(shu)據(ju)生命周期管理的(de)(de)最佳實踐,真正構(gou)建出高效有(you)用的(de)(de)安(an)(an)防(fang)(fang)數(shu)(shu)(shu)(shu)(shu)據(ju)湖。
圖 數據分割對安全的輔助作用
4.1 原始數據池的治理
主數據:對于原始視頻或圖片來說,數據(ju)(ju)本身(shen)即是主數據(ju)(ju);
元數據:對于視(shi)(shi)頻監(jian)控系統來說,視(shi)(shi)頻或圖(tu)片(pian)對時間性(xing)有天生的(de)(de)(de)訴求(qiu),以時間作(zuo)為元數據(ju)(ju)(ju)進行主數據(ju)(ju)(ju)的(de)(de)(de)管理,能達(da)到便捷調(diao)取(qu)“一(yi)手數據(ju)(ju)(ju)”的(de)(de)(de)目的(de)(de)(de),如(ru)視(shi)(shi)頻回放、圖(tu)片(pian)瀏覽;
數據生命周期管理:安防原始數據,嚴格按照各個部門體系要求的留存期(如相關部門要求90天)進行生命周期管理,超過留存期則需要刪除老的視頻或圖片;
TCO考量:從數據(ju)使(shi)用頻率來看,依然有明顯(xian)冷熱區別,而且有非常明顯(xian)的(de)時間(jian)相關性,這樣就可以(yi)靈活控制原始數據(ju)在(zai)帶電內存緩存層、SSD加速層、硬盤(pan)主存儲空間(jian)層、磁帶庫歸檔存儲層之間(jian)流轉(zhuan),最大化(hua)TCO應(ying)用。
數據安全控制,重點(dian)包括:
自(zi)定義(yi)的從源(yuan)頭對圖(tu)像進行保護,從非(fei)法途徑獲(huo)取原(yuan)始視(shi)頻都是(shi)馬(ma)賽克效果,視(shi)頻只能(neng)在平臺(tai)內正常查看;
離線下載圖像(xiang)專(zhuan)(zhuan)人專(zhuan)(zhuan)用,專(zhuan)(zhuan)門密鑰保護;通(tong)過和身(shen)份(fen)水印結(jie)合(he),即便用手(shou)機等設(she)備(bei)翻(fan)拍,也能夠追溯泄漏途(tu)徑;
不基于文件(jian)進行存(cun)儲組織,自定義數據節(jie)點(dian)內及節(jie)點(dian)間(jian)離散策略、存(cun)儲空間(jian)多節(jie)點(dian)拉通池化、數據塊級格式保護,非平(ping)臺內操作,數據無跡可尋(xun)。
圖 宇視云存儲架構框圖
4.2 半結構化數據池的建設
主數據:對安防監控系(xi)統來說,半結構(gou)化(hua)數據主要是一(yi)種數據轉換的(de)中間過程,比如(ru)對一(yi)段視(shi)頻(pin)識別出來的(de)有相(xiang)關(guan)物(wu)體存在(zai)的(de)片(pian)段視(shi)頻(pin)文(wen)件,以及(ji)相(xiang)關(guan)運動(dong)信息文(wen)本、車輛圖片(pian)中摳取的(de)駕駛員信息或車牌信息及(ji)其(qi)相(xiang)關(guan)區域小圖、識別算(suan)法輸出的(de)特質碼數據等等。
元數據:根據時(shi)間,組織(zhi)車牌(pai)、運動特(te)征(zheng)與相關文件、圖(tu)片的對應關系(xi),但這個(ge)關系(xi)本身也包含很多無模式的數(shu)據列(lie),最終(zhong)形成時(shi)空(kong)數(shu)據庫進行(xing)元(yuan)數(shu)據管理,元(yuan)數(shu)據量(liang)(liang)級(ji)往往不是特(te)別多,數(shu)據量(liang)(liang)一(yi)(yi)般在TB級(ji)以(yi)內(nei),此(ci)外對于元(yuan)數(shu)據本身還(huan)有一(yi)(yi)個(ge)數(shu)據清洗的過(guo)程(cheng),如基(ji)于識(shi)(shi)別算法的數(shu)據可以(yi)將識(shi)(shi)別率比(bi)較差的數(shu)據進行(xing)排除。
數據生命周期管理:這種業務中(zhong),元(yuan)數(shu)(shu)(shu)據(ju)的(de)生命(ming)周期與部(bu)分主數(shu)(shu)(shu)據(ju)不一(yi)定一(yi)致,因為這里的(de)元(yuan)數(shu)(shu)(shu)據(ju)還有(you)進一(yi)步歷史深(shen)度分析的(de)可能,而部(bu)分如短視頻、圖片(pian)一(yi)般(ban)超(chao)過1年(nian)就可做(zuo)失效處(chu)理(li),當然也(ye)有(you)部(bu)分需(xu)要(yao)長期保存的(de)短視頻或圖片(pian),但涉(she)及面也(ye)不是很多,有(you)的(de)話直(zhi)接歸(gui)(gui)檔到歸(gui)(gui)檔數(shu)(shu)(shu)據(ju)池即可,由(you)于業務本身(shen)往(wang)往(wang)集中(zhong)在1年(nian)內,超(chao)過1年(nian)的(de)元(yuan)數(shu)(shu)(shu)據(ju)可以統一(yi)歸(gui)(gui)檔到歸(gui)(gui)檔數(shu)(shu)(shu)據(ju)池中(zhong),用(yong)于后續可能的(de)數(shu)(shu)(shu)據(ju)挖掘需(xu)求(qiu),如此達到更(geng)合理(li)的(de)成本控制目的(de)。
圖 TCO考量速率表
TCO考量:根據訪問速(su)率要求,一般如上表設計
數據安全控制:通過元數(shu)(shu)據(ju)(ju)與主數(shu)(shu)據(ju)(ju)的(de)(de)分(fen)離(li)存(cun)儲(chu),主數(shu)(shu)據(ju)(ju)存(cun)儲(chu)統一(yi)到原(yuan)始數(shu)(shu)據(ju)(ju)池的(de)(de)存(cun)儲(chu)模式,利用數(shu)(shu)據(ju)(ju)打散及自定義塊分(fen)布,極大增加了數(shu)(shu)據(ju)(ju)的(de)(de)獨立恢復難(nan)度;
對于元數(shu)據(ju)來(lai)說,數(shu)據(ju)訪問會進(jin)行嚴格的(de)平臺(tai)用(yong)戶認證(zheng),此外特(te)征(zheng)碼本身(shen)(shen)就(jiu)是(shi)一(yi)(yi)種(zhong)(zhong)數(shu)學運算的(de)中間(jian)過(guo)(guo)程記錄,必須輔以獨(du)立的(de)算法(fa)過(guo)(guo)程才有解析(xi)的(de)可能,而算法(fa)本身(shen)(shen)并不會記錄,結合(he)宇視特(te)有的(de)多算法(fa)聯動框架,不同(tong)特(te)征(zheng)碼的(de)生成并不會歸一(yi)(yi)到同(tong)一(yi)(yi)種(zhong)(zhong)算法(fa)。
4.3 結構化數據池
結構化的數(shu)據(ju)是指可(ke)以(yi)使用(yong)關(guan)系(xi)型數(shu)據(ju)庫表示(shi)和(he)存儲,表現為二維形(xing)(xing)式的數(shu)據(ju)。一(yi)般(ban)特(te)點是:數(shu)據(ju)以(yi)行為單(dan)位(wei),一(yi)行數(shu)據(ju)表示(shi)一(yi)個實(shi)體的信息,每一(yi)行數(shu)據(ju)的屬性(xing)是相(xiang)同(tong)的。這個在(zai)安防(fang)視頻監控(kong)業(ye)務(wu)(wu)中,基(ji)本(ben)(ben)都(dou)是對設(she)備(bei)、業(ye)務(wu)(wu)、流(liu)程等的過程建(jian)模,形(xing)(xing)成的設(she)備(bei)配置、業(ye)務(wu)(wu)關(guan)系(xi)等數(shu)據(ju),一(yi)般(ban)量級都(dou)比較小,這部分(fen)基(ji)本(ben)(ben)使用(yong)服務(wu)(wu)器或計算板的集群(qun)支持即可(ke)。
結構化數(shu)據池會定期進(jin)行數(shu)據備份,類似IT企業中增量(liang)、全量(liang)策(ce)略相結合(he)的模式(shi),可以(yi)將數(shu)據歸檔到“歸檔數(shu)據池”。
4.4 歸檔數據池
歸(gui)檔(dang)(dang)(dang)數(shu)(shu)(shu)據(ju)池(chi)(chi)(chi)構(gou)(gou)建在磁帶庫的(de)(de)存(cun)儲介(jie)質(zhi)之(zhi)上,借(jie)助結(jie)構(gou)(gou)化數(shu)(shu)(shu)據(ju)池(chi)(chi)(chi)來保(bao)存(cun)流(liu)入歸(gui)檔(dang)(dang)(dang)數(shu)(shu)(shu)據(ju)池(chi)(chi)(chi)中(zhong)不同種類數(shu)(shu)(shu)據(ju)的(de)(de)索(suo)引信息(xi)。歸(gui)檔(dang)(dang)(dang)數(shu)(shu)(shu)據(ju)池(chi)(chi)(chi)為歸(gui)檔(dang)(dang)(dang)業務(wu)服務(wu),當前主要包括(kuo)視頻圖片池(chi)(chi)(chi)冷數(shu)(shu)(shu)據(ju)的(de)(de)歸(gui)檔(dang)(dang)(dang)、非結(jie)構(gou)(gou)化數(shu)(shu)(shu)據(ju)池(chi)(chi)(chi)中(zhong)元數(shu)(shu)(shu)據(ju)歸(gui)檔(dang)(dang)(dang)、結(jie)構(gou)(gou)化數(shu)(shu)(shu)據(ju)池(chi)(chi)(chi)的(de)(de)定期備份(fen)歸(gui)檔(dang)(dang)(dang)。
歸檔數據(ju)池本身也有生(sheng)命周(zhou)期(qi),不(bu)同(tong)的(de)(de)(de)數據(ju)種類留(liu)存期(qi)也不(bu)同(tong)。對(dui)于原始視(shi)(shi)頻池的(de)(de)(de)冷(leng)數據(ju),其(qi)依然(ran)有固定(ding)的(de)(de)(de)最(zui)長留(liu)存期(qi),超過即進行最(zui)老刪(shan)除;而對(dui)于非(fei)結構化(hua)池元(yuan)數據(ju)和結構化(hua)數據(ju)池的(de)(de)(de)備份,則(ze)視(shi)(shi)配置空(kong)間而定(ding),當歸檔數據(ju)池依然(ran)有可(ke)用空(kong)間,則(ze)均不(bu)會進行老數據(ju)的(de)(de)(de)退(tui)化(hua),直(zhi)到無可(ke)用空(kong)間時才(cai)進行最(zui)老數據(ju)的(de)(de)(de)刪(shan)除。
4.5 數據池間數據的流轉
至此(ci),我們設計了原(yuan)始(shi)數(shu)(shu)(shu)(shu)(shu)(shu)據(ju)(ju)池(chi)(chi)、半(ban)結(jie)構(gou)化數(shu)(shu)(shu)(shu)(shu)(shu)據(ju)(ju)池(chi)(chi)、結(jie)構(gou)化數(shu)(shu)(shu)(shu)(shu)(shu)據(ju)(ju)池(chi)(chi)、歸檔數(shu)(shu)(shu)(shu)(shu)(shu)據(ju)(ju)池(chi)(chi)。通過對(dui)原(yuan)始(shi)數(shu)(shu)(shu)(shu)(shu)(shu)據(ju)(ju)池(chi)(chi)的(de)(de)(de)智能分(fen)析識別,構(gou)建(jian)了多媒體的(de)(de)(de)半(ban)結(jie)構(gou)化數(shu)(shu)(shu)(shu)(shu)(shu)據(ju)(ju)池(chi)(chi);為支持更(geng)有效的(de)(de)(de)業(ye)務應用,半(ban)結(jie)構(gou)化數(shu)(shu)(shu)(shu)(shu)(shu)據(ju)(ju)池(chi)(chi)自身會進(jin)(jin)一步(bu)進(jin)(jin)行分(fen)析和清洗(xi),進(jin)(jin)而(er)提升(sheng)業(ye)務的(de)(de)(de)靶向性,從而(er)滿足業(ye)務數(shu)(shu)(shu)(shu)(shu)(shu)據(ju)(ju)建(jian)模的(de)(de)(de)需(xu)要,構(gou)建(jian)業(ye)務結(jie)構(gou)化數(shu)(shu)(shu)(shu)(shu)(shu)據(ju)(ju)。此(ci)外需(xu)要強(qiang)調(diao)的(de)(de)(de)是,這(zhe)幾個(ge)數(shu)(shu)(shu)(shu)(shu)(shu)據(ju)(ju)池(chi)(chi)都(dou)是邏輯上(shang)的(de)(de)(de)業(ye)務區分(fen),并不要求嚴格意(yi)義上(shang)的(de)(de)(de)介(jie)質(zhi)分(fen)離建(jian)設,如半(ban)結(jie)構(gou)化形(xing)成(cheng)的(de)(de)(de)短視頻(pin)/圖片依然(ran)可以(yi)使用原(yuan)始(shi)數(shu)(shu)(shu)(shu)(shu)(shu)據(ju)(ju)池(chi)(chi)的(de)(de)(de)內容,僅僅形(xing)成(cheng)無(wu)模式數(shu)(shu)(shu)(shu)(shu)(shu)據(ju)(ju)存儲的(de)(de)(de)元數(shu)(shu)(shu)(shu)(shu)(shu)據(ju)(ju)即可,這(zhe)樣能達到整個(ge)云(yun)存儲系統中數(shu)(shu)(shu)(shu)(shu)(shu)據(ju)(ju)流轉(zhuan)的(de)(de)(de)高效性。
歸(gui)檔數(shu)據(ju)池為整個(ge)數(shu)據(ju)湖提供(gong)(gong)了(le)數(shu)據(ju)歸(gui)檔等長期保(bao)存服務,在數(shu)據(ju)生命周期管(guan)理以及TCO管(guan)理方面(mian)提供(gong)(gong)了(le)一種權衡實現,兼(jian)顧(gu)了(le)業務的(de)實時性和投入(ru)成本的(de)最優(you)化。
圖 數據湖中不同數據池間的數據轉換
五、總結
宇視云存儲通過服(fu)務化的(de)體(ti)系建設(she),支撐了(le)安防(fang)業(ye)務中多種多樣(yang)的(de)數據(ju)承載,正是基于云端數據(ju)治理的(de)框架,最(zui)終(zhong)達到(dao)了(le)數據(ju)湖的(de)高效流轉。
參考文獻
[1]//en.wikipedia.org/wiki/Data_lake
[2][美]Bill Inmon,吳文磊 譯,數據湖架構,人民郵電出版社,2018-04-01
[3]程廣明,李堯,劉小茵(yin),云端數據治理定義解析,科技創(chuang)新(xin)導報,2017年16期