8090成人午夜精品无码_国产成人亚洲综合色影视_精品午夜国产福利在线观看_在线看免费观看AV深夜影院_97碰成人国产免费公开视频_欧美乱人伦中文在线

海天精工機(jī)床有限公司 海天精工博客

一種基于數(shù)據(jù)加工中心的數(shù)據(jù)流式處理方法

描述[0001]本發(fā)明涉及大數(shù)據(jù)處理描述,特別是一種基于數(shù)據(jù)加工中心的數(shù)據(jù)流式處理方法。背景[0002]無(wú)論用海量數(shù)據(jù)還是大數(shù)據(jù)來(lái)表征這個(gè)時(shí)代,數(shù)據(jù)規(guī)模龐大、增長(zhǎng)迅速、類(lèi)型繁 多、結(jié)構(gòu)各異已成為無(wú)法回避的現(xiàn)實(shí)問(wèn)題。如何把繁雜的大數(shù)據(jù)變成我們能應(yīng)付的、有效的 “小”數(shù)據(jù),即針對(duì)特定問(wèn)題而構(gòu)建一個(gè)千凈、完備的數(shù)據(jù)集,這一過(guò)程變得尤為重要。[0003]大數(shù)據(jù)治理和分析是在大數(shù)據(jù)處理過(guò)程中非常棘手的問(wèn)題,如何做到處理的及時(shí) 性、靈活性和準(zhǔn)確性尤為重要。目前在互聯(lián)網(wǎng)行業(yè)中通常采用犧牲靈活型和準(zhǔn)確性(甚至允 許丟失部分?jǐn)?shù)據(jù))的方式來(lái)?yè)Q取數(shù)據(jù)處理的及時(shí)性,但是在某些行業(yè)中,數(shù)據(jù)處理的準(zhǔn)確性 是非常重要的,同時(shí)又要確保其及時(shí)性和穩(wěn)定性。針對(duì)這種需求就生出的內(nèi)存池,共享內(nèi)存 以及管道等技術(shù)拼裝出數(shù)據(jù)加工中心,數(shù)據(jù)處理規(guī)則可以在數(shù)據(jù)加工中心中靈活配置,數(shù) 據(jù)流在加工中心“流”過(guò)后,加工中心就會(huì)根據(jù)配置業(yè)務(wù)規(guī)則提供相應(yīng)的組件對(duì)數(shù)據(jù)進(jìn)行實(shí) 時(shí)處理,經(jīng)過(guò)加工中心處理后的數(shù)據(jù)可以通過(guò)統(tǒng)一源管理對(duì)外提供數(shù)據(jù)。[0004]傳統(tǒng)的數(shù)據(jù)處理中心,數(shù)據(jù)處理步驟過(guò)程中數(shù)據(jù)落地,數(shù)據(jù)處理如排序,剔重,過(guò) 濾等等功能固化,增加特性化數(shù)據(jù)處理難,功能可擴(kuò)展性差,數(shù)據(jù)處理流向無(wú)法靈活控制。 目前許多的大數(shù)據(jù)應(yīng)用平臺(tái)不能夠靈活的配置各種數(shù)據(jù)源之間的互通,只能單一的從一種 數(shù)據(jù)源同步到另外一種數(shù)據(jù)源。同時(shí)大多數(shù)的大數(shù)據(jù)應(yīng)用平臺(tái)不能夠支持流式處理,即在 一個(gè)數(shù)據(jù)加工治理流程中需要多次的對(duì)數(shù)據(jù)進(jìn)行讀寫(xiě),這樣不僅使得機(jī)器的10負(fù)載過(guò)高, 而且整個(gè)數(shù)據(jù)加工和治理的速度將大打折扣,在很多時(shí)候都不能滿(mǎn)足數(shù)據(jù)的及時(shí)性要求。 也有一些大數(shù)據(jù)應(yīng)用平臺(tái)不能夠支持很多種數(shù)據(jù)的加工方法,也不能夠靈活的配置加工方 法,只能夠單一的滿(mǎn)足一些業(yè)務(wù)要求。[0005]阿里大數(shù)據(jù)應(yīng)用平臺(tái)是阿里公司旗下產(chǎn)品的數(shù)據(jù)管理與分析平臺(tái),其靈活的配置 任意數(shù)據(jù)源互通,具備統(tǒng)一的數(shù)據(jù)交換協(xié)議,可插件化開(kāi)發(fā)數(shù)據(jù)處理功能,具有功能全面的 流式計(jì)算集群。該應(yīng)用平臺(tái)處理來(lái)自云梯和飛天以及HBase和OceanBase等系統(tǒng)數(shù)據(jù),但 是就該平臺(tái)而言目前在系統(tǒng)處理中應(yīng)用相對(duì)獨(dú)立,沒(méi)有將數(shù)據(jù)流串聯(lián)起來(lái)。[0006]相關(guān)術(shù)語(yǔ):ETL: ETL是Extract-Transform-Load的縮寫(xiě),中文名稱(chēng)為數(shù)據(jù)提取、轉(zhuǎn)換和加載。是 構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要一環(huán),用戶(hù)從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗,最終按照預(yù) 先定義好的數(shù)據(jù)倉(cāng)庫(kù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中去。[0007]流式處理:流式處理利用管道模式使海量數(shù)據(jù)在生產(chǎn)線(xiàn)中流動(dòng),加工組件實(shí)現(xiàn)對(duì) 數(shù)據(jù)清洗,轉(zhuǎn)化,拆分,入庫(kù)等操作。[0008]數(shù)據(jù)加工中心:一套完備的數(shù)據(jù)處理中心,可以對(duì)海量數(shù)據(jù)排重,維度替換,加密去隱私化,數(shù)據(jù)分類(lèi),聚類(lèi)等等。內(nèi)容[0009]本發(fā)明要解決的技術(shù)問(wèn)題為:通過(guò)利用大數(shù)據(jù)平臺(tái)采用數(shù)據(jù)流式處理,提高大數(shù) 據(jù)處理速度,擴(kuò)大可支持的數(shù)據(jù)加工方法種類(lèi)范圍,同時(shí)在大數(shù)據(jù)處理過(guò)程中能夠靈活的 配置各種數(shù)據(jù)源之間的互通。[0010]本發(fā)明采取的技術(shù)手段具體為:一種基于數(shù)據(jù)加工中心的數(shù)據(jù)流式處理方法,所 述數(shù)據(jù)加工中心中預(yù)定義有包括數(shù)據(jù)校驗(yàn)、排序、聚合和分組的加工方法步驟,以及兩個(gè)不 同加工方法步驟之間的連接關(guān)系;數(shù)據(jù)加工中心還設(shè)置有用于連接數(shù)據(jù)源的數(shù)據(jù)源接入端 口、用于連接用戶(hù)界面的數(shù)據(jù)加工方法及流程定義接入端口、目標(biāo)數(shù)據(jù)輸出端口以及用于 連接流程監(jiān)控單元的加工流程監(jiān)控接口;基于上述數(shù)據(jù)加工中心的數(shù)據(jù)流式處理方法包括以下步驟:1)數(shù)據(jù)獲取:通過(guò)數(shù)據(jù)源接入端口獲取數(shù)據(jù)源;數(shù)據(jù)源接入端口連接的數(shù)據(jù)源類(lèi)型包 括傳統(tǒng) oracle、db2、mysql 數(shù)據(jù)庫(kù),MPP 數(shù)據(jù)庫(kù) Greenplum、teradata,以及 hdfs、HBASE、 HIVE數(shù)據(jù)庫(kù);2)流式處理配置:為已獲取的數(shù)據(jù)配置“管道”節(jié)點(diǎn),利用共享內(nèi)存存儲(chǔ)已獲取到的數(shù) 據(jù);3)數(shù)據(jù)加工方法配置:根據(jù)用戶(hù)通過(guò)數(shù)據(jù)加工方法及流程定義接入端口配置的數(shù)據(jù)加 工方法及數(shù)據(jù)加工流程,選擇和配置相應(yīng)的加工方法及多個(gè)加工方法的流程排序;為已保 存在共享內(nèi)存中的數(shù)據(jù)配置“轉(zhuǎn)換計(jì)算”節(jié)點(diǎn),各“轉(zhuǎn)換計(jì)算”節(jié)點(diǎn)分別對(duì)應(yīng)一種加工方法; 同時(shí)在相鄰“轉(zhuǎn)換計(jì)算”節(jié)點(diǎn)之間配置“管道”節(jié)點(diǎn),使得數(shù)據(jù)通過(guò)管道在依次連接的轉(zhuǎn)換 計(jì)算節(jié)點(diǎn)之間流轉(zhuǎn)同時(shí)被處理;4)目標(biāo)數(shù)據(jù)源的獲得:將步驟3)中最后一個(gè)轉(zhuǎn)換計(jì)算節(jié)點(diǎn)輸出的數(shù)據(jù)通過(guò)目標(biāo)數(shù)據(jù) 輸出端口輸出至目標(biāo)數(shù)據(jù)源中。[〇〇11] 步驟1)中,本發(fā)明支持多種數(shù)據(jù)源的數(shù)據(jù)獲取。數(shù)據(jù)獲取,即在加工配置系統(tǒng)中 配置“抽取”節(jié)點(diǎn),如數(shù)據(jù)源為DB2,則配置“DB2抽取”,同時(shí)配置抽取的詳細(xì)規(guī)則,如抽取的 表名規(guī)則等。本發(fā)明對(duì)數(shù)據(jù)源中數(shù)據(jù)的獲取為現(xiàn)有技術(shù)。步驟2)利用共享內(nèi)存對(duì)數(shù)據(jù)進(jìn) 行存儲(chǔ),可使得數(shù)據(jù)從數(shù)據(jù)源如DB2中抽取出來(lái)后不會(huì)落地。經(jīng)過(guò)步驟3)后,數(shù)據(jù)即已根 據(jù)用戶(hù)定義的加工方法進(jìn)行加工,并得到了相應(yīng)的目標(biāo)數(shù)據(jù)源,此時(shí)如果還要將數(shù)據(jù)同步 到其他的數(shù)據(jù)源中,可以配置“裝載”節(jié)點(diǎn),如要將加工完成的數(shù)據(jù)同步到HDFS中,則在步 驟4中的“管道”節(jié)點(diǎn)后面配置“HDFS裝載”節(jié)點(diǎn),來(lái)完成數(shù)據(jù)同步。[0012]本發(fā)明在應(yīng)用時(shí),用戶(hù)可通過(guò)可視化的用戶(hù)界面配置數(shù)據(jù)加工方法和定義數(shù)據(jù)加 工流程,如果缺少想要的數(shù)據(jù)加工方法,可以以插件的方式添加組件,也就是添加加工方 法。用戶(hù)通過(guò)對(duì)不同加工方法的組合得到想到的加工流程。數(shù)據(jù)加工中心將用戶(hù)定義的加 工方法和流程保存起來(lái),生成加工計(jì)劃,并對(duì)其中的加工任務(wù)進(jìn)行解析。在進(jìn)行流式處理加 工時(shí),首先要從數(shù)據(jù)源中采集相關(guān)數(shù)據(jù),數(shù)據(jù)源可以是不同類(lèi)型的數(shù)據(jù)庫(kù)也可以是文件,然 后根據(jù)加工任務(wù)的解析結(jié)果,對(duì)所獲取的數(shù)據(jù)源提供的數(shù)據(jù)進(jìn)行逐步加工。[0013]本發(fā)明的流式數(shù)據(jù)加工處理方法中僅存在唯一一次讀取數(shù)據(jù)源中數(shù)據(jù)的操作,后 續(xù)便以共享內(nèi)存的方式儲(chǔ)存數(shù)據(jù),以便讓數(shù)據(jù)流向一個(gè)或者是多個(gè)不同的數(shù)據(jù)加工方法。 將加工完成的數(shù)據(jù)寫(xiě)入到目標(biāo)數(shù)據(jù)源中,也是整個(gè)數(shù)據(jù)加工流程中的唯一一次寫(xiě)入操作。[0014]數(shù)據(jù)在加工過(guò)程中,用戶(hù)可以通過(guò)流程監(jiān)控單元實(shí)現(xiàn)實(shí)時(shí)的監(jiān)控流程,流程監(jiān)控單元可將獲取到的監(jiān)控信息輸出至可視化的用戶(hù)界面中,例如當(dāng)前運(yùn)行到了哪個(gè)加工方 法,運(yùn)行了多長(zhǎng)時(shí)間等等。[0015]有益效果本發(fā)明通過(guò)利用流式處理方式,采集不同源的數(shù)據(jù)到加工中心,將任意數(shù)據(jù)源數(shù)據(jù)互 通,并對(duì)數(shù)據(jù)做各種各樣的加工或處理,保證整個(gè)過(guò)程只讀取和寫(xiě)入一次數(shù)據(jù),提高了數(shù)據(jù) 處理的速度。且本發(fā)明可以支持非常豐富的加工方法,包括數(shù)據(jù)校驗(yàn),數(shù)據(jù)清洗,庫(kù)外計(jì)算, 對(duì)結(jié)構(gòu)化數(shù)據(jù)中的某些字段做空值,長(zhǎng)度,類(lèi)型等等校驗(yàn),對(duì)數(shù)據(jù)進(jìn)行排序,剔重,過(guò)濾等, 對(duì)數(shù)據(jù)進(jìn)行分組和聚合等,這些方法全部都可以由用戶(hù)通過(guò)用戶(hù)界面靈活的配置或定制。 同時(shí)本發(fā)明的加工中心設(shè)置有用于連接流程監(jiān)控單元的加工流程監(jiān)控接口,能夠很直觀的 監(jiān)控整個(gè)數(shù)據(jù)加工流程,方便統(tǒng)一管控。附圖說(shuō)明[0016]圖1所示為本發(fā)明數(shù)據(jù)流式加工系統(tǒng)原理示意圖;圖2所示為本發(fā)明的數(shù)據(jù)處理流程示意圖;圖3所示為本發(fā)明的數(shù)據(jù)流式處理流程示意圖。實(shí)施[0017]以下結(jié)合附圖和具體實(shí)施例進(jìn)一步說(shuō)明。[0018]如圖1所示,本發(fā)明的一種基于數(shù)據(jù)加工中心的數(shù)據(jù)流式處理方法,所述數(shù)據(jù)加 工中心中預(yù)定義有包括數(shù)據(jù)校驗(yàn)、排序、聚合和分組的加工方法步驟,以及兩個(gè)不同加工方 法步驟之間的連接關(guān)系;數(shù)據(jù)加工中心還設(shè)置有用于連接數(shù)據(jù)源的數(shù)據(jù)源接入端口、用于 連接用戶(hù)界面的數(shù)據(jù)加工方法及流程定義接入端口、目標(biāo)數(shù)據(jù)輸出端口以及用于連接流程 監(jiān)控單兀的加工流程監(jiān)控接口;結(jié)合圖1至圖3,基于上述數(shù)據(jù)加工中心的數(shù)據(jù)流式處理方法包括以下步驟:1)數(shù)據(jù)獲?。和ㄟ^(guò)數(shù)據(jù)源接入端口獲取數(shù)據(jù)源;數(shù)據(jù)源接入端口連接的數(shù)據(jù)源類(lèi)型包 括傳統(tǒng) oracle、db2、mysql 數(shù)據(jù)庫(kù),MPP 數(shù)據(jù)庫(kù) Greenplum、teradata,以及 hdfs、HBASE、 HIVE數(shù)據(jù)庫(kù);2)流式處理配置:為已獲取的數(shù)據(jù)配置“管道”節(jié)點(diǎn),利用共享內(nèi)存存儲(chǔ)已獲取到的數(shù) 據(jù);3)數(shù)據(jù)加工方法配置:根據(jù)用戶(hù)通過(guò)數(shù)據(jù)加工方法及流程定義接入端口配置的數(shù)據(jù)加 工方法及數(shù)據(jù)加工流程,選擇和配置相應(yīng)的加工方法及多個(gè)加工方法的流程排序;為已保 存在共享內(nèi)存中的數(shù)據(jù)配置“轉(zhuǎn)換計(jì)算”節(jié)點(diǎn),各“轉(zhuǎn)換計(jì)算”節(jié)點(diǎn)分別對(duì)應(yīng)一種加工方法; 同時(shí)在相鄰“轉(zhuǎn)換計(jì)算”節(jié)點(diǎn)之間配置“管道”節(jié)點(diǎn),使得數(shù)據(jù)通過(guò)管道在依次連接的轉(zhuǎn)換 計(jì)算節(jié)點(diǎn)之間流轉(zhuǎn)同時(shí)被處理;4)目標(biāo)數(shù)據(jù)源的獲得:將步驟3)中最后一個(gè)轉(zhuǎn)換計(jì)算節(jié)點(diǎn)輸出的數(shù)據(jù)通過(guò)目標(biāo)數(shù)據(jù) 輸出端口輸出至目標(biāo)數(shù)據(jù)源中。[〇〇19]步驟1)中,本發(fā)明支持多種數(shù)據(jù)源的數(shù)據(jù)獲取。數(shù)據(jù)獲取即在加工配置系統(tǒng)中配置“抽取”節(jié)點(diǎn),如數(shù)據(jù)源為DB2,則配置“DB2抽取”,同時(shí)配置抽取的詳細(xì)規(guī)則,如抽取的表 名規(guī)則等。本發(fā)明對(duì)數(shù)據(jù)源中數(shù)據(jù)的獲取為現(xiàn)有技術(shù)。步驟2)利用共享內(nèi)存對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ),可使得數(shù)據(jù)從數(shù)據(jù)源如DB2中抽取出來(lái)后不會(huì)落地。經(jīng)過(guò)步驟3)后,數(shù)據(jù)即已根據(jù) 用戶(hù)定義的加工方法進(jìn)行加工,并得到了相應(yīng)的目標(biāo)數(shù)據(jù)源,此時(shí)如果還要將數(shù)據(jù)同步到 其他的數(shù)據(jù)源中,可以配置“裝載”節(jié)點(diǎn),如要將加工完成的數(shù)據(jù)同步到HDFS中,則在步驟 4中的“管道”節(jié)點(diǎn)后面配置“HDFS裝載”節(jié)點(diǎn),來(lái)完成數(shù)據(jù)同步。[0020]本發(fā)明在應(yīng)用時(shí),用戶(hù)可通過(guò)可視化的用戶(hù)界面配置數(shù)據(jù)加工方法和定義數(shù)據(jù)加 工流程,如圖1所示實(shí)施例中的數(shù)據(jù)校驗(yàn)、排序、聚合和分組等現(xiàn)有的或自行通過(guò)現(xiàn)有軟件 技術(shù)定義數(shù)據(jù)加工方法。如果缺少想要的數(shù)據(jù)加工方法,可以以插件的方式添加組件,也就 是添加加工方法。用戶(hù)通過(guò)對(duì)不同加工方法的組合得到想到的加工流程。數(shù)據(jù)加工中心將 用戶(hù)定義的加工方法和流程保存起來(lái),生成加工計(jì)劃,并對(duì)其中的加工任務(wù)進(jìn)行解析。在進(jìn) 行流式處理加工時(shí),首先要從數(shù)據(jù)源中采集相關(guān)數(shù)據(jù),數(shù)據(jù)源可以是不同類(lèi)型的數(shù)據(jù)庫(kù)也 可以是文件,然后根據(jù)加工任務(wù)的解析結(jié)果,對(duì)所獲取的數(shù)據(jù)源提供的數(shù)據(jù)進(jìn)行逐步加工。[0021]參考圖3,本發(fā)明的流式數(shù)據(jù)加工處理方法中僅存在唯一一次讀取數(shù)據(jù)源中數(shù)據(jù) 的操作,后續(xù)便以共享內(nèi)存的方式儲(chǔ)存數(shù)據(jù),以便讓數(shù)據(jù)流向一個(gè)或者是多個(gè)不同的數(shù)據(jù) 加工方法。將加工完成的數(shù)據(jù)寫(xiě)入到目標(biāo)數(shù)據(jù)源中,也是整個(gè)數(shù)據(jù)加工流程中的唯一一次 寫(xiě)入操作。[0022]數(shù)據(jù)在加工過(guò)程中,用戶(hù)可以通過(guò)流程監(jiān)控單元實(shí)現(xiàn)實(shí)時(shí)的監(jiān)控流程,流程監(jiān)控 單元可將獲取到的監(jiān)控信息輸出至可視化的用戶(hù)界面中,例如當(dāng)前運(yùn)行到了哪個(gè)加工方 法,運(yùn)行了多長(zhǎng)時(shí)間等等。實(shí)施例[0023]如將本發(fā)明應(yīng)用于某電信公司省級(jí)經(jīng)分系統(tǒng),要求對(duì)GPRS流量接口數(shù)據(jù)從MPP數(shù) 據(jù)庫(kù)(GP)同步到Hadoop中,并且對(duì)MSISDN (手機(jī)號(hào)碼)字段做隱私化處理,并且做空值校 驗(yàn),同時(shí)對(duì)CALL_DUR(通話(huà)時(shí)長(zhǎng))字段做運(yùn)算(將字段值加一)。[0024]對(duì)上述數(shù)據(jù)處理任務(wù)的要求,可以在數(shù)據(jù)加工中心通過(guò)如下步驟來(lái)完成:配置數(shù)據(jù)加工流程為:表掃描6GP數(shù)據(jù)源抽取d!管道流d!轉(zhuǎn)換計(jì)算d!管道6HDFS裝載,該流程也是一個(gè)數(shù)據(jù)流;在數(shù)據(jù)加工中心中配置數(shù)據(jù)加工方法,即在以上流程的“轉(zhuǎn)換計(jì)算”中配置,對(duì)手機(jī)號(hào) 碼字段做隱私化和空值校驗(yàn)方法,對(duì)通話(huà)時(shí)長(zhǎng)字段做運(yùn)算;數(shù)據(jù)加工中心按照已經(jīng)配置的加工方法和管道流向進(jìn)行方法的解析和實(shí)施。[0025]上述步驟從GP數(shù)據(jù)抽取到HDFS裝載流程中配置了管道,也是實(shí)現(xiàn)“流式處理”的 關(guān)鍵。在整個(gè)數(shù)據(jù)流式處理的過(guò)程中,流程監(jiān)控單元可以監(jiān)控整個(gè)數(shù)據(jù)流的運(yùn)行狀態(tài)。[0026]本發(fā)明通過(guò)利用流式處理方式,采集不同源的數(shù)據(jù)到加工中心,將任意數(shù)據(jù)源數(shù) 據(jù)互通,并對(duì)數(shù)據(jù)做各種各樣的加工或處理,保證整個(gè)過(guò)程只讀取和寫(xiě)入一次數(shù)據(jù),提高了 數(shù)據(jù)處理的速度。且本發(fā)明可以支持非常豐富的加工方法,包括數(shù)據(jù)校驗(yàn),數(shù)據(jù)清洗,庫(kù)外 計(jì)算,對(duì)結(jié)構(gòu)化數(shù)據(jù)中的某些字段做空值,長(zhǎng)度,類(lèi)型等等校驗(yàn),對(duì)數(shù)據(jù)進(jìn)行排序,剔重,過(guò) 濾等,對(duì)數(shù)據(jù)進(jìn)行分組和聚合等,這些方法全部都可以由用戶(hù)通過(guò)用戶(hù)界面靈活的配置或 定制。同時(shí)本發(fā)明的加工中心設(shè)置有用于連接流程監(jiān)控單元的加工流程監(jiān)控接口,能夠很 直觀的監(jiān)控整個(gè)數(shù)據(jù)加工流程,方便統(tǒng)一管控,簡(jiǎn)化加工的繁雜性,對(duì)一批海量的數(shù)據(jù)進(jìn)行 清洗或分組聚合等等操作都可以交給一個(gè)數(shù)據(jù)加工中心,從數(shù)據(jù)加工中心流出的數(shù)據(jù)即是用戶(hù)想要的數(shù)據(jù)。提示:由于編輯困難導(dǎo)致圖片無(wú)法顯示及全文的完整、準(zhǔn)確性或存在缺失!本文由海天精工整理發(fā)表文章均來(lái)自網(wǎng)絡(luò)僅供學(xué)習(xí)參考,轉(zhuǎn)載請(qǐng)注明!
留言列表
發(fā)表留言
◎歡迎參與討論,請(qǐng)?jiān)谶@里發(fā)表您的看法、交流您的觀點(diǎn)。