久久国产欧美另类久久久精品-国产精品欧美精品国产主播-久久精品国产亚洲不av麻豆-国产精品成人在线-91最新亚洲精品中文字幕

網(wǎng)站數據采集的五種方法(一文詳解數據采集)

時(shí)間:2024-03-16 點(diǎn)擊:16次
1.什么是采集
在一般的分層業(yè)務(wù)系統中,數據采集都是一個(gè)非常重要的部分:主要負責數據的輸入。
2.為什么需要采集
在傳統的管理系統中,一般的業(yè)務(wù)系統都是采集,存儲,顯示 ,報表,這是傳統分層模型下的架構方式下的業(yè)務(wù)功能;我們重點(diǎn)看一下數據采集部分;
3.場(chǎng)景分析
1.第一種數據采集就是基于請求式樣的采集,意味著(zhù)請求即是采集。常見(jiàn)的情景就是http 請求,把大量請求作為數據源存儲都db中。
2.第二種就是基于網(wǎng)頁(yè)版的數據采集,前端使用打點(diǎn)技術(shù),沒(méi)隔一段時(shí)間完成數據采集,存儲到db中。
3.最后一種就是數據鉆取方式,從中間表查詢(xún)存儲到db中
4基于etl導入的方式數據采集。
5.基于消息隊列的數據采集,
4.解決方案:
第1種方案就是常見(jiàn)的程序采集,實(shí)現是實(shí)體類(lèi)的映射,存儲到db中,主要是實(shí)現對bean的映射和格式轉換。入xml,object,配置文件等自定義數據結構等解析
數組解析,配置文件讀取,xml的解析,object解析,json解析,等數據基本數據類(lèi)型和復雜數據類(lèi)型解析。
xml這方面實(shí)現技術(shù):jaxb2
配置文件實(shí)現jdk protites,map 映射
xml解析:dom4j,jdom,
object:對象之間的映射,一對多,多對一等方式,常見(jiàn)入herbernate,mybatis等。
json:gson 實(shí)現,fastjson等
第二種方案:是基于網(wǎng)頁(yè)采集的,常見(jiàn)的入divolte技術(shù)等。
第三種方案:比較常見(jiàn)的是啟動(dòng)一個(gè)定時(shí)任務(wù)去采集,我們可以到中間庫去采集,查詢(xún)出中間庫的數據,定時(shí)采集到自己的業(yè)務(wù)表中。
第四中方案:利用db之前的遷移工具,如oracle 的導入泵,rman工具等。
第五種方案: 基于消息隊列的方式,如kafka進(jìn)行監聽(tīng)和消費存儲到db中。