久久国产欧美另类久久久精品-国产精品欧美精品国产主播-久久精品国产亚洲不av麻豆-国产精品成人在线-91最新亚洲精品中文字幕

從經(jīng)驗角度描述:在數據倉庫建設中的會(huì )遇到的各種坑和需要注意的關(guān)鍵點(diǎn)

時(shí)間:2023-08-30 點(diǎn)擊:45次
前言
大數據時(shí) 代,作為數據的掌握者,我們不僅要更好地使用數據,也要更好地管理數據。而數據倉庫正是這樣一套管理和組織數據的解決方案。
本文試圖從一種經(jīng)驗的角度來(lái)描述在數據倉庫建設中的會(huì )遇到的各種坑和需要注意的關(guān)鍵點(diǎn),希望以此幫助踏上數據倉庫之路的小伙伴們。
注意:本文不會(huì )詳細地解釋數據倉庫的各個(gè)概念,亦不會(huì )給出各種示例代碼來(lái)闡述數據倉庫的建設細節。

請理解數據倉庫和數據平臺的區別
當你開(kāi)始建設數據倉庫之前,需要明白數據倉庫和數據平臺是兩個(gè)不同的概念,不要把搭建一套 hadoop + hive 的平臺叫數據倉庫,這是數據平臺的范疇。
我們常說(shuō)的數據倉庫不僅僅是指數據接入、數據存儲和數據計算,它也要包括數據治理、數據建模和數據挖掘。比如元數據管理、維度建模和 olap 分析,這些都是我們在建設數據倉庫時(shí)候要考慮的內容。

提前規劃你的數據倉庫
數據倉庫是公司數據體系的核心模塊,數據倉庫可以做的不好,但是不能不做。
因此,在數據體系設計的前期最好要有一定的規劃,即使最簡(jiǎn)單的表和字段命名的規范也能帶來(lái)很大的收益。
另外,從數據開(kāi)發(fā)的角度出發(fā),在做各種臨時(shí)數據處理需求的時(shí)候也要有數據倉庫的思維,多嘗試抽象出來(lái)數據中間層,這樣對公司和對自己的成長(cháng)都是有幫助的。

實(shí)現輕量級的數據倉庫
如果業(yè)務(wù)的快速發(fā)展不能留給你太多的時(shí)間來(lái)實(shí)現一個(gè)完善的數據倉庫,那么可以考慮在前期實(shí)現一個(gè)輕量級的數據倉庫,以盡可能小的成本帶來(lái)最大收益。關(guān)于這個(gè)輕量級的數據倉庫,建議優(yōu)先考慮如下幾個(gè)點(diǎn):
1.明確數據分層
2.確定可執行的表和字段命名規范
3.定期抽象出常用的中間表
4.建設元數據管理系統,或者建設文檔庫,提供中間表的文檔說(shuō)明

不要脫離業(yè)務(wù)場(chǎng)景
做數據一定要記得貼近業(yè)務(wù),雖說(shuō)會(huì )有很多臨時(shí)和重復需求,但卻能切實(shí)地創(chuàng )造價(jià)值。
切記不要以為可以完全脫離業(yè)務(wù)去做一套數據倉庫,我們可以在數據倉庫的某個(gè)層次不以業(yè)務(wù)需求為導向來(lái)設計,但是最終面向業(yè)務(wù)的數據一定會(huì )是和業(yè)務(wù)理解有關(guān)。

文檔!文檔!
數據倉庫建設的初期,要逐步沉淀出各種文檔,比如模型設計文檔、字段命名規范文檔、sql 開(kāi)發(fā)規范文檔。文檔是數據倉庫沉淀的最直觀(guān)的一種體現,這也是技術(shù)積累的一部分。
最重要的是,如果元數據系統沒(méi)有成型,那就要把數據倉庫中間表的內容沉淀到文檔中,盡量做到一表一文檔。這樣不管是從節約溝通成本的角度,亦或是增加團隊積累,更或是完成 kpi 的角度考慮,都是有很大益處的。

盡早布局數據質(zhì)量管理
請盡早布局數據質(zhì)量管理的內容,不要等到發(fā)生嚴重的數據事故后才注意到數據質(zhì)量問(wèn)題。關(guān)于數據質(zhì)量監控,如果沒(méi)有足夠的時(shí)間和精力做一套完整的系統,可以先從以下幾個(gè)點(diǎn)入手,這樣至少能對自己有一層基本的保護:
1.核心數據每日數據量級監控和告警
2.重要業(yè)務(wù)指標監控和告警
3.主要業(yè)務(wù)流程各階段數據的監控和告警

多使用視圖表
多使用視圖表對外提供數據服務(wù),它可以有效地屏蔽業(yè)務(wù)方對最底層表結構變更的感知,同時(shí)加強權限管理。
如下場(chǎng)景可以多考慮使用視圖表:
1.該表經(jīng)常會(huì )有加字段的需求
2.該表的計算口徑會(huì )出現變化,需要并行跑多份數據,某個(gè)時(shí)間點(diǎn)進(jìn)行表切換
3.該表可能會(huì )對不同人或部門(mén)提供服務(wù),希望不同人或部門(mén)可讀的字段不同
視圖表主要是來(lái)晚上表結構變更、口徑修改和權限管理的場(chǎng)景,不要濫用而增加維護成本。

考慮你的職業(yè)發(fā)展
不要一直埋著(zhù)頭搞 etl,可以搞半年或一年來(lái)了解大致的業(yè)務(wù)和技能,但不能長(cháng)期這樣發(fā)展?,F在開(kāi)源平臺相對成熟,長(cháng)時(shí)間搞 etl,會(huì )弱化自己的技術(shù)深度,如果再沒(méi)有數據挖掘相關(guān)的項目經(jīng)驗,很容易在以后得面試中被淘汰。
因此,建議各位數據開(kāi)發(fā)的小伙伴,如果你近一年的工作主要都是在用 sql 做 etl,那就要有一點(diǎn)危機意識,經(jīng)常反思一下自己是否有成長(cháng),核心競爭力是否有所提現。
如果有些心虛,可以考慮在數據倉庫、數據挖掘或者核心平臺開(kāi)發(fā)上下一些功夫。