干貨分享|提升數(shù)據(jù)質(zhì)量的四大有效方式
發(fā)布時間:2023-08-15 15:01:13
在數(shù)字時代的今天,企業(yè)對于高質(zhì)量、值得信賴的數(shù)據(jù)的需求越來越高。
目前,已經(jīng)有很多企業(yè)將數(shù)據(jù)質(zhì)量視為技術(shù)問題而非業(yè)務(wù)問題,這也是獲取高質(zhì)量數(shù)據(jù)的最大限制因素。只有查找技術(shù)缺陷,例如重復(fù)數(shù)據(jù)、缺失值、亂序序列,以及與歷史數(shù)據(jù)預(yù)期模式的偏差無疑是至關(guān)重要的,但這也僅是第一步。一個更加苛刻和關(guān)鍵的步驟,便是衡量業(yè)務(wù)質(zhì)量,檢查數(shù)據(jù)是否上下文正確。
讓我們看看提高現(xiàn)代數(shù)據(jù)質(zhì)量的四大有效方式:
1)自上而下的業(yè)務(wù)如果數(shù)據(jù)質(zhì)量——這個詞從未被創(chuàng)造出來,而“業(yè)務(wù)質(zhì)量”是目標(biāo),也許 IT 團(tuán)隊更加會受益。在那種情況下,確保數(shù)據(jù)正確的主要理由本來是為了確保業(yè)務(wù)成果得到滿足。在這種情況下,需要重點從數(shù)據(jù)的基礎(chǔ)設(shè)施轉(zhuǎn)移到它的上下文。
但“上下文”到底是什么?
它是業(yè)務(wù)當(dāng)中對數(shù)據(jù)的應(yīng)用。例如,不同業(yè)務(wù)部門對“客戶”的定義可能不同。對于銷售來說,是買家;對于營銷來說,是影響者;對于財務(wù)來說,是買單者。因此,上下文的變化取決于誰在處理數(shù)據(jù)。為此,數(shù)據(jù)質(zhì)量需要與上下文保持同步。
在另一個例子中,國家代碼 1 和地區(qū)美國與加拿大可能看起來類似,但事實并非如此。不同的團(tuán)隊可以出于截然不同的目的使用一個表格中的相同列。因此,數(shù)據(jù)質(zhì)量的定義各不相同。為此,就需要在業(yè)務(wù)上下文級別應(yīng)用數(shù)據(jù)質(zhì)量。
2)產(chǎn)品思維——數(shù)據(jù)網(wǎng)格原則上引發(fā)的概念非常引人注目,他們改變了我們的思維方式,使那些在實踐中可能行不通的舊方法在今天也能奏效。最大的變化是我們對數(shù)據(jù)的看法:作為一種產(chǎn)品,必須在管理時考慮到用戶及其期望的結(jié)果。
任何企業(yè)正在應(yīng)用產(chǎn)品管理實踐來使他們的數(shù)據(jù)資產(chǎn)可用。“數(shù)據(jù)產(chǎn)品”的目標(biāo)是通過讓不同的消費(fèi)者群體更容易地消費(fèi)和分析,以此來鼓勵“可信數(shù)據(jù)”的更高利用率。反過來,又提高了企業(yè)以極低的方式從其數(shù)據(jù)資產(chǎn)中快速提取情報和見解的能力。
同樣,數(shù)據(jù)質(zhì)量也應(yīng)該采用相同的產(chǎn)品管理原則來處理。數(shù)據(jù)生產(chǎn)者應(yīng)發(fā)布一份“數(shù)據(jù)合同”,列出向消費(fèi)者承諾的數(shù)據(jù)質(zhì)量水平。通過將數(shù)據(jù)質(zhì)量視為最重要的資產(chǎn),生產(chǎn)者應(yīng)該了解數(shù)據(jù)的使用方式及其質(zhì)量的影響。數(shù)據(jù)產(chǎn)品的數(shù)據(jù)質(zhì)量 SLA 旨在確保消費(fèi)者了解數(shù)據(jù)新鮮度等參數(shù)。
3)數(shù)據(jù)可觀察性——通常,數(shù)據(jù)消費(fèi)者是第一個發(fā)現(xiàn)異常的人,例如 CFO 在儀表板上發(fā)現(xiàn)錯誤。如果這種情況發(fā)生,那么 IT 團(tuán)隊將進(jìn)入了一種被動的救火模式,試圖檢測復(fù)雜架構(gòu)中錯誤出現(xiàn)的位置。
數(shù)據(jù)可觀察性通過持續(xù)監(jiān)控數(shù)據(jù)管道并使用先進(jìn)的 ML 技術(shù)快速識別異常,甚至主動預(yù)測異常來填補(bǔ)空白,以便在問題到達(dá)下游系統(tǒng)之前對其進(jìn)行補(bǔ)救。
數(shù)據(jù)質(zhì)量問題可能發(fā)生在管道中的任何地方。但是,如果越早發(fā)現(xiàn)問題,修復(fù)成本就會越低。因此,采用“左移”的理念。數(shù)據(jù)可觀察性產(chǎn)品通過以下方式提高數(shù)據(jù)質(zhì)量:
數(shù)據(jù)發(fā)現(xiàn)從數(shù)據(jù)源和數(shù)據(jù)管道的所有組件(例如轉(zhuǎn)換引擎和報告或儀表板)中提取元數(shù)據(jù)。
監(jiān)控和分析——針對動態(tài)和靜態(tài)數(shù)據(jù),使用中的數(shù)據(jù)如何?
預(yù)測性異常檢測 - 使用內(nèi)置。
警報和通知
數(shù)據(jù)質(zhì)量是數(shù)據(jù)可觀察性的基礎(chǔ)部分,下圖顯示了數(shù)據(jù)可觀察性的總體范圍。
4)整體數(shù)據(jù)治理——數(shù)據(jù)質(zhì)量子系統(tǒng)與整體元數(shù)據(jù)管理密不可分。
一方面,數(shù)據(jù)目錄存儲定義或推斷的規(guī)則;另一方面,DataOps 實踐生成進(jìn)一步細(xì)化數(shù)據(jù)質(zhì)量規(guī)則的元數(shù)據(jù)。數(shù)據(jù)質(zhì)量和 DataOps 確保數(shù)據(jù)管道以自動方式使用正確的規(guī)則和上下文進(jìn)行持續(xù)測試,并在推斷出異常時發(fā)出警報。
事實上,數(shù)據(jù)質(zhì)量和 DataOps 只是元數(shù)據(jù)眾多用例中的兩個?,F(xiàn)代數(shù)據(jù)質(zhì)量與這些其他用例集成在一起,如下圖所示。
將數(shù)據(jù)質(zhì)量合并到數(shù)據(jù)治理的其他方面的綜合元數(shù)據(jù)平臺可改善業(yè)務(wù)用戶(例如數(shù)據(jù)使用者與數(shù)據(jù)產(chǎn)品的生產(chǎn)者和維護(hù)者)之間的協(xié)作。它們共享相同的上下文和指標(biāo)。
這種緊密集成有助于采用左移方法來提高數(shù)據(jù)質(zhì)量。持續(xù)測試、編排和自動化有助于降低錯誤率并加快數(shù)據(jù)產(chǎn)品的交付。需要這種方法來提高對數(shù)據(jù)團(tuán)隊的信任和信心。
可以說,這種集成是企業(yè)采用數(shù)據(jù)產(chǎn)品、數(shù)據(jù)網(wǎng)格和數(shù)據(jù)共享選項(如交易所和市場)的現(xiàn)代數(shù)據(jù)交付方法的墊腳石。
最后,介紹一款新型的提效工具
JNPF 是引邁信息自研的低代碼應(yīng)用構(gòu)建平臺,通過可視化拖拽的方式,傳統(tǒng)模式下需要 2 周完成開發(fā)的應(yīng)用,用 JNPF 只要 2 小時。用 JNPF 搭建應(yīng)用,你只需要關(guān)注業(yè)務(wù)本身。數(shù)據(jù)存儲、運(yùn)行環(huán)境、服務(wù)器、網(wǎng)絡(luò)安全等,平臺為你全部搞定。
通過高度的抽象,將頁面元素封裝為基礎(chǔ)組件和業(yè)務(wù)組件,將業(yè)務(wù)規(guī)則、權(quán)限等封裝為規(guī)則配置、公式和可拖拽的流程設(shè)計器,通過拖拽以及配置,無需寫代碼,即可完成符合業(yè)務(wù)需求的應(yīng)用系統(tǒng)搭建。
那么低代碼是個什么東西呢?顧名思義,低代碼就是少寫代碼,用戶通過可視化地拖拉拽、配置等比 coding 門檻低的手段來開發(fā)應(yīng)用,但是低代碼平臺的核心價值真的是少寫代碼嗎?其實并不然
低代碼應(yīng)用平臺的核心價值在于運(yùn)行應(yīng)用所依賴的基礎(chǔ)架構(gòu),改變了應(yīng)用交付和管理的模式,大幅縮減交付周期,最終幫助業(yè)務(wù)加速創(chuàng)新。也就是說如果低代碼平臺的打造核心一直盯著少寫代碼的話,產(chǎn)品很大概率會走偏。
如果你是不會代碼的普通員工,深刻了解業(yè)務(wù)但卻厭倦了求人做開發(fā)的日子,在 JNPF 你將擁有一個全新的身份——「低代碼開發(fā)者」。