Standardizzazzjoni tad-Data: Iddefinixxi, Ittestja, u Ttrasforma

Standardizzazzjoni tad-Data

Filwaqt li l-organizzazzjonijiet jaqilbu lejn l-istabbiliment ta’ kultura tad-dejta madwar l-intrapriża, ħafna għadhom qed ibatu biex jiksbu d-dejta tagħhom id-dritt. Il-ġbid tad-dejta minn sorsi differenti u l-kisba ta' formati u rappreżentazzjonijiet varji ta' dak li suppost huwa l-istess informazzjoni - jikkawża ostakli serji fil-vjaġġ tad-dejta tiegħek.

It-timijiet jesperjenzaw dewmien u żbalji waqt li jwettqu l-operazzjonijiet ta’ rutina tagħhom jew jieħdu għarfien minn settijiet ta’ dejta. Problemi bħal dawn jġiegħlu lin-negozji jintroduċu mekkaniżmu ta’ standardizzazzjoni tad-dejta – li jiżgura li d-dejta tkun preżenti b’mod konsistenti u uniformi madwar l-organizzazzjoni. 

Ejja nagħtu ħarsa aktar fil-fond lejn il-proċess ta 'standardizzazzjoni tad-dejta: xi jfisser, il-passi li jinvolvi, u kif tista' tikseb ħarsa standard tad-dejta fl-intrapriża tiegħek.

X'inhi l-Istandardizzazzjoni tad-Data?

Fi kliem sempliċi, l-istandardizzazzjoni tad-dejta hija l-proċess tat-trasformazzjoni tal-valuri tad-dejta minn format mhux korrett għal wieħed korrett. Biex tkun tista' ssir ħarsa tad-dejta standardizzata, uniformi u konsistenti madwar l-organizzazzjoni, il-valuri tad-dejta għandhom jikkonformaw mal-istandard meħtieġ – fil-kuntest tal-oqsma tad-dejta li jappartjenu għalihom.

Eżempju ta' żbalji fl-istandardizzazzjoni tad-dejta

Pereżempju, ir-rekord tal-istess klijent li jirrisjedi f'żewġ postijiet differenti m'għandux ikun fih diskrepanzi fl-isem u l-kunjom, l-indirizz elettroniku, in-numru tat-telefon u l-indirizz residenzjali:

isem email Address Numru tat-telefon Data tat-Twelid Bejn is-Sessi Indirizz Residenzjali
John Oneel john.neal@gmail.com 5164659494 14 / 2 / 1987 M 11400 W Olimpic BL # 200
1 Sors

Isem Kunjom email Address Numru tat-telefon Data tat-Twelid Bejn is-Sessi Indirizz Residenzjali
John O'neal john.neal_gmail.com + 1 516-465-9494 2 / 14 / 1987 Raġel 11400 W Olimpic 200
2 Sors

Fl-eżempju ta’ hawn fuq, tista’ tara t-tipi ta’ inkonsistenzi li ġejjin:

 1. Strutturali: L-ewwel sors ikopri l-Isem tal-Klijent bħala qasam wieħed, filwaqt li t-tieni wieħed jaħżen bħala żewġ oqsma - L-Isem u l-Kunjom.
 2. Disinn: L-ewwel sors għandu a mudell validu tal-email infurzat fuq il-qasam tal-indirizz tal-email, filwaqt li t-tieni waħda hija viżibbliment nieqsa @ simbolu. 
 3. Tip ta 'dejta: L-ewwel sors jippermetti biss ċifri fil-qasam tan-Numru tat-Telefon, filwaqt li t-tieni wieħed għandu qasam tat-tip string li fih simboli u spazji wkoll.
 4. Format: L-ewwel sors għandu d-data tat-twelid fil-format XX/JJ/SSSS, filwaqt li t-tieni wieħed għandu fil-format JJ/XX/SSSS. 
 5. Valur tad-dominju: L-ewwel sors jippermetti li l-valur tas-Sessi jinħażen bħala M jew F, filwaqt li t-tieni sors jaħżen il-formola kompluta - Male jew Female.

Tali inkonsistenzi tad-dejta jwassluk biex tagħmel żbalji serji li jistgħu jikkawżaw li n-negozju tiegħek jitlef ħafna ħin, spiża u sforz. Għal din ir-raġuni, l-implimentazzjoni ta 'mekkaniżmu tarf sa tarf għall- standardizzazzjoni tad-data hija kruċjali biex iżżomm l-iġjene tad-dejta tiegħek.

Kif tistandardizza d-data?

L-istandardizzazzjoni tad-dejta hija proċess sempliċi f'erba' passi. Iżda skont in-natura tal-inkonsistenzi preżenti fid-dejta tiegħek u dak li qed tipprova tikseb, il-metodi u t-tekniki użati għall-istandardizzazzjoni jistgħu jvarjaw. Hawnhekk, aħna nippreżentaw regola ġenerali ġenerika li kwalunkwe organizzazzjoni tista 'tuża biex tegħleb l-iżbalji ta' standardizzazzjoni tagħha. 

 1. Iddefinixxi x'inhu l-istandard

Biex tikseb kwalunkwe stat, l-ewwel trid tiddefinixxi x'inhu l-istat fil-fatt. Fl-ewwel pass ta 'kwalunkwe proċess ta' standardizzazzjoni tad-dejta huwa li jiġi identifikat dak li huwa meħtieġ li jinkiseb. L-aħjar mod biex tkun taf x'għandek bżonn huwa li tifhem ir-rekwiżiti tan-negozju. Ikollok bżonn tiskennja l-proċessi tan-negozju tiegħek biex tara liema data hija meħtieġa u f'liema format. Dan jgħinek tistabbilixxi linja bażi għar-rekwiżiti tad-dejta tiegħek.

Definizzjoni standard tad-dejta tgħin biex tidentifika:

 • L-assi tad-dejta kruċjali għall-proċess tan-negozju tiegħek, 
 • L-oqsma tad-dejta meħtieġa ta’ dawk l-assi,
 • It-tip tad-dejta, il-format, u l-mudell il-valuri tagħhom għandhom jikkonformaw ma',
 • Il-firxa ta 'valuri aċċettabbli għal dawn l-oqsma, eċċ.

 1. Ittestja settijiet tad-dejta kontra l-istandard definit

Ladarba jkollok definizzjoni standard, il-pass li jmiss huwa li tittestja kemm is-settijiet tad-dejta tiegħek qed jaħdmu tajjeb kontrihom. Mod wieħed biex tevalwa dan huwa li tuża profil tad-dejta għodod li jiġġeneraw rapporti komprensivi u jsibu informazzjoni bħall-persentaġġ ta' valuri li jikkonformaw mar-rekwiżiti tal-qasam tad-dejta, bħal:

 • Il-valuri jsegwu t-tip u l-format tad-dejta meħtieġa?
 • Il-valuri jinsabu barra mill-firxa aċċettabbli?
 • Il-valuri jużaw forom imqassra, bħal abbrevjazzjonijiet u laqmijiet?
 • Huma indirizzi standardizzati kif meħtieġ – bħal L-istandardizzazzjoni tal-USPS għall-indirizzi tal-Istati Uniti?

 1. Ittrasforma valuri mhux konformi

Issa wasal finalment iż-żmien li jittrasformaw valuri li ma jikkonformawx mal-istandard definit. Ejja nagħtu ħarsa lejn tekniki komuni ta 'trasformazzjoni tad-data użati.

 • Parsing tad-dejta – Xi oqsma tad-dejta jridu l-ewwel jiġu analizzati biex jiksbu l-komponenti tad-dejta meħtieġa. Pereżempju, l-analiżi tal-qasam tal-isem biex tissepara l-ewwel, in-nofs u l-kunjom, kif ukoll kwalunkwe prefissi jew suffissi preżenti fil-valur.
 • Tip ta' data u konverżjoni tal-format – Jista 'jkollok bżonn tneħħi karattri mhux konformi matul il-konverżjoni, pereżempju, tneħħi simboli u alfabeti minn numru tat-telefon b'ċifri biss.
 • Tqabbil tal-mudell u validazzjoni – Il-konverżjoni tal-mudell issir billi tiġi kkonfigurata espressjoni regolari għall-mudell. Għal valuri ta' indirizzi tal-email li jikkonformaw ma' espressjoni regolari, għandhom jiġu analizzati u trasformati fil-mudell definit. indirizz elettroniku jista' jiġi vvalidat billi tuża r-reġex:

^[a-zA-Z0-9+_.-]+@[a-zA-Z0-9.-]+$

 • Espansjoni tal-abbrevjazzjoni – L-ismijiet tal-kumpaniji, l-indirizzi, u l-ismijiet tal-persuni spiss ikun fihom formoli mqassra li jistgħu jwasslu s-sett tad-dejta tiegħek biex ikun fih rappreżentazzjonijiet differenti tal-istess informazzjoni. Pereżempju, jista 'jkollok tespandi l-istati tal-pajjiż, bħal tikkonverti NY għal New York.
 • Tneħħija tal-istorbju u korrezzjoni tal-ortografija – Ċerti kliem ma verament iżidu l-ebda tifsira għal valur, u minflok, jintroduċu ħafna storbju f'sett tad-dejta. Tali valuri jistgħu jiġu identifikati f'sett tad-dejta billi jitmexxew ma' dizzjunarju li jkun fih dawn il-kliem, jiġu mmarkati, u jiddeċiedu liema minnhom għandhom jitneħħew b'mod permanenti. L-istess proċess jista 'jiġi eżegwit biex jinstabu żbalji ortografiċi u ttajpjar.

 1. Ittestja mill-ġdid is-sett tad-dejta kontra l-istandard definit

Fl-aħħar pass, is-sett tad-dejta trasformat jiġi ttestjat mill-ġdid kontra l-istandard definit biex issir taf il-perċentwal ta 'żbalji ta' standardizzazzjoni tad-dejta li ġew iffissati. Għall-iżbalji li għad fadal fis-sett tad-dejta tiegħek, tista 'tirranġa jew tikkonfigura mill-ġdid il-metodi tiegħek u terġa' tmexxi d-dejta matul il-proċess. 

Nagħlaq

L-ammont ta’ dejta li qed tiġi ġġenerata llum – u l-varjetà ta’ għodod u teknoloġiji użati biex jaqbdu din id-dejta – qed iwasslu lill-kumpaniji biex jiffaċċjaw it-taħwid koroh tad-dejta. Għandhom dak kollu li għandhom bżonn iżda mhumiex ċert dwar għaliex id-dejta mhix preżenti f'forma u forma aċċettabbli u użabbli. L-adozzjoni ta' għodod ta' standardizzazzjoni tad-dejta tista' tgħin biex tirrettifika tali inkonsistenzi u tippermetti kultura tad-dejta tant meħtieġa madwar l-organizzazzjoni tiegħek.

What do you think?

Dan is-sit juża Akismet biex inaqqas l-ispam. Tgħallem kif il-kumment tiegħek huwa pproċessat.