Inhoudsopgave:
Definitie - Wat betekent Dirty Data?
Vuile gegevens zijn gegevens die onjuiste informatie bevatten. Het kan ook worden gebruikt wanneer wordt verwezen naar gegevens in het geheugen die nog niet in een database zijn geladen. De volledige verwijdering van vuile gegevens uit een bron is onpraktisch of vrijwel onmogelijk.
De volgende gegevens kunnen als vuile gegevens worden beschouwd:
- Misleidende gegevens
- Dubbele gegevens
- Incorrecte data
- Onjuiste gegevens
- Niet-geïntegreerde gegevens
- Gegevens die bedrijfsregels schenden
- Gegevens zonder algemene opmaak
- Gegevens met onjuiste interpunctie of spelling
Techopedia legt Dirty Data uit
Naast onjuiste gegevensinvoer kunnen vuile gegevens worden gegenereerd vanwege de onjuiste methoden voor gegevensbeheer en gegevensopslag. Sommige vuile gegevenstypen worden hieronder uitgelegd:
- Onjuiste gegevens - Om ervoor te zorgen dat de gegevens geldig of correct zijn, moet de ingevoerde waarde voldoen aan de geldige waarden van het veld. De waarde die is ingevoerd in het maandveld moet bijvoorbeeld variëren van 1 tot 12, of de leeftijd van een persoon moet minder zijn dan 130. De juistheid van de gegevenswaarde kan programmatisch worden afgedwongen door middel van opzoektabellen of met bewerkingscontroles.
- Onnauwkeurige gegevens - Het is mogelijk dat een gegevenswaarde correct is, maar niet nauwkeurig. Soms is het handig om met andere bestanden of velden te onderzoeken of de gegevenswaarde correct is op basis van de context waarin ze worden gebruikt. Toch kan nauwkeurigheid vaak alleen worden gevalideerd door handmatige verificatie.
- Schending van bedrijfsregels - Gegevens die de bedrijfsregel schenden, zijn een ander type vuile gegevens. Een ingangsdatum moet bijvoorbeeld altijd vóór een vervaldatum komen. Een ander voorbeeld van een overtreding van de bedrijfsregel kan de claim van een Medicare-verzekering zijn waarbij de patiënt mogelijk nog onder de pensioengerechtigde leeftijd is en geen recht heeft op Medicare.
- Inconsistente gegevens - Niet-gecontroleerde gegevensredundantie leidt tot gegevensinconsistenties. Elke organisatie heeft te maken met inconsistente en repetitieve gegevens. Dit is vooral typerend voor klantgegevens.
- Onvolledige gegevens - Gegevens met ontbrekende waarden zijn het belangrijkste type onvolledige gegevens.
- Dubbele gegevens - Dubbele gegevens kunnen optreden als gevolg van herhaalde inzendingen, onjuiste gegevens die worden samengevoegd of een gebruikersfout.
Om de gegevenskwaliteit te verbeteren en vuile gegevens te voorkomen, moeten organisaties methoden toepassen om de volledigheid, geldigheid, consistentie en juistheid van de gegevens te waarborgen.
