Huis audio Wat is uitbijterdetectie? - definitie van techopedia

Wat is uitbijterdetectie? - definitie van techopedia

Inhoudsopgave:

Anonim

Definitie - Wat betekent Outlier Detection?

Detectie van uitbijters is het proces van het detecteren en vervolgens uitsluiten van uitbijters van een gegeven set gegevens.

Een uitbijter kan worden gedefinieerd als een stuk gegevens of waarneming dat drastisch afwijkt van de gegeven norm of het gemiddelde van de gegevensverzameling. Een uitbijter kan gewoon door toeval worden veroorzaakt, maar het kan ook een meetfout aangeven of dat de gegeven gegevensset een zware staartverdeling heeft.

Hier is een eenvoudig scenario voor uitbijterdetectie, een meetproces levert consistent meetwaarden op tussen 1 en 10, maar in zeldzame gevallen krijgen we metingen van meer dan 20.

Deze zeldzame metingen buiten de norm worden uitbijters genoemd omdat ze "buiten" de normale distributiekromme liggen.

Techopedia legt uitbijterdetectie uit

Er is echt geen gestandaardiseerde en rigide wiskundige methode voor het bepalen van een uitbijter omdat deze echt varieert afhankelijk van de set of gegevenspopulatie, dus de bepaling en detectie ervan wordt uiteindelijk subjectief. Door continue bemonstering in een bepaald gegevensveld kunnen kenmerken van een uitbijter worden vastgesteld om detectie gemakkelijker te maken.

Er zijn op modellen gebaseerde methoden voor het detecteren van uitbijters en ze gaan ervan uit dat de gegevens allemaal afkomstig zijn van een normale verdeling en waarnemingen of punten, die onwaarschijnlijk worden geacht op basis van gemiddelde of standaardafwijking, als uitbijters zullen identificeren. Er zijn verschillende methoden voor uitbijterdetectie:

  • Grubb's test voor uitbijters - Dit is gebaseerd op de veronderstelling dat de gegevens van een normale distributie zijn en één uitbijter per keer verwijdert terwijl de test wordt herhaald totdat er geen uitbijters meer kunnen worden gevonden.
  • Dixons Q-test - Ook gebaseerd op de normaliteit van de gegevensset, test deze methode op slechte gegevens. Er is opgemerkt dat dit spaarzaam en nooit meer dan één keer in een gegevensset moet worden gebruikt.
  • Criterium van Chauvenet - Dit wordt gebruikt om te analyseren of de uitbijter vals is of zich nog steeds binnen de grenzen bevindt en als onderdeel van de set wordt beschouwd. Het gemiddelde en de standaarddeviatie worden genomen en de waarschijnlijkheid dat de uitbijter optreedt, wordt berekend. De resultaten zullen bepalen of het moet worden opgenomen of niet.
  • Pierce's criterium - Er is een foutlimiet ingesteld voor een reeks waarnemingen, waarna alle waarnemingen worden genegeerd omdat ze al zo'n grote fout bevatten.
Wat is uitbijterdetectie? - definitie van techopedia