Inhoudsopgave:
Definitie - Wat betekent datamining?
Datamining is het proces van het analyseren van verborgen datapatronen volgens verschillende perspectieven voor categorisatie in nuttige informatie, die wordt verzameld en geassembleerd in gemeenschappelijke gebieden, zoals data warehouses, voor efficiënte analyse, datamining-algoritmen, het faciliteren van zakelijke besluitvorming en andere informatie vereisten om uiteindelijk kosten te besparen en inkomsten te verhogen.
Datamining wordt ook wel data- en kennisontdekking genoemd.
Techopedia legt uit datamining
De belangrijkste stappen in een dataminingproces zijn:
- Extraheer, transformeer en laad gegevens in een datawarehouse
- Gegevens opslaan en beheren in multidimensionale databases
- Bied gegevenstoegang aan bedrijfsanalisten met behulp van applicatiesoftware
- Analyseer de gepresenteerde gegevens in gemakkelijk te begrijpen vormen, zoals grafieken
De eerste stap in datamining is het verzamelen van relevante gegevens die van cruciaal belang zijn voor het bedrijfsleven. Bedrijfsgegevens zijn transactionele, niet-operationele of metadata. Transactiegegevens hebben betrekking op dagelijkse activiteiten zoals verkoop, voorraad en kosten, enz. Niet-operationele gegevens worden normaal voorspeld, terwijl metagegevens betrekking hebben op logisch databaseontwerp. Patronen en relaties tussen gegevenselementen leveren relevante informatie op, wat de omzet van de organisatie kan verhogen. Organisaties met een sterke focus op de consument houden zich bezig met dataminingtechnieken die een duidelijk beeld geven van verkochte producten, prijs, concurrentie en klantdemografie.
De retailgigant Wal-Mart verzendt bijvoorbeeld alle relevante informatie naar een datawarehouse met terabytes aan data. Deze gegevens zijn gemakkelijk toegankelijk voor leveranciers, zodat zij kooppatronen van klanten kunnen identificeren. Ze kunnen patronen genereren over winkelgewoonten, de meeste winkeldagen, de meest gezochte producten en andere gegevens met behulp van dataminingtechnieken.
De tweede stap in datamining is het selecteren van een geschikt algoritme - een mechanisme dat een datamining-model produceert. De algemene werking van het algoritme omvat het identificeren van trends in een set gegevens en het gebruik van de output voor parameterdefinitie. De meest populaire algoritmen die worden gebruikt voor datamining zijn classificatie-algoritmen en regressie-algoritmen, die worden gebruikt om relaties tussen gegevenselementen te identificeren. Grote databaseleveranciers zoals Oracle en SQL bevatten datamining-algoritmen, zoals clustering en regressie, om aan de vraag naar datamining te voldoen.
