Huis audio Wat zijn enkele belangrijke manieren om datawetenschappelijke processen te automatiseren en te optimaliseren?

Wat zijn enkele belangrijke manieren om datawetenschappelijke processen te automatiseren en te optimaliseren?

Anonim

Q:

Wat zijn enkele belangrijke manieren om datawetenschappelijke processen te automatiseren en te optimaliseren?

EEN:

Data science-processen in de context van machine learning en AI kunnen worden onderverdeeld in vier verschillende fasen:

  1. data-acquisitie en exploratie,
  2. Model gebouw,
  3. model inzet en
  4. online evaluatie en verfijning.

Uit mijn ervaring zijn de meest belemmerende fasen de fasen van data-acquisitie en modelimplementatie in elk op machine-learning gebaseerd gegevenswetenschappelijk proces, en hier zijn twee manieren om ze te optimaliseren:

1. Breng een zeer toegankelijke gegevensopslag tot stand.

In de meeste organisaties worden gegevens niet op één centrale locatie opgeslagen. Laten we gewoon informatie over klanten nemen. U hebt klantcontactinformatie, e-mails met klantenondersteuning, klantfeedback en browsegeschiedenis als uw bedrijf een webapplicatie is. Al deze gegevens zijn van nature verspreid, omdat ze verschillende doelen dienen. Ze kunnen zich in verschillende databases bevinden en sommige zijn volledig gestructureerd en sommige ongestructureerd, en kunnen zelfs worden opgeslagen als platte tekstbestanden.

Helaas is de verspreidheid van deze gegevenssets zeer beperkt tot gegevenswetenschappelijk werk omdat de basis van alle NLP-, machine learning- en AI-problemen gegevens zijn . Dus het hebben van al deze gegevens op één plek - de gegevensopslag - is van het grootste belang bij het versnellen van de ontwikkeling en implementatie van modellen. Aangezien dit een cruciaal onderdeel is van alle data science-processen, moeten organisaties gekwalificeerde data-ingenieurs inhuren om hen te helpen bij het bouwen van hun datastores. Dit kan eenvoudig beginnen als eenvoudige gegevens op één locatie worden gedumpt en langzaam uitgroeien tot een goed doordachte gegevensrepository, volledig gedocumenteerd en opvraagbaar met hulpprogramma's om subsets van gegevens naar verschillende indelingen te exporteren voor verschillende doeleinden.

2. Stel uw modellen bloot als een service voor naadloze integratie.

Naast toegang tot gegevens, is het ook belangrijk om de door datawetenschappers ontwikkelde modellen in het product te kunnen integreren. Het kan extreem moeilijk zijn om modellen die in Python zijn ontwikkeld te integreren met een webapplicatie die op Ruby draait. Bovendien kunnen de modellen veel gegevensafhankelijkheid hebben die uw product mogelijk niet kan bieden.

Een manier om dit aan te pakken, is door een sterke infrastructuur rond uw model op te zetten en net voldoende functionaliteit beschikbaar te stellen die uw product nodig heeft om het model als een 'webservice' te gebruiken. Als uw toepassing bijvoorbeeld sentimentclassificatie op productrecensies nodig heeft., het enige dat hij hoeft te doen is de webservice aan te roepen, de relevante tekst te verstrekken en de service zou de juiste sentimentclassificatie teruggeven die het product direct kan gebruiken. Op deze manier heeft de integratie eenvoudigweg de vorm van een API-aanroep. Door het model en het product dat het gebruikt te ontkoppelen, is het heel eenvoudig voor nieuwe producten die u verzint ook om deze modellen met weinig gedoe te gebruiken.

Het opzetten van de infrastructuur rond uw model is een heel ander verhaal en vereist een zware initiële investering van uw technische teams. Zodra de infrastructuur er is, is het gewoon een kwestie van modellen bouwen op een manier die in de infrastructuur past.

Wat zijn enkele belangrijke manieren om datawetenschappelijke processen te automatiseren en te optimaliseren?