Inhoudsopgave:
Definitie - Wat betekent Web Crawler?
Een webcrawler is een internetbot die helpt bij webindexering. Ze crawlen pagina voor pagina door een website totdat alle pagina's zijn geïndexeerd. Webcrawlers helpen bij het verzamelen van informatie over een website en de bijbehorende links, en helpen ook bij het valideren van de HTML-code en hyperlinks.
Een webcrawler wordt ook wel een webspider, automatische indexer of eenvoudigweg een crawler genoemd.
Techopedia legt Web Crawler uit
Webcrawlers verzamelen informatie zoals de URL van de website, de metataginformatie, de inhoud van de webpagina, de links op de webpagina en de bestemmingen die uit die links komen, de titel van de webpagina en alle andere relevante informatie. Ze houden de URL's bij die al zijn gedownload om te voorkomen dat dezelfde pagina opnieuw wordt gedownload. Een combinatie van beleid zoals opnieuw bezoeken, selectiebeleid, parallellisatiebeleid en beleefdheidsbeleid bepaalt het gedrag van de webcrawler. Er zijn veel uitdagingen voor webcrawlers, namelijk het grote en continu evoluerende World Wide Web, inhoudsafwegingen, sociale verplichtingen en omgaan met tegenstanders.
Webcrawlers zijn de belangrijkste componenten van webzoekmachines en -systemen die naar webpagina's kijken. Ze helpen bij het indexeren van de webitems en stellen gebruikers in staat om query's naar de index te verzenden en bieden ook de webpagina's die overeenkomen met de query's. Een ander gebruik van webcrawlers is in webarchivering, waarbij grote sets webpagina's periodiek worden verzameld en gearchiveerd. Webcrawlers worden ook gebruikt in datamining, waarbij pagina's worden geanalyseerd op verschillende eigenschappen, zoals statistieken, en daarop worden gegevensanalyses uitgevoerd.