Inhoudsopgave:
Definitie - Wat betekent Spider?
In de context van internet is een spin gespecialiseerde software die is ontworpen om systematisch over het World Wide Web te kruipen en te browsen, meestal om webpagina's te indexeren om ze als zoekresultaten voor zoekopdrachten van gebruikers te bieden. De meest bekende van dergelijke spinnen is de Googlebot, de belangrijkste crawler van Google, die ervoor zorgt dat relevante resultaten worden geretourneerd voor zoekopdrachten.
Spinnen worden ook wel webcrawlers, zoekbots of gewoon bots genoemd.
Techopedia legt Spider uit
Een spin is in wezen een programma dat wordt gebruikt om informatie van het World Wide Web te verzamelen. Het doorzoekt de pagina's van websites die informatie extraheren en indexeren voor later gebruik, meestal voor zoekresultaten van zoekmachines. De spin bezoekt websites en hun pagina's via de verschillende koppelingen van en naar de pagina's, dus een pagina zonder een enkele koppeling er naartoe zal moeilijk te indexeren zijn en kan erg laag worden gerangschikt op de pagina met zoekresultaten. En als er veel links zijn die naar een pagina verwijzen, zou dit betekenen dat de pagina populair is en hoger op de zoekresultaten verschijnt.
Stappen betrokken bij webcrawlen:
- De spin vindt een site en begint zijn pagina's te doorzoeken.
- De spin indexeert de woorden en inhoud van de site.
- De spin bezoekt de links op de site.
Spinnen of webcrawlers zijn slechts programma's en volgen daarom systematische regels die door de programmeurs zijn vastgesteld. Eigenaren van websites kunnen hier ook op ingaan door de spin te vertellen welke delen van de site moeten worden geïndexeerd en welke niet. Dit wordt gedaan door een "robots.txt" -bestand te maken met instructies voor de spin over welke delen moeten worden geïndexeerd en welke links moeten worden gevolgd en welke deze moeten negeren. De belangrijkste spiders die er zijn, zijn die van grote zoekmachines zoals Google, Bing en Yahoo, en die bedoeld zijn voor datamining en onderzoek, maar er zijn ook enkele kwaadaardige spiders geschreven om e-mails te vinden en te verzamelen die de gebruiker aan bedrijven kan verkopen of om kwetsbaarheden in webbeveiliging te vinden.