Laatst bijgewerkt: 22-09-2021

Een crawler (of web crawler, spider of searchbot) is een programma dat automatisch naar specifieke informatie zoekt volgens een vooraf bepaald schema. Voldoende kennis over crawlers is erg belangrijk in verband met hun belang op het internet. Bovendien zijn crawlers en kennis erover essentieel in sommige digitale beroepen.

Met ons verklarende artikel willen we je graag warm maken voor het onderwerp crawlers. Hier worden de definities en verklaringen van web crawlers nader gebracht en in detail uitgelegd. We hopen dat je het met plezier leest. We willen je ook enkele tips en aanbevelingen geven over hoe je te werk moet gaan om de best mogelijke resultaten met crawlers te bereiken. We wensen je veel leesplezier.




De belangrijkste dingen

  • Crawlers zijn geautomatiseerde bots en ze doorzoeken het Internet naar informatie door URL’s en hun hyperlinks na elkaar te bezoeken en op te slaan en ze dan thematisch te categoriseren.
  • Web crawlers zijn erg handige hulpmiddelen om informatie op te zoeken, vooral voor SEO optimalisatie van websites en producten, want ze helpen de relevantie bij zoekmachines te verhogen.
  • Je moet oppassen voor kwaadaardige webcrawlers, want die vervuilen je webpagina’s en hebben geen oog voor gegevensbescherming. Daarom is bescherming tegen kwaadaardige web crawlers essentieel.

Woordenlijst item: De term crawler in detail uitgelegd

We willen alles wat belangrijk is over crawlers uitleggen, zodat je de nodige kennis hebt.

Wat is een crawler?

Een crawler is de naam van een computerprogramma dat het World Wide Web doorzoekt naar Internet pagina’s en ze analyseert op specifieke informatie. Dit soort computerprogramma’s wordt ook wel een web crawler, spider, zoekbot of robot genoemd.

Een crawler doorzoekt het World Wide Web naar specifieke informatie. (Beeldbron: 123rf / Sergii Gnatiuk)

Hoe werkt een crawler?

In de eerste stap zoekt een web crawler naar specifieke informatie. Daarbij komt de crawler op een website en dan, via hyperlinks, op verdere URL’s. De crawler bezoekt deze URL’s van de websites en slaat ze op in een lijst.

In principe is de taak van een crawler om websites op het World Wide Web uit te kammen en ze analytisch te bekijken. Dit proces wordt geacht automatisch en repeterend te verlopen.

Op deze manier slaat een crawler theoretisch alle URL’s in het World Wide Web op die niet voor crawlen geblokkeerd zijn. In de praktische toepassing wordt het proces na een default beëindigd en begint de webcrawler dan weer van voren af aan te crawlen. Daarom worden crawlers ook wel bots of zoekbots genoemd, omdat ze herhalende processen grotendeels automatisch doen.

Na het crawlen wordt de informatie van de verzamelde webpagina’s opgeslagen en met behulp van indexering geëvalueerd, om de verzamelde gegevens te ordenen en te structureren.

Welk wettelijk kader moet ik in acht nemen bij het gebruik van een crawler?

In het algemeen is het gebruik van een crawler voor jou juridisch niet bezwaarlijk en op sommige gebieden, zoals SEO of marketing, zelfs noodzakelijk.

Web crawlers vormen de basis voor de grote zoekmachines.

Je kunt echter gemakkelijk misbruik maken van met een web crawler verzamelde gegevens en je in juridisch grijze gebieden manoeuvreren. Je kunt bijvoorbeeld een crawler gebruiken om je te richten op beschermde gegevens die onder copyright bescherming staan. Het is ook illegaal om e-mail adressen voor derden te gebruiken, vooral zonder toestemming.

De zaken worden erg problematisch als je een crawler gebruikt om toegang te krijgen tot informatie en pagina’s die voor een web crawler geblokkeerd zijn. Meestal worden dit soort crawlers gebruikt voor gevaarlijke dingen.

Wat zijn de voordelen en nadelen van een crawler?

Het bestaan van crawlers brengt enkele voor- en nadelen met zich mee, die we je hier kort willen uitleggen.

Voordelen

Het kennen en gebruiken van een web crawler biedt je enkele voordelen die je in je voordeel kunt gebruiken. Enerzijds zijn web crawlers geschikt om informatie te verzamelen op het World Wide Web. Bovendien kan de verzamelde informatie geïndexeerd worden om structuur en orde in de gegevens aan te brengen.

Een goede basiskennis van crawlers is ook bijzonder belangrijk om je SEO vaardigheden praktisch uit te breiden en te verbeteren. Als je weet hoe je je producten en websites goed zichtbaar kunt maken voor gerenommeerde webcrawlers, zullen ze uiteindelijk hoog in de zoekmachines eindigen.

Nadelen

Helaas komen crawlers ook met een paar negatieve aspecten die we je niet willen onthouden. Schadelijke web crawlers beïnvloeden de prestaties van websites negatief en in sommige gevallen volgt er ongeoorloofde gegevensdiefstal.

Veel negatieve gevolgen van web crawlers vloeien voort uit het feit dat ze gebruikt en misbruikt worden voor kwaadaardige en illegale doeleinden.

Waarom zou ik een crawler gebruiken?

Een crawler helpt je veel op sommige gebieden. Vooral op het gebied van SEO zijn web crawlers een grote hulp om websites en producten qua zichtbaarheid op de voorgrond te brengen.

Weten hoe je hoog kunt ranken en positief bij crawlers kunt overkomen is al veel waard.

Goede crawlers vereenvoudigen het zoeken enorm. Web crawlers verzamelen met hoge betrouwbaarheid informatie zoals nieuws, statistische gegevens of e-mail adressen.

Web crawlers zijn ook handig voor prijs- en productvergelijkingen en helpen ook om verzamelde gegevens te indexeren. Web crawlers verzamelen ook veel URL’s die nuttig zijn voor het opbouwen van goede backlinks.

Wat zijn de soorten crawlers?

Voor de soorten crawlers maken we onderscheid op basis van de taken die web crawlers uitvoeren. Het is niet altijd gemakkelijk onderscheid te maken tussen web crawlers, omdat een web crawler verschillende taken kan uitvoeren of dat de taken niet altijd duidelijk van elkaar te onderscheiden zijn.

  • Gerichte crawler: Gerichte crawlers zijn de meest voorkomende en bekende vormen van web crawlers. Zulke crawlers doorzoeken het Internet naar specifieke inhoud en verdelen de webpagina’s die ze vinden en hun hyperlinks thematisch in categorieën.
  • Crawler voor datamining: Dit type web crawler gebruikt statistische methoden om correlaties te zoeken tussen grote gegevensverzamelingen op het Internet. Hoeft niet beperkt te blijven tot het World Wide Web.
  • Crawler voor web geometrie: Dit type crawler gebruikt gewoonlijk metingen om de structuur en eigenschappen van het Internet en zijn gebruikers te bepalen. E-mail harvesters Zulke crawlers zoeken het Internet af naar e-mail adressen en slaan die op om ze later voor andere doeleinden te gebruiken.

Helaas misbruiken velen het gebruik van web crawlers voor twijfelachtige tot illegale doeleinden. Email harvesters verzamelen adressen voor derden om spam emails te sturen. Web crawlers worden ook gebruikt om auteursrechtelijk beschermd materiaal te vinden.

Wat is het verschil tussen een crawler en een scraper?

Terwijl een crawler gewoonlijk meta-gegevens verzamelt en ze ordent en klaarmaakt voor verder gebruik, zoekt een scraper heel gericht naar specifieke pagina’s en hun inhoud. Deze worden gekopieerd en vervolgens wordt deze inhoud in een sterk gelijkende vorm en zonder toestemming naar hun eigen websites geüpload.

Websites die hun inhoud van andere websites kopiëren worden scraper sites genoemd. Grote zoekmachines zoals Google of Bing proberen zulke websites te herkennen en ze uit hun rangschikking te verwijderen.

Een scraper doorzoekt alleen vooraf bepaalde websites, terwijl een web crawler ook via links andere sites kan doorzoeken. Bovendien letten serieuze crawlers op beperkingen zoals robots.txt, terwijl scrapers ze meestal negeren en zo server overbelastingen en inbreuken op auteursrechten accepteren.

Waar kan ik goede crawlers vinden?

Particulieren hebben geen directe toegang tot de crawlers van grote zoekmachine-aanbieders. Hun crawlers worden met veel geld en moeite ontwikkeld en onderhouden. In plaats daarvan zijn er veel hulpmiddelen en open-source programma’s voor web crawlers.

Grote exploitanten van zoekmachines hebben meestal goede crawlers. Belangrijke web crawlers van bekende zoekmachines zijn:

  • Google: Googlebot is verdeeld in twee crawlers voor desktop en mobiele apparaten. Google biedt ook veel hulpmiddelen waarmee je je gegevens kunt lezen en verbeteren in verband met de Googlebot.
  • Bing: Met Bingbot gebruikt Microsoft zijn eigen web crawler voor zijn zoekmachine.
  • Yahoo: De web crawler Slurp Bot zorgt ervoor dat Yahoo gebruikers gepersonaliseerde inhoud krijgen.
  • DuckDuckGo: De zoekmachine adverteert dat het geen persoonlijke gegevens verzamelt. DuckDuckGo werkt met DuckDuckBot als een crawler.

Als je ervaren bent in programmeren, kun je zelf een web crawler bouwen, die in het beste geval perfect op je behoeften is toegesneden. Je bent echter strafbaar als je een crawler ontwikkelt die toegang kan krijgen tot inhoud die voor web crawlers geblokkeerd is.

Hoe kan ik me tegen een crawler beschermen?

Het is een groot voordeel als je website snel en gemakkelijk gevonden wordt door web crawlers van de grote zoekmachines. Het is echter ook van het grootste belang dat je voorkomt dat schadelijke crawlers op je webpagina’s komen. Zulke kwaadaardige bots veroorzaken zaken als slechte gebruikerservaring, serveruitval of gegevensdiefstal.

Ook al werken in sommige gevallen sommige beschermende maatregelen tegen kwaadaardige web crawlers niet, toch is het in je belang om alle mogelijke beschermende maatregelen te nemen. Websites zonder beschermende maatregelen tegen kwaadaardige web crawlers zijn aan hun genade overgeleverd.

Als beheerder van een website kun je het robots.txt bestand op de webruimte gebruiken om mee te delen dat bepaalde inhoud niet opgevangen mag worden. Bovendien bepalen speciale specificaties in de HTML header en in de metatags welke gegevens en bladzijden je vrijgeeft voor indexering. Maar helaas houden bijzonder schadelijke crawlers zich zelden aan zulke specificaties.

Als je je websites tegen schadelijke crawlers wilt beschermen, moet je niet vergeten dat webcrawlers van grote zoekmachines je websites nog steeds moeten rangschikken. Je moet ernaar streven beide zo goed mogelijk te bereiken. (Image source: Benjamin Dada / unsplash)

Om je e-mailadressen te beschermen tegen kwaadwillende crawlers, kun je ze zo op je webpagina’s zetten dat webcrawlers de adressen niet als zodanig zien. Je kunt het e-mail adres ook anders schrijven, bijvoorbeeld example(at)domain(dot)com.

ute Bot management programma’s zorgen ervoor dat legitieme web crawlers je webpagina’s kunnen bezoeken, terwijl kwaadwillige crawlers worden geweerd. Zulke programma’s maken whitelists waarop legitieme web crawlers niet worden uitgesloten.

Conclusie

We denken dat in SEO kennis over crawlers essentieel voor je is. Enerzijds verschaft je kennis over web crawlers de basis om de bots van de zoekmachines door effectieve maatregelen meer aandacht aan je websites en producten te laten besteden en ze beter te positioneren.

Anderzijds helpt je kennis over crawlers je ook om te voorkomen dat dubieuze en schadelijke webcrawlers je websites lamleggen of belangrijke en betrouwbare gegevens stelen en die voor kwade doeleinden misbruiken.

Beeldbron: pixabay / StockSnap

Waarom kun je me vertrouwen?

Recensies