Robots.txt: veelgemaakte fouten
Sinds ik SEO-specialist ben is het robots.txt bestand een van de belangrijke punten die ik bekijk als ik een SEO audit voor een website of webshop uitvoer. Het bestand vormt namelijk een leidraad voor crawlers om te bepalen welke delen van een website wel- en welke delen van een website niet gecrawld mogen worden.
Een goed ingericht robots.txt bestand voorkomt duplicate content en zorgt ervoor dat er geen crawl budget verloren gaat. Maak je echter een fout in robots.txt, dan kan dit ervoor zorgen dat belangrijke pagina’s geblokkeerd worden door crawlers of dat er voor specifieke crawlers helemaal geen regels ingesteld zijn. Wil je dit voorkomen? Lees dan snel verder en ontdek de veelgemaakte fouten op het gebied van robots.txt die ik tijdens mijn werkzaamheden als SEO-specialist ben tegengekomen.
Fout 1: algemene regels niet herhalen voor een specifieke user-agent
Binnen robots.txt is het mogelijk om regels in te stellen voor alle user-agents en voor specifieke user-agents. Regels voor alle user-agents stel je in door te beginnen met ‘User-agent: *’, de regels die je hieronder opstelt gelden voor alle bots die jouw website bezoeken.
Maak je echter regels aan voor een specifieke user-agent, bijvoorbeeld door te beginnen met ‘User-agent: Googlebot’, dan gelden deze regels alleen voor een specifieke crawler (in dit geval de crawlers van Google). Maak je in robots.txt gebruik van een combinatie van regels voor alle crawlers en regels voor specifieke user-agents? Dan is het goed om te weten dat een user-agent die specifieke wordt genoemd, niet naar de regels kijkt die voor alle crawlers zijn ingesteld. Algemene regels moeten daarom altijd herhaald worden bij de regels voor een specifieke user-agent.
Fout 2: geen robots.txt bestand aanmaken voor subdomeinen
Maakt jouw website gebruik van subdomeinen? Dan is het goed om te weten dat je voor elk subdomein een apart robots.txt bestand aan moet maken. Op het gebied van SEO worden subdomeinen namelijk gezien als een aparte website. In de regels van het robots.txt bestand is het dan ook niet mogelijk om het domein (of subdomein) te specificeren. Wil je onderscheid kunnen maken tussen regels die gelden op het hoofddomein en op de verschillende subdomeinen, dan kan dit alleen door voor ieder subdomein een eigen robots.txt bestand aan te maken.
Fout 3: hoofdlettergebruik in URL’s over het hoofd zien
De manier waarop een URL is opgemaakt, maakt dat iedere URL uniek is. Dit betekent dat een URL met daarin een hoofdletter een andere pagina is dan dezelfde URL die geen hoofdletters bevat. Regels in het robots.txt bestand zijn dan ook hoofdlettergevoelig. Daarom is het belangrijk om de exacte slug te vermelden, inclusief hoofdletters. Doe je dit niet, dan kan het gebeuren dat een regel niet geldig is.
Fout 4: verkeerde vermelding XML sitemap
In het robots.txt bestand kun je aan bots / crawlers aangeven waar deze jouw XML sitemap kunnen vinden. Op die manier zorg je ervoor dat crawlers gemakkelijk alle pagina’s van jouw website kunnen vinden. Waar je in de normale regels van het robots.txt bestand geen domeinen en/of subdomeinen kunt specificeren, is het belangrijk dat je de URL van jouw XML-sitemap volledig uitschrijft. Doe je dit niet, dan zullen crawlers jouw XML sitemap niet kunnen vinden via robots.txt.
Fout 5: per ongeluk verkeerde URL’s blokkeren
Het is vrij gemakkelijk om regels binnen het robots.txt bestand aan te maken die gelden voor meerdere URL’s. Daardoor kan het zo zijn dat je een regel aanmaakt die niet alleen de gewenste URL blokkeert, maar ook een hele reeks aan URL’s die je niet wilt blokkeren.
Voeg je bijvoorbeeld de regel ‘disallow: /uit’ toe aan jouw robots.txt bestand, dan worden o.a. de volgende URL’s geblokkeerd:
- www.domein.nl/uit
- www.domein.nl/uit.html
- www.domein.nl/uitgang
- www.domein.nl/uitrit
- www.domein.nl/uit/gang
Wil je dit niet, dan kun je o.a. gebruik maken van wildcards. De regel ‘disallow: /uit$’ blokkeert bijvoorbeeld alleen URL’s waarbij /uit het laatste stukje van de URL is.
Twijfel? Gebruik de Robots.txt tester!
Wil je zeker weten dat jouw regel de juiste URL(‘s) blokkeert en dat er niet per ongeluk onnodig andere URL’s geblokkeerd worden? Gebruik dan de robots.txt tester in Google Search Console. Hier wordt het robots.txt bestand van jouw website automatisch ingeladen en kun je gemakkelijk URL’s testen. Het is zelfs mogelijk om aanpassingen te doen in het getoonde robots.txt bestand, zodat je gelijk kunt testen of een nieuwe regel werkt, zonder dat je het bestand op de server eerst aan moet passen.
Hulp met robots.txt
Twijfel je of jouw robots.txt bestand goed is opgesteld of wil je een robots.txt bestand opstellen en heb je geen idee waar je moet beginnen? Ik help je graag! Neem contact met me op, dan kijk ik even met je mee.