robots.txt guide

Robots.txt er en simpel tekstfil, der fortæller søgemaskiner, hvilke dele af dit website de må og ikke må crawle. Selvom filen er lille og tilsyneladende enkel, kan fejlkonfigurationer have store konsekvenser for din synlighed i søgeresultaterne. Denne guide gennemgår alt, du behøver at vide.

Hvad er robots.txt?

Robots.txt er en fil placeret i roden af dit domæne (f.eks. example.dk/robots.txt), der følger Robots Exclusion Protocol. Søgemaskiners crawlere læser denne fil, før de crawler resten af dit site, for at forstå hvilke sider de har adgang til.

Hvad kan robots.txt — og hvad kan den ikke?

Robots.txt kan forhindre crawling af bestemte URL'er og mapper. Men det er vigtigt at forstå, at den ikke forhindrer indeksering. En side kan stadig dukke op i søgeresultaterne, hvis andre sider linker til den, selvom den er blokeret i robots.txt. Til at forhindre indeksering skal du bruge et noindex meta-tag eller X-Robots-Tag.

Syntaks og direktiver

User-agent

User-agent-direktivet angiver, hvilken crawler reglen gælder for. User-agent: * gælder alle crawlere, mens User-agent: Googlebot kun gælder Googles crawler.

Disallow

Disallow: /admin/ forhindrer crawling af alle URL'er under /admin/. En tom Disallow-linje betyder, at alt er tilladt.

Allow

Allow bruges til at tillade crawling af specifikke URL'er inden for en ellers blokeret mappe. Allow-regler har højere prioritet end Disallow.

Sitemap

Du kan angive placeringen af dit XML-sitemap med Sitemap: https://example.dk/sitemap.xml. Dette hjælper crawlere med at finde dit sitemap uafhængigt af andre kilder.

Crawl-delay

Nogle crawlere (ikke Googlebot) respekterer Crawl-delay-direktivet, der angiver ventetid mellem requests. Google ignorerer dette og bruger i stedet indstillinger i Google Search Console.

Best practices for robots.txt

Blokér administrative sider

Sider som /admin/, /wp-admin/ og /login/ behøver ikke crawles og bør typisk blokeres.

Undgå at blokere vigtige ressourcer

Blokér aldrig CSS-, JavaScript- eller billedfiler, som Google behøver for at rendere dine sider korrekt. Det var en udbredt praksis tidligere, men det skader mobilvenlighedsvurdering og rendering.

Hold filen opdateret

Når din sidestruktur ændrer sig, bør du opdatere robots.txt tilsvarende. Forældede regler kan enten blokere vigtigt indhold eller tillade crawling af irrelevante sider.

Test før publicering

Brug Google Search Consoles robots.txt-tester til at verificere, at dine regler fungerer som tiltænkt, før du publicerer ændringer.

Typiske fejl

Blokering af hele sitet: En Disallow: / under User-agent: * forhindrer al crawling. Dette sker oftere end man tror, specielt efter migreringer fra staging-miljøer.
Blokering af CSS/JS: Forhindrer Google i at rendere dine sider korrekt.
Forventning om indekseringsblokering: Robots.txt blokerer crawling, ikke indeksering. Brug noindex til indeksering.
Forkert filplacering: Robots.txt skal ligge i domænets rod, ikke i undermapper.

robots.txt og store websites

For store websites med tusindvis af sider er robots.txt et vigtigt værktøj til crawlbudget-optimering. Ved at blokere lavværdi-sider som filtre, sorteringsparametre og interne søgeresultater kan du sikre, at Googlebot bruger sit crawlbudget på dine vigtigste sider.

Ofte stillede spørgsmål

Behøver alle websites en robots.txt?

Teknisk set nej — uden en robots.txt vil crawlere forsøge at crawle alt. Men det anbefales at have en, da den giver dig kontrol over crawling og er et sted at angive dit sitemap.

Kan jeg bruge robots.txt til at skjule følsomt indhold?

Nej, robots.txt er en offentlig fil, og den forhindrer ikke indeksering. Til følsomt indhold bør du bruge adgangskodebeskyttelse eller HTTP-autentificering.

Hvordan tester jeg min robots.txt?

Google Search Console har en robots.txt-tester, hvor du kan indtaste URL'er og se, om de er blokeret. Du kan også bruge Screaming Frog til at simulere crawling med dine robots.txt-regler.

Hvad sker der, hvis robots.txt returnerer en serverfejl?

Hvis robots.txt returnerer en 5xx-fejl, vil Google midlertidigt behandle alle URL'er som blokerede. En 404-fejl betyder derimod, at alt er tilladt.