Contact
Norway
Contact us
Replay

Slik fungerer robots.txt

Nyheter og innsikt
#Marketing
,
#SEO

Slik fungerer robots.txt

Denne artikkelen ble opprinnelig publisert 31.10.2013 på nettstedet seo.se. Artikkelen ble oppdatert i mai 2018. For deg som er mer generelt interessert i SEO anbefaler vi denne artikkelen: Hva er SEO?

Når det kommer til søkemotoroptimalisering er det spesielt én viktig fil som du bør ha i bakhodet når det gjelder domenet ditt, nemlig robots.txt. En liten feil i denne filen kan gjøre at nettsiden din faktisk ikke blir indeksert av søkemotorene i det hele tatt. Det er derfor viktig å se over den og sørge for at den fungerer som den skal.

De fleste vet ikke engang at den eksisterer, og i visse tilfeller er det faktisk slik at den ikke fins i det hele tatt.

Heldigvis er det veldig enkelt å se på din robots.txt ettersom den alltid kan finnes på samme sted, uavhengig av domene, nemlig:

www.dittdomene.no/robots.txt

Robots.txt kan minne om et trafikkpoliti som forteller søkemotorenes roboter hvilke deler av nettstedet de får besøke, og hvilke deler vi ikke ønsker at de besøker. Men hvorfor skulle vi ikke ønske søkemotorene indekserer visse deler av et nettsted?

Et par eksempler kan være:

  • En underkatalog som krever at man logger inn. F.eks. /kundesone eller /handlekurv
  • En katalog som inneholder dine template-filer. F.eks. /templates
  • Om ditt CMS genererer dupliserte sider og du ønsker at disse ignoreres
  • For å fortelle hvor man kan finne din sitemap.xml kun tiltenkt for søkemotorer.

 

Vil du vite mer?

Kontakt oss nå!

Hva er robots.txt?

I bunn og grunn er robots.txt bare en tekstfil som du har plassert på din webserver, slik at den kan nåes gjennom www.dittdomene.no/robots.txt, og i denne filen kan du fortelle søkemotorene som er på besøk hvor de er velkommen på ditt nettsted, og hvor de ikke er velkommen (hvis det er tilfellet).

Om du har en større nettside er det ikke uvanlig at Google er på besøk hos deg flere tusen ganger om dagen, og søkerobotene gjør dette ettersom de hele tiden ønsker å holde sin indeks så oppdatert som mulig. Det første søkemotorenes roboter leter etter når de kommer til et nytt domene er nettopp robots.txt, for å se om det er visse deler av domenet de ikke skal besøke.

Derfor er det viktig at man ikke har skrevet feil i denne filen, ettersom den minste lille feil her kan bety at du i stedet for å si «velkommen hit, se deg omkring», sier «stopp, gå herifra!».

Behøver alle sider en robots.txt?

Har du ikke en slik fil tilgjengelig på ditt domene, så vil søkemotorene anse at det er fritt frem for å indeksere alt de finner, noe som i mange tilfeller er akkurat det du er ute etter. Det finnes til og med en mulighet for å blokkere søkemotorene på individuelle sidenivå via metakoder om man skulle ønske det.

 

«Når Googlebot besøker et nettsted ber vi først om tillatelse for å gjennomsøke den ved å forsøke å hente robots.txt-filen. Et nettsted uten robots.txt-fil, robot-metakoder eller en X-Robots-tagverdi i HTTP-header blir som oftest gjennomsøkt og indeksert som vanlig»

Kilde: https://support.google.com/webmasters/answer/7424835?hl=sv&ref_topic=6061961#

 

Hvordan fungerer det?

Det er verdt å notere at enkelte søkeroboter kommer til å ignorere din robots.txt, men da snakker vi først og fremst om søkeroboter som er ment for å lete opp f.eks. e-postadresser for å kunne sende spam. Disse søkerobotene kommer aldri til å bry seg om hvilke regler du har satt opp, men alle de legitime søkerobotene som de fra eksempelvis Google og Bing vil alltid lese denne filen og følge de reglene du har satt opp.

Om vi begynner med et veldig enkelt eksempel som forteller søkerobotene som hilser på at de er velkommen overalt på nettstedet, ser en slik robots.txt slik ut:

User-agent: *
Disallow:

Om det derimot skulle se slik ut i din fil, forteller du det motsatte – nemlig at søkemoterenes roboter ikke er velkommen noen steder på siden din:

User-agent: *
Disallow: /

Lær av andre

Et godt tips er å se på hvordan andre har gjort det med sine robots.txt filer. Det finnes for eksempel ingenting som hindrer deg fra å undersøke hvordan dine konkurrenter har gjort det. Og enda bedre, kjenner du til en side som benytter seg av samme CMS som deg så kan du undersøke deres. Du finner den alltid via www.domene.no/robots.txt om den fins tilgjengelig.

Et par eksempel:


Vil du vite mer?

Kontakt oss nå!


Hva kan du anvende i robots.txt?

Det finnes en hel del direktiv som du kan gi til søkerobotene som besøker nettsiden din, og enkelte er mer vanlige enn andre. Det viktige her er å virkelig lese gjennom hva man har skrevet en ekstra gang, slik at det ikke smyger seg inn noen feil som kan resultere i at du blokkerer hele eller deler av siden som du faktisk vil ha indeksert.

# Hash

Det kan være at du vet at din robots.txt kan bli stor, og at flere personer kan ha behov for å gjøre endringer i den. I så fall kan det være en god idé å legge inn kommentarer i denne filen, og dette gjør du lettest ved å begynne raden med #. For eksempel:

# Generelle regler for alle søkeroboter
User-agent: bingbot
Disallow:

# Særskilt regel for kun Bing
User-agent: bingbot
Disallow: *.pdf$

User-agent:

Dette er den raden du bruker for å spesifisere hvilken søkerobot du prater med. Den vanligste forekomsten er en som inkluderer alle søkeroboter, og i datatermer bruker man ofte å benevne alle med tegnet *, dvs. slik:

User-agent: *

Vil du i stedet kun sette en regel for Googles søkerobot, som heter Googlebot, ser det slik ut:

User-agent: Googlebot

Allow:

Dette direktivet benytter du for å fortelle hvilke deler av siden din som søkemotorenes roboter får besøke. Hvis du syns at hele siden skal få besøk trenger du ikke ha denne regelen, men den skal i så fall se slik ut:

User-agent: *
Allow: /

Allow anvendes ofte i kombinasjon med Disallow nedenfor.

Disallow:

Denne regelen forteller søkerobotene hvilken eller hvilke deler på siden som ikke skal gjennomsøkes og indekseres på domenet ditt. Vi går tilbake til eksempelet over, der vi har en robots.txt som ikke tillater at noen ting på siden din skal indekseres:

User-agent: *
Disallow: /

De eneste gangene du bør ha dette i din robots.txt, er om du holder på å bygge siden din og den ligger offentlig (men på en annen URL enn din vanlige side). I dette tilfellet ønsker du faktisk ikke at søkemotorene skal indeksere din utviklingsside, da dette introduserer duplisert innhold som konkurrer med din korrekte side.

På akkurat samme måte kan du for eksempel fortelle Baidu sin robot, som heter Baidu Spider, at den ikke skal indeksere bildene du har i bildekatalogen din, men at den er velkommen til å indeksere alt annet.

User-agent: baiduspider
Disallow: /images/

 

Det interessante her er at du kan anvende direktivene i kombinasjon med hverandre, og at spesifikke instruksjoner opphever de mer generelle. Det gjør at følgende rader i robots.txt blokkerer alle besøk til /bilder/, men tillater besøk til /bilder/produktbilder/

User-agent: *
Disallow: /bilder/
Allow: /bilder/produktbilder/

* (wildcard)

Akkurat som nevnt over, betyr * alt, og dette kan du anvende på en del kreative måter i din robots.txt ved å eksempelvis ikke indeksere din sides interne søkefunksjon.

User-agent: *
Disallow: */sok.php?*

Disse radene innebærer at så fort en søkerobot finner en lenke som f.eks. www.dittdomene.no/produkter/sok.php?q=kakeform, så vil ikke denne indekseres. Å ikke indeksere sin interne søkefunksjon er som oftest gunstig fra et SEO-synspunkt ettersom dette er en kilde til duplisert innhold. Om man ikke benytter seg av robots.txt her, så går det like fint å anvende seg av robots-metakoden som jeg nevnte over.

Tegnet * kan til og med anvendes dersom det er en funksjon på din side som fremkommer på flere steder, og du ikke ønsker at noen av disse sidene skal indekseres:

User-agent: *
Disallow: *privat*

 

Dette vil innebære at URLer som disse ikke vil bli indeksert:

* /min-private-katalog/
* /privat/kundeliste.html

Merk at Google anvender seg av en hel del ulike roboter for å gjennomsøke siden din, blant annet for web, nyheter, bilder, video, med mer.

Ønsker du i stedet å snakke med Microsofts bot som de bruker for Bing, så skal du bruke:

User-agent: bingbot

For å få en indikasjon på hvilke typer søkeroboter som besøker din side, er det lettest å se i serverloggene dersom du har tilgang til disse. Det er ikke uvanlig at disse finnes i en katalog om du har FTP-tilgang til ditt domene.

Du må alltid starte en regel i robots.txt med nettopp User-agent slik at de følgende reglene blir fulgt av de riktige søkerobotene.

$ (dollartegn)

Om du noen gang har jobbet med Regex så kjenner du igjen dette. I Regex benyttes $ for å indikere at «ingenting kommer etter dette».

Et eksempel vil være om du har en supportseksjon på siden din med PDFer som du ikke ønsker indeksert, men du vil at alt annet skal kunne indekseres. I slike tilfeller skal din robots.txt kunne se slik ut:

User-agent: *
Disallow: /support/*.pdf$

Dette innebærer at alle sidene dine under /support/ vil indekseres hos søkemotorene, så fremt det ikke er en fil som slutter med .pdf, for i dette tilfeller sier direktivet at søkeroboten ikke skal indeksere denne filen.

Sitemap:

Dette er den eneste regelen som ikke behøver en User-agent:, ettersom den gjelder alle som standard. Det spiller heller ingen rolle hvor i robots.txt du plasserer denne raden. Ved hjelp av dette direktivet kan du fortelle søkemotorene hvor den datatilpassede sitemap-filen for din side finnes, og det pleier vanligvis å se slik ut:

Sitemap: http://www.dittdomene.no/sitemap.xml

 

Mindre vanlige direktiver i robots.txt

Det vi har nevnt over er de mest vanlige variantene man pleier å se i robots.txt, men det finnes andre direktiver som man også kan anvende seg av. Det er ikke ofte jeg ramler over dem, men det hender i blant, og vil man lese mer om disse så anbefaler jeg An Extended Standard for Robot Exclusion, selv om den kan være veldig teknisk.

Vi ser allikevel på de mest uvanlige som jeg har sett med ujevne mellomrom.

Visit-time

Denne er veldig uvanlig, men man kan si at det er litt som å spesifisere åpningstidene for siden din, når det gjelder søkemotorenes roboter. Noe som muligens er nyttig om man har veldig begrenset med båndbredde, men generelt er det ikke lengre noen grunn til å anvende Visit-time.

Vil man allikevel spesifisere hvilke tider søkerobotene er velkomne, så ser direktivet slik ut:

User-agent: *
Visit-time: 2300-0600

Det er verdt å merke seg at dette er basert på UTC-tid.

Crawl-delay

Ved hjelp av Crawl-delay kan du fortelle søkemotorens robot at de ikke skal laste ned en side mer enn hvert X sekund. Dette kan være et alternativ om du har hard belastning på din server og vil sørge for at søkemotorene er velkomne, om enn noe mer begrenset.

Vil du for eksempel begrense Googlebot til å kun hente en side hvert 8. sekund, ser det slik ut:

User-agent: Googlebot
Crawl-delay: 8

Det er verdt å tenke på at mange søkeroboter kun avsetter en viss tid (oftest ganske kort) per session de besøker siden din, og om du begrenser den så innebærer det med stor sannsynlig at ikke like mange sider vil bli indeksert. Om du har en side som oppdateres relativt ofte er dette ikke en god idé etter min mening.

Google selv anbefaler ikke å anvende seg av Crawl-delay, og de vil heller at man ved behov spesifiserer dette i Google Search Console.

 

Konklusjon

Som regel trenger man ikke tenke på hvordan sin robots.txt ser ut, men det kan helt klart være verdt å sjekke opp hvordan det ser ut. Om det er slik at det er noe som ikke stemmer, så kan det unektelig påvirke din synlighet i det organiske søkeresultatet.

Har du sørget for at det ikke er noe viktig på siden din som er ekskludert fra indeksering?

 

Vi håper denne artikkelen har vært til hjelp, og at det har gitt deg en bedre forståelse for hva robots.txt er, og hvordan det påvirker siden din hos søkemotorene.

Vil du vite mer?

Kontakt oss nå!

This website uses cookies for tracking and optimization purposes. By continuing to use the website you are giving consent to cookies being used. For information on cookies and how you can disable them, please see our Privacy and Cookie statements.

Yes, I agree