Contact
Finland
Contact us
Replay

Näin toimii robots.txt

Uutisia ja oivalluksia
#Marketing
,
#SEO

Tämä artikkeli julkaistiin alun perin 31.10.2013 sivustolla seo.se. Artikkeli päivitettiin suomeksi lokakuussa 2018. Jos olet kiinnostunut SEO:sta yleisellä tasolla, suosittelemme artikkelia Mitä on SEO.

Kun työskentelet sivustosi hakukoneoptimoinnin parissa, on robots.txt erittäin tärkeä tiedosto. Se vaikuttaa nimittäin sivustosi verkkotunnuksen indeksointiin. Pienikin virhe robots.txt-tiedostossa voi johtaa siihen, etteivät hakukoneet indeksoi sivustoasi ollenkaan.

Joka tapauksessa on siis hyvä varmistaa, että oma robots.txt-tiedosto on olemassa ja toimii halutulla tavalla.

Harvat tietävät robots.txt-tiedoston olemassaolosta, ja tästä johtuen se joissakin tapauksissa puuttuu kokonaan.

Onneksi oma robots.txt-tiedosto on helppo tarkistaa, sillä sen voi löytää samalla tavalla, sivustosta riippumatta, yksinkertaisesti osoitteesta: www.sinunsivustosi.fi/robots.txt

Robots.txt muistuttaa liikennepoliisia, joka kertoo hakukoneen boteille tai ‘hämähäkeille’, millä sivuston sivuilla ne saavat vierailla ja minne pääsy on estetty. Mutta miksi emme haluaisi, että hakukoneet indeksoivat koko sivustomme?

Syynä voi olla esimerkiksi:

  • Alihakemisto, joka vaatii sisäänkirjautumista, esimerkiksi /asiakas tai /ostoskori
  • Katalogi, joka sisältää template-mallitiedostoja, kuten /templates
  • Jos CMS-sisällönhallintajärjestelmä tuottaa päällekkäisiä sivuja, jotka haluat jättää huomiotta
  • Haluat kertoa, mistä juuri hakukoneille tarkoitetun sitemap.xml-kartan voi löytää

 

Haluatko tietää lisää?

OTA YHTEYTTÄ NYT!

 

Mikä on robots.txt?

Pohjimmiltaan robots.txt on vain tekstitiedosto, johon on pääsy serverilläsi osoitteen www.sinunsivustosi.fi/robots.txt kautta. Siellä voit antaa tietoja ja rajauksia hakukoneiden boteille – kertoa, mille osille sivustoasi ne ovat tervetulleita. Jos sivustosi on suuri, saattavat Googlen hakurobotit vierailla ja käydä läpi sivustoasi tuhansia kertoja päivässä pitääkseen indeksointinsa ajan tasalla. Robots.txt-tiedosto onkin ensimmäinen kohde, jota hakurobotit etsivät tietääkseen, millä sivuston osilla ne saavat vierailla.

Tämän takia on tärkeää, että robots.txt-tiedostosi on virheetön. Muuten voit vahingossa tervetulotoivotuksen sijasta sanoa “Stop, mene pois!”.

Tarvitsevatko kaikki sivustot robots.txt-tiedoston?

Jos sinulla ei ole erikseen robots-tiedostoa hakukoneille, tarkoittaa se, että ne indeksoivat vapaasti koko sivustosi, mitä monissa tapauksissa haluatkin. On myös mahdollista estää hakukoneen pääsy yksittäisen sivuun sisäisten meta-tagien avulla niin halutessasi.

“Kun Googlebot vierailee verkkosivustolla, pyydämme ensin lupaa indeksointiin hakemalla robots.txt-tiedostoa. Jos sivustolla ei ole robots.txt-tiedostoa, robots-sisällönkuvauskenttiä tai X-Robots-Tag-HTTP-otsikoita, se indeksoidaan yleensä normaalisti.”

Lähde: https://support.google.com/webmasters/answer/7424835?hl=fi&ref_topic=6061961#

Miten se toimii?

On hyvä huomioida, että jotkin hakukoneiden botit eivät huomioi robots.txt-tiedostoa ollenkaan. Silloin on useimmiten kyse boteista, jotka on tarkoitettu etsimään esimerkiksi sähköpostiosoitteita spam-viestien lähettämiseen. Tällaiset hakurobotit eivät välitä säännöistä, jotka olet sivustollesi asettanut, mutta kaikki lailliset hakurobotit, kuten Googlen tai Bingin ‘hämähäkit’, lukevat aina sääntösi ja toimivat niiden mukaisesti.

Seuraava yksinkertainen esimerkki havainnollistaa robots.txt-tiedoston sisältöä. Jos hakurobotit ovat tervetulleita kaikkialle sivustollasi, näyttää viesti tältä:

User-agent: *

Disallow:

 

Jos puolestaan haluat täysin estää pääsyn, näyttää tiedosto tältä:

User-agent: *

Disallow: /

Ota oppia muilta

On hyvä vinkki käydä katsomassa, millaisilta muiden robots.txt-tiedostot näyttävät. Mikään ei estä sinua tutkimasta kilpailijoidesi tiedostoja. Tai mikä parempaa, jos tiedät jonkin toisen sivuston käyttävän samaa sisällönhallintajärjestelmää (CMS), voit verrata sitä omaasi. Kaikki olemassa olevat robots.txt-tiedostot löytyvät samalla tavalla: www.sivusto.fi/robots.txt.

Muutama esimerkki:

 

Ota meihin yhteyttä ja opi lisää!

OTA YHTEYTTÄ NYT!

 

Miten voit käyttää robots.txt-tiedostoa?

On olemassa koko joukko erilaisia ohjeita, joita voit antaa hakuroboteille, ja jotkin niistä ovat yleisempiä kuin toiset. On tärkeää oikolukea koko tiedosto useampaan kertaan varmuuden vuoksi, jottei sinne piiloudu käyttöä haittaavia virheitä, jotka estävät tai sallivat indeksointia väärillä sivuilla.

# Hash

Jos tiedät, että robots.txt-tiedostostasi tulee suuri tai että sitä muokkaavat monet henkilöt, voi olla hyödyllistä lisätä kommentteja. Niitä on helppo lisätä yksinkertaisesti aloittamalla rivi #-merkillä. Esimerkiksi:

# Yleinen sääntö kaikille hakuroboteille

User-agent: *

Disallow:

 

# Erityissääntö Bingin boteille

User-agent: bingbot

Disallow: *.pdf$

User-agent:

Tämän rivin avulla kohdistat komentosi tietylle hakurobotille (tai niin sanotulle hämähäkille).

Tavallisesti ohje suunnataan kaikille hakuroboteille, ja tällöin koodikielessä käytetään yleensä *-merkkiä:

User-agent: *

 

Jos puolestaan haluat erityisesti antaa ohjeita Googlen hakurobotille nimeltä Googlebot, näyttää rivi tältä:

User-agent: Googlebot

 

Huomaa kuitenkin, että Google käyttää useita erilaisia robotteja käydäkseen läpi sivustosi eri osia, kuten verkkoa, uutisia, kuvia, videoita ja niin edelleen.

Jos puolestaan haluat kohdistaa viestisi Microsoft Bingin boteille, tulee sinun kirjoittaa:

User-agent: bingbot

 

Haluat myös varmasti tietää, millaiset botit vierailevat sivustollasi. Helpoiten saat sen selville tarkastelemalla palvelinlokiasi, jos sinulla on siihen pääsy. Lokitiedot löytyvät usein hakemistosta, jos sinulla on FTP-yhteys sivustoosi.

Aloita aina robots.txt-tiedostosi User-agent-komennolla, jotta oikeat botit noudattavat ohjeitasi.

Allow:

Tällä komennolla kerrot, millä sivustosi osilla hakurobotit saavat vierailla. Jos koko sivustosi on avoin vierailulle, on tämä komento tarpeeton, mutta tältä se näyttäisi:

User-agent: *

Allow: /

 

Allow-komentoa käytetään usein yhdessä sitä seuraavan Disallow-komennon kanssa.

Disallow:

Tämä komento kertoo, millä sivustosi osilla hakukoneet eivät saa vierailla tai mitä ne eivät saa indeksoida. Takaisin aiemmin mainittuun esimerkkiin – jos tahdot kieltää koko sivustosi indeksoinnin, voit kirjoittaa näin:

User-agent: *

Disallow: /

 

Indeksoinnin kieltäminen voi olla tarpeen, kun uudelleenrakennat sivustoasi ja se on julkinen (mutta eri URL-osoitteessa kuin tavallinen sivustosi). Tässä tapauksessa et tahdo, että hakurobotit indeksoivat kehityksen alla olevaa sivustoasi, sillä se kilpailisi toisen vielä käytössä olevan sivustosi kanssa.

Samalla Disallow-komennolla voit kertoa esimerkiksi Baidus-botille nimeltä Baidu Spider, että se saa indeksoida kaiken muun paitsi kuvat hakemistossasi:

User-agent: baiduspider

Disallow: /images/

 

Robots.txt-tiedoston käytöstä tulee mielenkiintoista, kun käytät komentoja yhdessä niin, että erityisohjeet tarkentavat ja rajaavat yleisempiä ohjeita. Esimerkiksi seuraavat rivit mahdollistavat pääsyn tuotekuviin, mutta estää muiden kuvien indeksoinnin.

User-agent: *

Disallow: /images/

Allow: /images/productimages/

* (wildcard)

Kuten edellä mainittiin, tarkoittaa *-merkki kaikkea, ja sitä voidaan käyttää monella luovalla tavalla robots.txt-tiedostossa. Voit esimerkiksi kirjoittaa alla olevan komennon, joka estää pääsyn kaikkiin sivustosi sisäisiin hakutoimintoihin:

User-agent: *

Disallow: */haku.php?*

 

Nämä kaksi riviä tarkoittavat, etteivät mitkään /haku.php?-sisältöiset osoitteet, kuten www.sivusto.fi/tuotteet/haku.php?q=keksirasia, tule botin indeksoimiksi. Hakutoimintojen indeksointi johtaisi usein päällekkäiseen sisältöön, mikä ei SEO:n kannalta ole järkevää.Vaihtoehtoisesti voit käyttää edellä mainittuja meta-tageja päällekkäisen sisällön estämiseksi.

*-merkkiä voidaan myös käyttää, jos jokin sivuston ominaisuus tai osoitteen osa viittaa useille sivuille ja haluat, että nämä jäävät indeksoimatta:

User-agent: *

Disallow: *private*

 

Tämän avulla seuraavanlaiset URL-osoitteet jäisivät indeksoimatta:

* /my-private-catalogue/

* /private/customers.html

$ (dollarimerkki)

Jos olet joskus työskennellyt Regexin kanssa, on tämä merkki sinulle tuttu. Regexissä $ tarkoittaa, että “mitään ei tule tämän jälkeen”. Toisin sanoen osoite tai tiedostonimi loppuu sitä edeltävään tekstiin.

Sinulla saattaa esimerkiksi olla support-osio, jonka PDF-tiedostoja et halua indeksoiduiksi. Tässä tapauksessa robots.txt-tiedostosi voisi näyttää tältä:

User-agent: *

Disallow: /support/*.pdf$

 

Yllä oleva komento tarkoittaa, että kaikki sisältö /support-osiossa indeksoidaan, lukuun ottamatta PDF-tiedostoja. Komento estää siis .pdf-päätteisten tiedostojen indeksoinnin.

Sitemap:

Sitemap on ainoa robots.txt-komento, jonka käyttämiseen et tarvitse User-agenttia. Se koskee aina kaikkia. Sillä ei myöskään ole väliä, mihin kohtaan tiedostoa tämän rivin sijoitat.

Tämän komennon avulla kerrot hakukoneille, mistä ne voivat löytää sitemaps-protokollan mukaisen sivustokartan. Sivustokartan osoite näyttää yleensä tältä:

Sitemap: http://www.sivusto.fi/sitemap.xml

Muita robots.txt-sääntöjä

Edellä esittelimme yleisimmät robots.txt-säännöt, mutta niitä on olemassa paljon muita. Niihin törmää harvemmin, mutta jos haluat tietää lisää, löytyy An Extended Standard for Robot Exclusion -sivulta paljon hyödyllistä teknistä tietoa.

Visit-time:

Vierailuajan asettaminen on harvinaista, mutta voisi sanoa, että se on kuin määrittäisi sivuston aukioloajat hakuroboteille. Tästä voi olla hyötyä, jos kaistaleveytesi on rajoitettua, mutta yleisesti ottaen ei tälle enää nykyään ole tarvetta.

Jos kuitenkin haluat määrittää vierailuajat sivustollesi, näyttäisi sääntö tältä:

User-agent: *

Visit-time: 2300-0600

 

Huomioi, että ajoitus lasketaan UTC-ajassa.

Crawl-delay:

Crawl-delayn avulla voit määrittää, kuinka usein hakukoneet voivat hakea sivustosi, mitattuna sekunteina. Tämä on hyödyksi, jos palvelimesi on raskaasti kuormitettu ja haluat varmistaa hakukoneiden toiminnan, vaikkakin hieman rajoitetusti.

Jos esimerkiksi haluat rajoittaa Googlebotin hakevan sivustosi vain joka 8. sekunti, näyttää komento tältä:

User-agent: Googlebot

Crawl-delay: 8

 

Muista kuitenkin, että monet hakubotit käyttävät vain tietyn (yleensä melko lyhyen) ajan sivustosi indeksointiin vierailua kohden. Jos rajoitat indeksointitiheyttä, on riskinä, että monet sivut jäävät kokonaan indeksoimatta. Jos sivuja päivitetään usein, ei ajan rajoittaminen välttämättä ole hyvä idea.

Google itse suosittelee, ettei Crawl-delayta käytettäisi, vaan sen sijaan indeksointitiheys voidaan määrittää Google Search Consolen kautta.

Lopuksi

Useimmiten ei ole tarpeen miettiä, millainen robots.txt-tiedostosi on, mutta on tietenkin hyvä tietää, miltä se näyttää. Virheet tiedostossa voivat vaikuttaa orgaaniseen näkyvyyteesi hakutuloksissa.

Oletko varmistanut, että mitään tärkeää ei ole estetty sivustosi indeksoinnista?

Toivottavasti artikkelista oli sinulle hyötyä ja ymmärrät nyt paremmin, mikä robots.txt-tiedosto on ja miten se sivustoosi vaikuttaa.

 

Haluatko tietää lisää? Ota meihin yhteyttä!

OTA YHTEYTTÄ NYT!