Robots.txt – edycja pliku oraz blokowanie robotów
Do czego służy plik robots.txt?
Plik robots.txt to tekstowy plik używany przez właścicieli stron internetowych do kontrolowania zachowań robotów internetowych (takich jak boty wyszukiwarek) na ich stronach.
Głównym celem pliku robots.txt jest informowanie robotów, które części strony można indeksować i przeglądać, a które powinny pozostać prywatne lub niedostępne dla robotów.
Jednakże, nie wszystkie roboty internetowe muszą przestrzegać instrukcji zawartych w tym pliku, ponieważ jest to jedynie sugestia. Niektóre roboty, szczególnie mowa tutaj o złych botach generujących duży ruch na stronie mogą ignorować plik robots.txt. Często w takich sytuacjach pomocne będzie zdefiniowanie blokady IP. Dla zaawansowanego zarządzania blokadami wizyt botów polecamy platformę Cloudflare
Edycja Pliku robots.txt
Plik robots.txt znajduję się w zakładce Wygląd i treści / Edytor szablonów -> Inne pliki -> L03.Plik robots.txt.
Pomocne reguły dotyczące indeksowania w pliku robots.txt
W każdym sklepie Selly poniższe reguły pozwolą zwiększyć crawl budget* w domenie.
*Crawl budget (czasem nazywany także budżetem przeszukiwania) odnosi się do ilości zasobów, które wyszukiwarki internetowe alokują na przeszukiwanie i indeksowanie witryn internetowych w określonym okresie czasu. Jest to ważny aspekt działania robotów internetowych, takich jak Googlebot, Bingbot czy inne roboty wyszukiwarek.
User-agent: *
Disallow: /actions/
Disallow: /adm/
Disallow: /engine/
Disallow: /libs/
Disallow: /mail/
Disallow: /models/
Disallow: /templates/
Disallow: /*q=
Disallow: /*order=
Disallow: /*ilosc=
Disallow: /*a=
Disallow: /*s=
Disallow: /*id=
Disallow: /*view=
Disallow: /*produkt=
Disallow: /koszyk.html
Disallow: /konto.html
Disallow: /ulubione.html
Disallow: /szukaj.html
Jak sprawdzić jakie roboty skanują naszą stronę?
Do sprawdzenia śledzenia ostatnich wizyt przechodzimy do zakładki Marketing/ Śledzenie ostatnich wizyt.
Ilość widocznych rekordów możemy zmienić w zakładce Konfiguracja/ Konfiguracja panelu
Pomocne reguły dotyczące blokowania robotów w pliku robots.txt
Blokowanie wszystkich robotów poza Google:
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
lub
User-agent: Googlebot
Allow:
User-agent: *
Disallow:/
Blokowanie wybranych botów np. Ahrefsbot, GPTBot.
User-agent: AhrefsBot
Disallow: /
User-agent: GPTBot
Disallow: /
Przed zastosowaniem wpisu warto sprawdzić w narzędziu GSC https://www.google.com/webmasters/tools/robots-testing-tool czy zmiany w pliku nie spowodują blokady dla Googlebota.