Kategorie

Robots.txt – edycja pliku oraz blokowanie robotów

Do czego służy plik robots.txt?

🟠 Plik robots.txt to tekstowy plik używany przez właścicieli stron internetowych do kontrolowania zachowań robotów internetowych (takich jak boty wyszukiwarek) na ich stronach.

🟠 Głównym celem pliku robots.txt jest informowanie robotów, które części strony można indeksować i przeglądać, a które powinny pozostać prywatne lub niedostępne dla robotów. 

🟠 Jednakże, nie wszystkie roboty internetowe muszą przestrzegać instrukcji zawartych w tym pliku, ponieważ jest to jedynie sugestia. Niektóre roboty, szczególnie mowa tutaj o złych botach generujących duży ruch na stronie mogą ignorować plik robots.txt. Często w takich sytuacjach pomocne będzie zdefiniowanie blokady IP. Dla zaawansowanego zarządzania blokadami wizyt botów polecamy platformę Cloudflare 

Edycja Pliku robots.txt

🟠 Plik robots.txt znajduję się w zakładce Wygląd i treści / Edytor szablonów -> Inne pliki -> L03.Plik robots.txt.


Pomocne reguły dotyczące indeksowania w pliku robots.txt

🟠 W każdym sklepie Selly poniższe reguły pozwolą zwiększyć crawl budget* w domenie. 

*Crawl budget (czasem nazywany także budżetem przeszukiwania) odnosi się do ilości zasobów, które wyszukiwarki internetowe alokują na przeszukiwanie i indeksowanie witryn internetowych w określonym okresie czasu. Jest to ważny aspekt działania robotów internetowych, takich jak Googlebot, Bingbot czy inne roboty wyszukiwarek.

User-agent: *
Disallow: /actions/
Disallow: /adm/
Disallow: /engine/
Disallow: /libs/
Disallow: /mail/
Disallow: /models/
Disallow: /templates/
Disallow: /*q=
Disallow: /*order=
Disallow: /*ilosc=
Disallow: /*a=
Disallow: /*s=
Disallow: /*id=
Disallow: /*view=
Disallow: /*produkt=
Disallow: /koszyk.html
Disallow: /konto.html
Disallow: /ulubione.html
Disallow: /szukaj.html

Jak sprawdzić jakie roboty skanują naszą stronę?

🟠Do sprawdzenia śledzenia ostatnich wizyt przechodzimy do zakładki Marketing/ Śledzenie ostatnich wizyt.  


🟠 Ilość widocznych rekordów możemy zmienić w zakładce  Konfiguracja/ Konfiguracja panelu


Pomocne reguły dotyczące blokowania robotów w pliku robots.txt

🟠  Blokowanie wszystkich robotów poza Google:
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /

lub

User-agent: Googlebot
Allow:
User-agent: *
Disallow:/

 

🟠 Blokowanie wybranych botów np. Ahrefsbot, GPTBot. 

User-agent: AhrefsBot
Disallow: /
User-agent: GPTBot
Disallow: /

🟠 Przed zastosowaniem wpisu warto sprawdzić w narzędziu GSC  https://www.google.com/webmasters/tools/robots-testing-tool  czy zmiany w pliku nie spowodują blokady dla Googlebota.

Kontakt

Selly Sp. z o.o.
ul. Księcia Witolda 21/13, 50-202 Wrocław
NIP: 8961565693
REGON: 367683150, KRS: 0000684539

Dział sprzedaży: oferta@selly.pl

tel: +48 533 033 933