Optymalizacja pliku robots.txt to klucz do lepszego SEO Twojej strony. Dowiedz się, jak skutecznie zarządzać dostępem do treści. Przeczytaj!
Spis treściStworzenie pliku robots.txt jest jednym z podstawowych wyzwań, z którymi muszą się uporać właściciele serwisów WWW. Dzięki niemu indeksowanie Twojej strony internetowej będzie przebiegać zgodnie z oczekiwaniami.
Plik robots.txt ma bezpośredni wpływ na działanie robotów wyszukiwarek (przede wszystkim Google). To z tym aspektem działalności jest przede wszystkim kojarzony. Z jego pomocą możesz w pewien sposób „wskazać” algorytmom, na co powinny zwracać uwagę w obrębie Twojej witryny internetowej. Ma to znaczenie szczególnie z perspektywy skutecznego pozycjonowania / SEO. Na tym jednak sposoby na wykorzystanie tego pliku się nie kończą.
Co dokładnie znajduje się w pliku robots.txt? Jak go stworzyć, wykorzystać i w jaki sposób dodawać do niego reguły? W tym artykule wyjaśniłem wszystkie te zagadnienia. Skupiłem się ponadto na przetestowaniu stworzonego pliku, umieszczeniu go w folderze witryny, jego późniejszej aktualizacji oraz potencjalnych problemach. Dzięki temu Twoja strona internetowa ma szansę pojawić się na szczycie wyników wyszukiwania Google.
Co to jest plik robots.txt?
Jak sama nazwa wskazuje, robots.txt jest plikiem tekstowym. Jest on umieszczany w folderze strony internetowej na serwerze. Jego głównym zadaniem jest informowanie robotów, które adresy URL w Twojej witrynie są dla nich dostępne. Dzięki temu robot otrzymuje kompletną „instrukcję”, do czego otrzymuje dostęp i jakie miejsca powinny być dla niego istotne.
Celem tego działania jest uniknięcie przeciążenia robotów nadmiarem niepotrzebnych żądań. Może służyć do wskazywania im plików zasobów, na które powinny zwrócić uwagę. Co natomiast istotne, nie jest to rozwiązanie, które możesz wykorzystać do ukrywania strony internetowej przed botami. Wszystkie utworzone przez Ciebie instrukcje są wysyłane za pomocą standardu Robots Exclusion Protocol.
Głównie plik robots.txt jest odczytywany przez takie automaty bywające na stronach internetowych, jak np.:
- roboty wyszukiwarek (nie tylko Google),
- narzędzia do analizy stron internetowych (np. Ahrefs czy Majestic SEO),
- programy odpowiadające za pobieranie witryn WWW na dyski lokalne (np. HTTrack Website Copier)
- automaty, których zadaniem jest archiwizacja internetu (np. Web Archive),
- roboty AI (powstające modele AI potrzebują danych do rozwoju. Zdobywają je, „skanując” internet i strony WWW w poszukiwaniu istotnych informacji).
Kiedy i w jakim celu korzystać z pliku robots.txt?
Plik robots.txt jest istotny z punktu widzenia wszystkich właścicieli witryn internetowych. Warto po niego sięgnąć, jeśli indeksowanie niektórych stron lub podstron WWW nie jest Ci na rękę z różnych względów. Dotyczy to przede wszystkim informacji nieistotnych z punktu widzenia SEO, a nawet tych potencjalnie szkodliwych.
Na tę kwestię spojrzeć możesz ponadto perspektywy przyczyny, przez którą wykonanie takiej blokady bywa przydatne (a czasem wręcz nieocenione). Kluczowa jest tu kwestia optymalizacji crawl budgetu. Wykluczenie stron nieistotnych z punktu widzenia SEO, zwiększasz szansę na to, że roboty Google dotrą do pożądanego przez Ciebie adresu URL.
Z perspektywy typów plików, które zostają ukryte przed działaniem robotów indeksujących i innych natomiast wpływ pliku robots.txt wyglądać może następująco:
- strony internetowe – w tym przypadku mowa oczywiście o opisywanym już wykorzystaniu indeksu Google i innych wyszukiwarek. W ten sposób roboty indeksujące wiedzą, która witryna jest przeznaczona dla nich. Pamiętaj natomiast, że nawet zakaz indeksowania wprowadzony w pliku robots.txt nie stanowi pełnej ochrony. Adres nadal może być widoczny, ale bez opisu. Dodatkowo też istotną kwestią pozostaje wykluczenie innych elementów, które masz w swoim serwisie;
- pliki multimedialne – zawartość pliku robots.txt może dotyczyć indeksowania plików wideo, grafik, wideo czy materiałów dźwiękowych. Co istotne, za pomocą linków niektóre strony trzecie nadal mogą kierować użytkowników do tych danych;
- pliki zasobów – za pomocą pliku robots.txt możesz zablokować dowolny plik zasobu. Pamiętaj jednak, by nie miał on istotnego wpływu na całą witrynę i jej ładowanie.
Co znajduje się w pliku robots.txt?
Tworząc statyczny plik robots.txt musisz wiedzieć, jakich zapisów użyć, by były one czytelne dla robotów indeksujących. Jest to plik tekstowy, więc do jego stworzenia musisz użyć narzędzia umożliwiającego tworzenie tego rodzaju danych. Świetnie sprawdzi się w tym przypadku nawet zwykły Notatnik.
W pliku robots.txt do kierowania ruchem robotów indeksujących wykorzystuje się głównie trzy najpopularniejsze rodzaje dyrektyw:
-
dyrektywa
Allow
– dzięki niej roboty indeksujące wiedzą, że mogą odwiedzać wskazaną stronę internetową. Stanowi uzupełnienie dyrektywy Disallow; -
dyrektywa
Disallow
– pozwala na określenie adresów URL, zablokowanych pod kątem wyszukiwarek internetowych. Blokuje dostęp botom wymienionym w dyrektywie User-agent; -
dyrektywa
User-agent
– służy do zdefiniowania robotów indeksujących stronę. To właśnie ich dotyczą wszystkie powyższe „pozwolenia” oraz „blokady”. Obowiązuje aż do pojawienia się kolejnego zapisu User-agent. Znak gwiazdki (*) oznacza wszystkie boty. Najczęściej stosowane roboty związane są z zakładkami wyników wyszukiwania w Google, np.:- Googlebot,
- Googlebot Video,
- Googlebot News,
- Googlebot Images.
Co ważne, tworząc konkretną regułę, musisz zawsze określić konkretną ścieżkę pliku, której dotyczy dyrektywa. W innym przypadku wpis może zostać zupełnie zignorowany przez robota Google.
Dyrektywa sitemap (mapy strony)
Oprócz wyżej wymienionych dyrektyw jest jeszcze jedna, która często jest umieszczana w pliku robots.txt. Jest ona wykorzystywana do wskazywania robotom lokalizacji mapy witryny. Jak łatwo się domyślić, musi po niej zostać umieszczony dokładny adres URL (ścieżka) prowadząca do oczekiwanej zawartości. W przypadku bardziej rozbudowanych witryn mapa strony nie musi być jedna. Sitemap może wskazywać na więcej rozwiązań wspomagających skuteczne indeksowanie.
Plik robots . txt – przykładowe zapisy
Jak w praktyce będą wyglądać dyrektywy umieszczone w pliku robots.txt? Zależnie od Twoich potrzeb np.:
zapis zapewniający dostęp dla wszystkich botów do wszystkich adresów URL:
User-agent: *
Disallow:
zapis zapewniający botom Ahrefs dostęp do całego serwisu z wyjątkiem folderów /wazne/ i /prywatne/:
User-agent: Ahrefsbot
Disallow: /wazne/
Disallow: /prywatne/
zapis zapewniający wszystkim botom dostęp do całego serwisu wraz z folderem /dema/, ale z wyjątkiem /pelne/:
User-agent: *
Allow: /dema/
Disallow: /pelne/
Zobacz domyślny plik robots.txt dla WordPressa:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Zabrania on wszystkim robotom odwiedzanie panelu zarządzania WordPressa (wp-admin) z wyjątkiem pliku /wp-admin/admin-ajax.php.
Pamiętaj, że są to oczywiście wyłącznie przykłady. W praktyce zapisów może być znacznie więcej. Ich liczba zwykle rośnie wraz ze stopniem rozbudowania witryny. Najważniejsze natomiast, to przemyśleć dokładnie wszystkie zakazy i pozwolenia, których potrzebujesz. Wskazane jest zrobienie tego jeszcze na etapie planowania strony WWW. Nie zapominaj też o „rozbudowywaniu” pliku wraz z rozwojem swojego miejsca w sieci.
Tworzenie pliku robots.txt – instrukcja krok po kroku
Część usług, takich jak np. kreator stron Wix, automatycznie tworzy plik robots.txt. Informacje o lokalizacji pliku najczęściej możesz znaleźć w regulaminie lub zapytać o nią konsultantów. Nie zawsze natomiast tego typu serwisy pozwalają na samodzielną edycję zawartych tam danych. Warto więc wcześniej sprawdzić, czy takie działanie jest dla Ciebie w ogóle dostępne.
Zanim stworzysz plik robots.txt, nie zapomnij jeszcze wygenerować mapy strony internetowej. Dzięki temu od razu dodasz dotyczącą jej dyrektywę. Unikniesz w ten sposób późniejszej edycji dokumentu, oszczędzając cenny czas.
Pamiętaj ponadto, że robots.txt musi znajdować się w głównym katalogu witryny. W praktyce więc, w przypadku witryny „przykladowa-strona.pl” przykładowy plik powinien zostać ulokowany pod adresem „przykladowa-strona.pl/robots.txt”. Musi zawierać co najmniej jedną regułę.
Teraz czas przejść do najważniejszej części.
1. Tworzenie pliku robots.txt
Plik robots.txt możesz stworzyć na trzy sposoby:
- ręcznie – w dowolnym edytorze tekstowym. Możesz wykorzystać do tego wspominany już wyżej Notatnik, ale też Notepad czy TextEdit. Unikaj raczej bardziej zaawansowanych programów, bo czasem bywają z nimi problemy. Często dodają np. znaki drukarskie czy zapisują pliki w zastrzeżonym formacie. Najważniejsze, aby plik został zapisany z rozszerzeniem .txt;
- automatycznie – wykorzystując do tego automatyczny generator plików. W internecie znajdziesz ich kilka, a wszystkie działają na takiej samej zasadzie. Przykładem może tu być np. Ryte;
- dynamicznie – w formie podstrony internetowej utworzonej bezpośrednio w Twoim systemie CMS.
Ostatni sposób jest najwygodniejszy, choć nieco skomplikowany. Zakłada, że w przypadku aktualizacji witryny w CMS-ie, dojdzie do automatycznego dodawania reguł, które mają być indeksowane do pliku.
2. Dodawanie reguł
Reguły są instrukcjami dla robotów. Pamiętaj więc, że musisz posługiwać się ich „językiem”, by zrozumiały Twoje intencje. Właśnie dlatego konieczne jest przestrzeganie ogólnie przyjętych reguł, zwiększających szansę powodzenia. Wśród najważniejszych wymienić można np.:
- klient użytkownika może indeksować wszystkie strony oraz katalogi, których nie zablokujesz przy pomocy reguły
Disallow
, - 1 grupa to 1 zestaw reguł (dyrektyw). Jeden plik robots.txt musi zawierać co najmniej 1 grupę;
- w każdej grupie jest kilka reguł;
- każda reguła jest zapisywana w jednym wierszu,
- każda grupa zaczyna się od wiersza
User-agent
, - każda grupa zawiera trzy informacje:
- określenie klienta użytkownika,
- określenie dostępów,
- zakaz indeksowania.
Nie zapominaj, że roboty Google czytają plik robots.txt od góry do dołu. Klient użytkownika zostaje z kolei dopasowany do 1 zestawu reguł (pierwszej i najmocniej sprecyzowanej grupy, jaka go wywołuje). W praktyce więc, gdy wiele grup odnosi się do jednego klienta, najpierw zostają one połączone w 1 grupę.
Bardzo ważną informacją jest również to, że roboty rozróżniają wielkość liter. Dyrektywa Allow
dotycząca pliku „Przykladowy” nie będzie oddziaływała na plik „przykladowy” itd. Z tego względu bardzo ważne jest zwrócenie uwagi na poprawność zapisów nazw przywoływanych plików czy folderów.
Pamiętaj, by tworząc plik robots.txt, zachować jego przejrzystą strukturę. W przyszłości może pojawić się potrzeba dodawania do niego kolejnych informacji. W praktyce więc powinien być czytelny zarówno dla robotów, jak i ludzi. Zwróć uwagę na to, by grupować polecenia jak najintensywniej, ograniczając zwrot user agent i nie powtarzając jej dla konkretnej grupy botów. Upewnij się ponadto, że żadne dyrektywy się wzajemnie nie wykluczają.
3. Umieszczenie pliku robots.txt w głównym katalogu strony
Po utworzeniu pliku, uzupełnieniu go odpowiednimi dyrektywami i zapisaniu, czas wysłać go „na stronę”. Nie ma jednej, odgórnie ustalonej i najlepszej metody, aby to zrobić. Z powodzeniem wykorzystasz do tego np.:
- programy FTP,
- oprogramowanie wewnętrzne hostingu.
Plik robots.txt umieszcza się na serwerze dokładnie w taki sam sposób, jak wszelkie inne dane. Pomoże Ci w tym mój poradnik: Jak wrzucić plik na hosting? Jak umieścić stronę na serwerze?. Musi znaleźć się w katalogu głównym hosta witryny, której dotyczy. Nie możesz umieścić go np. w folderze podstrony, jeśli ma dotyczyć całego serwisu. Z drugiej strony, możesz umieścić go np. w subdomenie, jeśli to właśnie do niej się odnosi (np. sklep.przykladowa-strona.pl/robots.txt).
Jak sprawdzić, czy robots.txt przekazuje do robota Google odpowiednie informacje?
Gdy plik robots.txt trafi na serwer, wskazane jest upewnienie się, że wszystko z nim w porządku i nie zawiera błędów. Musisz ponadto sprawdzić, czy jest publicznie dostępny. Tylko te dwa warunki sprawią, że rzeczywiście adresy URL, które chcesz, zostaną prawidłowo zaindeksowane przez roboty.
Pierwszy tester pliku jest za darmo udostępniany przez Google Search Console. Znajdziesz go w „Ustawieniach” w zakładce „Indeksowanie„. Wystarczy, że umieścisz w nim plik robots.txt, a system przeanalizuje jego poprawność i wyświetli wynik. Komunikat „Nie pobrano” wskazuje, że plik zawiera błędy. Najczęściej są one związane z:
- logicznymi nieścisłościami w regułach,
- nieprawidłową składnią.
Przeanalizuj ponownie wszystkie zapisy, a po wprowadzeniu poprawek ponownie skorzystaj z narzędzia. Alternatywnie możesz też sięgnąć po inne programy, takie jak np. SiteAnalyzer.
Gdy plik robots.txt jest już gotowy, prawidłowy i umieszczony na stronie, czas sprawdzić jego widoczność. Wykorzystaj do tego standardową przeglądarkę internetową, której używasz na co dzień. Uruchom w niej okno prywatne i dopisz /robots.txt w adresie URL swojej strony internetowej, jeśli to tam znalazł się plik. Przykładowy URL może wyglądać np. tak:
- https://przykladowa-strona.pl/robots.txt.
Jeśli wszystko przebiegło zgodnie z planem, na ekranie zobaczysz zawartość pliku. Teraz pozostaje już tylko czekać, aż roboty Google zindeksują URL-e, które im wskazano.
Aktualizacja pliku robots.txt
Jak wspominałem, dynamicznie tworzony plik robots.txt jest aktualizowany automatycznie, wraz z wprowadzanymi w witrynie zmianami. Alternatywnie możesz też dodawać (lub usuwać) reguły ręcznie. Nie wymaga to żadnych zaawansowanych umiejętności. Wystarczy tylko, że pobierzesz kopię pliku i przejdziesz do wprowadzania zmian w edytorze. Istotne, by dokonywać ich poza witryną, bo pozwala to uniknąć kłopotów z jej działaniem. Cały proces opisałem poniżej krok po kroku.
Pobranie pliku robots.txt
Zdobycie kopii pliku jest możliwe na kilka sposobów. Najłatwiej jest osiągnąć ten cel:
- korzystając z autorskiego oprogramowania hostingu, z którego korzystasz, zapewniającego możliwość pobierania zawartości serwera na dysk komputera,
- przechodząc do adresu URL, pod którym znajduje się plik robots.txt. Tam możesz ręcznie skopiować jego zawartość. Następnie wklej ją bezpośrednio do edytora tekstowego;
- pobrać rzeczywistą kopię pliku za pomocą dedykowanego narzędzia (np. cURL),
- skorzystać z Google Search Console i wykorzystać raport dotyczący pliku robots.txt, by skopiować jego zawartość.
Edytowanie pliku robots.txt
Po „zdobyciu” zawartości pliku możesz przystąpić do jego edycji w zwykłym edytorze. Pamiętaj tylko, by ponownie przestrzegać zasad tworzenia reguł. Następnie – po naniesieniu niezbędnych zmian – umieść plik na serwerze w ten sam sposób, co poprzednio. Zastąp nim nieaktualny plik, upewniając się, że tamten został usunięty.
Odświeżenie pliku robots.txt w pamięci podręcznej Google
Edytując plik robots.txt zapewne chcesz, by roboty wyszukiwarki zauważyły zmiany wprowadzone przez Ciebie w strukturze strony. Domyślnie możesz polegać na automatycznej indeksacji. Nie ma natomiast pewności, jak szybko ona nastąpi.
W przypadku szczególnie pilnych sytuacji możesz zatem skorzystać z alternatywnej metody, jaką jest wysłanie prośby o ponowne zindeksowanie. Znajdziesz takie rozwiązanie w raporcie dotyczącym pliku robots.txt. Dostaniesz się do niego z poziomu Search Console.
W jaki sposób Google odczytuje i interpretuje zawartość Robots.txt?
Protokół Robots Exclusion Protocol (REP) odpowiada za to, by roboty Google przed zindeksowaniem witryny pobierały i analizowały plik robots.txt. Robią to, by wiedzieć, do których części serwisu mają dostęp. Co jednak istotne, nie dotyczy to:
- botów, których celem jest poprawa ochrony i bezpieczeństwa internautów (np. analizujących złośliwe oprogramowanie),
- botów, które są kontrolowane przez innych internautów (np. subskrypcja kanałów).
Odczyt danych i ich interpretacja dotyczą zróżnicowanych aspektów pliku, jego zawartości:
- adresu URL pliku i „obszaru” jego działania – boty analizują lokalizację pliku. Na tej podstawie określają, jakich adresów w obrębie witryny dotyczą zawarte w nim wskazówki;
-
obsługi błędów i kodów stanu HTTP – w odpowiedzi na żądanie pliku robots.txt roboty otrzymują kod HTTP odpowiedzi serwera. Od niego zależy, jak będzie przebiegało korzystanie z pliku. Wśród najczęściej pojawiających się wymienić można:
- 2xx (success) – prośba o przetworzenie pliku w taki sposób, w jaki określił to serwer, zakończyła się powodzeniem,
- 5xx (serwer errors) – serwer nie mógł ostatecznie odpowiedzieć na żądanie. Przez to Google tymczasowo interpretuje błędy serwera 5xx i 429, jakby witryna była zablokowana,
- 4xx (client errors) – wszystkie błędy 4xx (oprócz 429) są traktowane, jakby prawidłowy plik nie istniał;
- zapisu w pamięci podręcznej – treść pliku zazwyczaj jest przechowywana przez 24 godziny. Zdarza się, że czas ten znacząco się wydłuża, jeśli roboty nie mają możliwości odświeżenia wersji;
- formatu pliku – jak wspominałem, musi być to plik tekstowy. Co więcej, wskazane jest, by był zakodowany w formacie UTF-8, a wiersze były oddzielone znakami CR, LF lub CR/LF;
-
składni – wiersz pliku musi składać się z pola, dwukropka oraz zawartości. Choć spacje nie są obligatoryjne, to jednak zaleca się ich stosowanie dla lepszej czytelności. Dodawane komentarze muszą być poprzedzone #, a wszystko, co znajduje się po tym znaku, jest ignorowane. Oficjalnie Google obsługuje wyłącznie pola:
-
user agent
, -
allow
, -
disallow
, -
sitemap
;
-
- grupowania wierszy i reguł – na potrzeby poszczególnych robotów dozwolone jest grupowanie reguł, które dotyczą wielu klientów użytkownika, poprzez powtarzanie wierszy user agent;
- pierwszeństwa dla klientów użytkownika – tylko jedna grupa jest prawidłowa dla konkretnego robota. W praktyce więc np. roboty Google ustalają właściwą grupę reguł poprzez odnalezienie tej z najtrafniejszym dla nich klientem użytkownika. Pozostałe ignorują;
-
zgodności adresów URL na podstawie wartości ścieżki – roboty oceniają, czy konkretna reguła dotyczy danego adresu URL w witrynie na bazie wartości ścieżki w regułach
allow
idisallow
; - pierwszeństwa reguł – roboty ustalają pierwszeństwo dopasowywania reguły pliku robots.txt, korzystając z najbardziej szczegółowej reguły. Jest ona wybierana na podstawie długości ścieżki.
Ograniczenia i problemy z plikiem robots.txt
Plik robots.txt może przynieść znaczne korzyści Twojej stronie internetowej. Problem jednak w tym, że w przypadku wystąpienia błędów w zapisach, jest w stanie sprowadzić na Ciebie poważne problemy.
Najczęściej zdarza się użytkownikom zablokować dostęp do zbyt wielu podstron lub niewłaściwych adresów URL. Ryzyko wystąpienia tego typu błędu jest szczególnie duże w przypadku rozbudowanych witryn o wielu podstronach. Im więcej wpisów dotyczących rozmaitych podstron, tym większa szansa na to, że wykluczone zostaną również przypadkowe elementy, które wyszukiwarki powinny widzieć.
Drugie zagrożenie związane jest z wyłączaniem zawartości multimedialnych. Pozornie zdawać by się mogło, że ich blokady są wskazane, choćby z uwagi na konkurencję. W praktyce jednak tego rodzaju plik może przynieść wiele korzyści dla Twojej witryny. Przekierowania z sekcji Google Grafika czy Google Filmy czasem generują znaczny ruch, którego możesz się pozbawić.
Trzeci ryzykowny aspekt również związany jest z blokadą plików multimedialnych, ale z innej perspektywy. Ich „wyłączenie” czasem bowiem prowadzi do problemów z renderowaniem strony przez Google Bota. Końcowy wygląd witryny może na tym znacznie ucierpieć. Niektóre roboty uznają ją za niepełną, a to z kolei zaszkodzi jej widoczności, pozycji w rankingu i SEO.
Ograniczenia pliku robots.txt
Plik robots.txt nie jest doskonały i musisz zdawać sobie z tego sprawę. Nie w każdym przypadku wykorzystanie go do blokowania robotów przyniesie oczekiwane efekty. Często lepszym rozwiązaniem są dedykowane mechanizmy i alternatywne, bardziej zaawansowane rozwiązania.
- Bardzo kłopotliwą kwestią jest to, że roboty mogą, ale nie muszą przestrzegać zapisów umieszczonych w pliku. Są to tylko dyrektywy, a nie faktyczne blokady, wobec których boty byłyby bezradne. W związku z tym musisz zdawać sobie sprawę, że Twoje „prośby” mogą zostać zwyczajnie zignorowane.
- Problematyczny bywa również fakt, że niektóre wyszukiwarki nie obsługują reguł pliku robots.txt w ogóle. Jeśli więc szczególnie zależy Ci na bezpieczeństwie i tajności danych, rozważ wprowadzenie bardziej zaawansowanych zabezpieczeń, np. przy pomocy hasła. Więcej na ten temat przeczytasz w moim artykule: Jak zabezpieczyć stronę hasłem? .htpasswd.
-
Robots.txt nie ochroni przed indeksowaniem strony, do której prowadzą linki z innych witryn. W praktyce więc Google wyświetli w wynikach wyszukiwania nawet URL z dyrektywą
Disallow
. Co więcej, mowa nie tylko o samym adresie, ale także innych, związanych z nimi informacjach.
Blokowanie adresów URL w robots.txt – czy to wystarczy?
Bazując na wymienionych przeze mnie powyżej ograniczeniach robots.txt, łatwo odgadnąć, że nie jest to rozwiązanie sprawdzające się w 100%. Choć powstało w 1994 roku i od tamtego czasu jest stale wykorzystywane, nadal nie jest idealne. Zdarza się, że roboty je pomijają, ignorują lub respektują w ograniczonym zakresie. Mimo to natomiast korzystanie z niego niezmiennie jest zalecane. Spojrzeć bowiem trzeba na nie jak na dodatkowe zabezpieczenie i kolejną „warstwę ochronną” Twojej strony internetowej.
Zdaniem wielu ekspertów warto wraz z robots.txt korzystać z dodatkowych zabezpieczeń. Jednym z nich jest np. stosowanie znacznika meta robots w sekcji <HEAD> konkretnych podstron. Nie jest to co prawda najwygodniejsze rozwiązanie i bywa dość czasochłonne. Jest natomiast w stanie zapewnić Ci jeszcze lepszą ochronę:
<meta name="robots" content="noindex, nofollow"/>
Kolejnym sposobem na dodatkowe zabezpieczenie strony jest blokowanie dostępu dla wywołań z określonych klas IP i adresów. Mowa oczywiście o tych wykorzystywanych przez niepożądane boty. Jest to wzmocnienie ochrony, ale o stosunkowo niskiej skuteczności. Jeśli bowiem przegapisz jeden adres, problem pojawi się znowu.
Chcesz kategorycznie zablokować dostęp do określonych zasobów zarówno użytkownikom, jak i botom? Zamiast robots.txt możesz zdecydować się na najskuteczniejszą metodę, czyli zabezpieczenie danych hasłem. Wtedy masz pewność, że nikt i nic się do nich nie dostanie bez Twojej zgody. Doskonale poradzi sobie z tym choćby prosty w obsłudze .htaccess.
Plik robots.txt – rozwiązania dla zaawansowanych
Wspominałem wcześniej, że allow
, disallow
i user agent
to podstawowe dyrektywy używane w robots.txt. Wynika to również z faktu, że są one głównymi poleceniami respektowanymi (przynajmniej zazwyczaj) przez boty wyszukiwarek. Oprócz nich istnieje natomiast również kilka innych, ciekawych rozwiązań. Bardzo często są ignorowane lub nieobsługiwane przez boty, możesz więc potraktować ich istnienie jako formę ciekawostki.
-
Dyrektywa
clean-param
– jest obsługiwana przez niewiele wyszukiwarek. Umożliwia ignorowanie konkretnych parametrów adresów we wskazanych ścieżkach. Jeśli więc kilka adresów będzie różniło się jedną zmienną, możliwe będzie ich znormalizowanie do jednej wartości. Dzięki temu będą odczytywane w spójny sposób. -
Dyrektywa
crawl-delay
– pozwala na określenie, co jaki czas boty powinny pobierać nowe pliki. To przekłada się na oszczędności w transferze, szczególnie istotne w przypadku potężnych i często aktualizowanych witryn.
To oczywiście tylko niektóre przykłady dyrektyw, które w różnym stopniu są przestrzegane przez roboty. Warto natomiast zdawać sobie sprawę z ich istnienia. Jeśli z kolei działanie jednej z nich może być szczególnie opłacalne na Twojej stronie WWW, warto rozważyć jej wprowadzenie. Być może (przynajmniej od czasu do czasu) przyniesie efekty (o ile nie jest otwarcie odrzucana przez największe wyszukiwarki, generujące większość ruchu w Twojej witrynie).
Wynieś adres URL swojej strony WWW na wysoką pozycję wyników wyszukiwania. Podsumowanie
Robots.txt jest niezwykle ważnym narzędziem, którego nie warto zaniedbywać. Aktualnie wielu dostawców CMS gwarantuje jego automatyczne uzupełnianie. Mimo to jednak warto wiedzieć, jak działa i znać sposób samodzielnej edycji czy ogólnego zarządzania jego zawartością. Na pewnym etapie prowadzenia strony (np. w czasie intensywnych i regularnych aktualizacji) wiedza ta może przynieść Ci sporo korzyści. Szczególnie docenią to użytkownicy świadomi wartości pozycjonowania i obyci w tematach SEO.
Z drugiej strony pamiętaj, że robots.txt ma dość ograniczone możliwości. Nie zawsze dyrektywy są przestrzegane przez wyszukiwarki, a nawet jeśli, to nie przez wszystkie. Od reguł zdarzają się też wyjątki, a w dodatku samodzielne tworzenie tego pliku może sprowadzić na Ciebie kłopoty, jeśli się pomylisz. Z tego względu radzę podchodzić do jego edycji dość ostrożnie. Jest to raczej rozwiązanie dla osób, które mają już pewne doświadczenie w zarządzaniu stronami internetowymi i wiedzą, co robią.