Навигация по сайту

Популярные статьи

The Ultimate Robots.txt Guide, aby poprawić efektywność indeksowania

  1. W skrócie Robots.txt Plik robots.txt zawiera dyrektywy dla wyszukiwarek, których można użyć, aby...
  2. Terminologia wokół pliku robots.txt
  3. Dlaczego warto troszczyć się o plik robots.txt?
  4. Przykład
  5. Czy twój robots.txt działa przeciwko tobie?
  6. Agent użytkownika w robots.txt
  7. Zabroń w robots.txt
  8. Przykład
  9. Zezwól w pliku robots.txt
  10. Przykład
  11. Przykład sprzecznych dyrektyw
  12. Oddzielna linia dla każdej dyrektywy
  13. Korzystanie ze znaku wieloznacznego *
  14. Przykład
  15. Używając końca adresu URL $
  16. Przykład
  17. Mapa witryny w robots.txt
  18. Przykłady
  19. Przykład 1
  20. Przykład 2
  21. Opóźnienie indeksowania w robots.txt
  22. Przykład:
  23. Kiedy używać pliku robots.txt?
  24. Najlepsze praktyki dotyczące pliku robots.txt
  25. Kolejność pierwszeństwa
  26. Przykład
  27. Przykład
  28. Tylko jedna grupa dyrektyw na robota
  29. Bądź jak najbardziej konkretny
  30. Przykład:
  31. Dyrektywy dla wszystkich robotów, a także dyrektywy dla konkretnego robota
  32. Przykład
  33. Plik Robots.txt dla każdej (pod) domeny
  34. Przykłady
  35. Sprzeczne wskazówki: robots.txt a Google Search Console
  36. Monitoruj plik robots.txt
  37. Skąd wiesz, kiedy zmienia się plik robots.txt?
  38. Nie używaj noindex w swoim robots.txt
  39. Przykłady pliku robots.txt
  40. Wszystkie roboty mają dostęp do wszystkiego
  41. Wszystkie roboty nie mają dostępu
  42. Wszystkie boty Google nie mają dostępu
  43. Wszystkie boty Google, z wyjątkiem wiadomości Googlebot, nie mają dostępu
  44. Googlebot i Slurp nie mają żadnego dostępu
  45. Wszystkie roboty nie mają dostępu do dwóch katalogów
  46. Wszystkie roboty nie mają dostępu do jednego konkretnego pliku
  47. Googlebot nie ma dostępu do / admin / i Slurp nie ma dostępu do / private /
  48. Robots.txt dla WordPress
  49. Jakie są ograniczenia pliku robots.txt?
  50. Strony nadal pojawiają się w wynikach wyszukiwania
  51. Buforowanie
  52. Rozmiar pliku
  53. Często zadawane pytania dotyczące robots.txt
  54. 1. Czy użycie pliku robots.txt uniemożliwi wyszukiwarkom wyświetlanie niedozwolonych stron na stronach wyników wyszukiwania?
  55. 2. Czy powinienem być ostrożny w używaniu pliku robots.txt?
  56. 3. Czy nielegalne jest ignorowanie robots.txt podczas zdrapywania witryny?
  57. 4. Nie mam pliku robots.txt. Czy wyszukiwarki nadal będą indeksować moją witrynę?
  58. 5. Czy mogę używać Noindex zamiast Disallow w moim pliku robots.txt?
  59. 6. Jakie wyszukiwarki szanują plik robots.txt?
  60. 7. Jak mogę uniemożliwić wyszukiwarkom indeksowanie stron wyników wyszukiwania w mojej witrynie WordPress?

W skrócie Robots.txt

Plik robots.txt zawiera dyrektywy dla wyszukiwarek, których można użyć, aby uniemożliwić wyszukiwarkom przeszukiwanie określonych części witryny.

Podczas implementacji robots.txt pamiętaj o następujących najlepszych praktykach:

  • Zachowaj ostrożność podczas wprowadzania zmian w pliku robots.txt: ten plik może uniemożliwić dostęp do wyszukiwarek dużej części witryny.
  • Plik robots.txt powinien znajdować się w katalogu głównym witryny (np. Http://www.example.com/robots.txt).
  • Plik robots.txt jest ważny tylko dla pełnej domeny, w której się znajduje, w tym dla protokołu (http lub https).
  • Różne wyszukiwarki różnie interpretują dyrektywy. Domyślnie pierwsza dopasowana dyrektywa zawsze wygrywa. Ale dzięki Google i Bingowi wygrywa specyfika.
  • Unikaj korzystania z dyrektywy dotyczącej opóźnień indeksowania w wyszukiwarkach tak bardzo, jak to możliwe.

Co to jest plik robots.txt?

Plik robots.txt mówi wyszukiwarkom zasady zaangażowania Twojej witryny.

Wyszukiwarki regularnie sprawdzają plik robots.txt witryny, aby sprawdzić, czy są jakieś instrukcje dotyczące indeksowania witryny. Nazywamy te instrukcje „dyrektywami”.

Jeśli nie ma pliku robots.txt lub nie ma odpowiednich dyrektyw, wyszukiwarki będą indeksować całą witrynę.

Chociaż wszystkie główne wyszukiwarki przestrzegają pliku robots.txt, wyszukiwarki mogą zignorować (część) pliku robots.txt. Chociaż dyrektywy w pliku robots.txt są silnym sygnałem dla wyszukiwarek, ważne jest, aby pamiętać, że plik robots.txt to zestaw opcjonalnych dyrektyw dla wyszukiwarek, a nie dla mandatu.

Terminologia wokół pliku robots.txt

Plik robots.txt to implementacja standardu wykluczania robotów lub nazywany również protokołem wykluczania robotów .

Dlaczego warto troszczyć się o plik robots.txt?

Plik robots.txt odgrywa istotną rolę z punktu widzenia optymalizacji pod kątem wyszukiwarek (SEO). Informuje wyszukiwarki, w jaki sposób mogą najlepiej indeksować Twoją witrynę.

Korzystając z pliku robots.txt, możesz uniemożliwić wyszukiwarkom uzyskiwanie dostępu do określonych części witryny , zapobiegać powielaniu treści i podawać wyszukiwarkom pomocne wskazówki, w jaki sposób mogą oni wydajniej indeksować witrynę.

Zachowaj ostrożność podczas wprowadzania zmian w pliku robots.txt: ten plik może uniemożliwić dostęp do wyszukiwarek dużej części witryny.

Przykład

Spójrzmy na przykład, aby to zilustrować:

Prowadzisz witrynę handlu elektronicznego, a odwiedzający mogą skorzystać z filtra, aby szybko przeszukiwać produkty. Ten filtr generuje strony, które zasadniczo pokazują tę samą zawartość, co inne strony. To działa świetnie dla użytkowników, ale myli wyszukiwarki, ponieważ tworzy duplikat treści . Nie chcesz, aby wyszukiwarki indeksowały te filtrowane strony i marnowały swój cenny czas na te adresy URL z filtrowaną zawartością. Dlatego należy skonfigurować zasady Disallow, aby wyszukiwarki nie miały dostępu do filtrowanych stron produktów.

Zapobieganie powielaniu treści można również wykonać za pomocą kanoniczny adres URL lub tag meta robots, jednak nie dotyczą one umożliwienia wyszukiwarkom przeszukiwania tylko stron ważnych. Używanie kanonicznego adresu URL lub tagu meta robotów nie uniemożliwia wyszukiwarkom indeksowania tych stron . To uniemożliwi wyszukiwarkom wyświetlanie tych stron w wynikach wyszukiwania . Ponieważ wyszukiwarki mają ograniczyć czas indeksowania witryny , tym razem należy wydawać na strony, które chcesz wyświetlać w wyszukiwarkach.

Czy twój robots.txt działa przeciwko tobie?

Nieprawidłowo skonfigurowany plik robots.txt może hamować wydajność SEO. Sprawdź, czy tak jest w przypadku Twojej witryny od razu!

Przykład tego, jak może wyglądać prosty plik robots.txt dla witryny WordPress:

User-agent: * Disallow: / wp-admin /

Wyjaśnijmy anatomię pliku robots.txt na podstawie powyższego przykładu:

  • User-agent: agent użytkownika wskazuje, dla których wyszukiwarek mają zastosowanie następujące dyrektywy.
  • *: oznacza to, że dyrektywy są przeznaczone dla wszystkich wyszukiwarek.
  • Disallow: jest to dyrektywa wskazująca, która treść nie jest dostępna dla agenta użytkownika.
  • / wp-admin /: jest to ścieżka niedostępna dla agenta użytkownika.

Podsumowując: ten plik robots.txt mówi wszystkim wyszukiwarkom, aby trzymały się z dala od katalogu / wp-admin /.

Agent użytkownika w robots.txt

Każda wyszukiwarka powinna identyfikować się z agentem użytkownika. Roboty Google identyfikują się na przykład jako Googlebot, roboty Yahoo jako Slurp i robot Binga jako BingBot i tak dalej.

Rekord agenta użytkownika definiuje początek grupy dyrektyw. Wszystkie dyrektywy między pierwszym agentem użytkownika a następnym rekordem agenta użytkownika są traktowane jako dyrektywy dla pierwszego agenta użytkownika.

Dyrektywy mogą mieć zastosowanie do określonych agentów użytkownika, ale mogą także dotyczyć wszystkich agentów użytkownika. W takim przypadku używany jest symbol wieloznaczny: User-agent: *.

Zabroń w robots.txt

Możesz powiedzieć wyszukiwarkom, aby nie uzyskiwały dostępu do niektórych plików, stron lub sekcji witryny. Odbywa się to za pomocą dyrektywy Disallow. Po dyrektywie Disallow następuje ścieżka, do której nie należy uzyskiwać dostępu. Jeśli nie zdefiniowano ścieżki, dyrektywa jest ignorowana.

Przykład

User-agent: * Disallow: / wp-admin /

W tym przykładzie wszystkie wyszukiwarki nie mają dostępu do katalogu / wp-admin /.

Zezwól w pliku robots.txt

Dyrektywa Allow służy do przeciwdziałania dyrektywie Disallow. Dyrektywa Allow jest obsługiwana przez Google i Bing. Korzystając z dyrektyw Zezwalaj i Nie zezwalaj, możesz przekazać wyszukiwarkom, że mogą uzyskać dostęp do określonego pliku lub strony w katalogu, który w innym przypadku jest niedozwolony. Po dyrektywie Zezwalaj następuje ścieżka, do której można uzyskać dostęp. Jeśli nie zdefiniowano ścieżki, dyrektywa jest ignorowana.

Przykład

User-agent: * Allow: /media/terms-and-conditions.pdf Disallow: / media /

W powyższym przykładzie wyszukiwarki nie mają dostępu do katalogu / media /, z wyjątkiem pliku /media/terms-and-conditions.pdf.

Ważne: w przypadku jednoczesnego używania dyrektyw Zezwalaj i Zabroń, nie używaj symboli wieloznacznych, ponieważ może to prowadzić do sprzecznych dyrektyw.

Przykład sprzecznych dyrektyw

User-agent: * Allow: / directory Disallow: /*.html

Wyszukiwarki nie będą wiedziały, co zrobić z adresem URL http://www.domain.com/directory.html. Nie jest dla nich jasne, czy mają dostęp.

Oddzielna linia dla każdej dyrektywy

Każda dyrektywa powinna znajdować się w osobnej linii, w przeciwnym razie wyszukiwarki mogą się mylić podczas analizowania pliku robots.txt.

Przykład nieprawidłowego pliku robots.txt

Zapobiegaj plikowi robots.txt w następujący sposób:

User-agent: * Disallow: / directory-1 / Disallow: / directory-2 / Disallow: / directory-3 /

Korzystanie ze znaku wieloznacznego *

Symbol wieloznaczny może być nie tylko używany do definiowania agenta użytkownika, ale może być również używany do dopasowywania adresów URL. Symbol wieloznaczny jest obsługiwany przez Google, Bing, Yahoo i Ask.

Przykład

User-agent: * Disallow: / *?

W powyższym przykładzie wszystkie wyszukiwarki nie mają dostępu do adresów URL zawierających znak zapytania (?).

Używając końca adresu URL $

Aby wskazać koniec adresu URL, możesz użyć znaku dolara ($) na końcu ścieżki.

Przykład

User-agent: * Disallow: /*.php$

W powyższym przykładzie wyszukiwarki nie mają dostępu do wszystkich adresów URL, które kończą się na .php. Adresy URL z parametrami, np. Https://example.com/page.php?lang=en nie byłyby zabronione, ponieważ adres URL nie kończy się po .php.

Mapa witryny w robots.txt

Mimo że plik robots.txt został wynaleziony, aby poinformować wyszukiwarki, jakich stron nie należy indeksować , plik robots.txt może być również używany do wskazywania wyszukiwarek w mapie witryny XML. Jest to obsługiwane przez Google, Bing, Yahoo i Ask.

Mapa witryny XML powinna być określana jako bezwzględny adres URL. Adres URL nie musi znajdować się na tym samym hoście, co plik robots.txt. Odwoływanie się do mapy witryny XML w pliku robots.txt jest jedną z najlepszych praktyk, które zawsze zalecamy, mimo że mapa witryny XML została już przesłana w Konsoli wyszukiwania Google lub w Narzędziach dla webmasterów Bing. Pamiętaj, że istnieje więcej wyszukiwarek.

Pamiętaj, że możliwe jest odwołanie się do wielu map witryn XML w pliku robots.txt.

Przykłady

Wiele map witryn XML:

User-agent: * Disallow: / wp-admin / Sitemap: https://www.example.com/sitemap1.xml Mapa witryny: https://www.example.com/sitemap2.xml

Powyższy przykład mówi wszystkim wyszukiwarkom, aby nie uzyskiwały dostępu do katalogu / wp-admin / i że istnieją dwie mapy witryn XML, które można znaleźć pod adresem https://www.example.com/sitemap1.xml i https: //www.example .com / sitemap2.xml.

Pojedyncza mapa witryny XML:

User-agent: * Disallow: / wp-admin / Sitemap: https://www.example.com/sitemap_index.xml

Powyższy przykład mówi wszystkim wyszukiwarkom, aby nie miały dostępu do katalogu / wp-admin / i że mapa witryny XML znajduje się na stronie https://www.example.com/sitemap_index.xml.

Komentarze są poprzedzone znakiem # i mogą być umieszczone na początku linii lub po dyrektywie w tej samej linii. Wszystko po # zostanie zignorowane. Te komentarze są przeznaczone tylko dla ludzi.

Przykład 1

# Nie zezwalaj na dostęp do katalogu / wp-admin / dla wszystkich robotów. User-agent: * Disallow: / wp-admin /

Przykład 2

User-agent: * # Dotyczy wszystkich robotów Disallow: / wp-admin / # Nie zezwalaj na dostęp do katalogu / wp-admin /.

Powyższe przykłady komunikują się tak samo.

Opóźnienie indeksowania w robots.txt

Dyrektywa Crawl-delay jest nieoficjalną dyrektywą służącą do zapobiegania przeciążaniu serwerów zbyt dużą liczbą żądań. Jeśli wyszukiwarki mogą przeciążać serwer, dodanie opóźnienia indeksowania do pliku robots.txt jest tylko tymczasową poprawką. Faktem jest, że Twoja strona działa na złym środowisku hostingowym i powinieneś to naprawić jak najszybciej.

Sposób, w jaki wyszukiwarki radzą sobie z opóźnieniem indeksowania, jest inny. Poniżej wyjaśniamy, jak radzą sobie główne wyszukiwarki.

Google

Google nie obsługuje dyrektywy opóźnienia indeksowania. Jednak Google obsługuje definiowanie szybkości indeksowania w Konsoli wyszukiwania Google. Wykonaj poniższe czynności, aby go ustawić:

  1. Zaloguj się do Google Search Console.
  2. Wybierz witrynę, dla której chcesz zdefiniować szybkość indeksowania.
  3. Kliknij ikonę koła zębatego w prawym górnym rogu i wybierz „Ustawienia witryny”.
  4. Opcja „Szybkość indeksowania” zawiera suwak, na którym można ustawić preferowaną szybkość indeksowania. Domyślnie szybkość indeksowania jest ustawiona na „Pozwól Google optymalizować dla mojej witryny (zalecane)”.

Bing, Yahoo i Yandex

Bing, Yahoo i Yandex wspierają dyrektywę Crawl-delay w celu ograniczenia indeksowania strony internetowej. Ich interpretacja opóźnienia indeksowania jest jednak inna, więc należy sprawdzić ich dokumentację:

Dyrektywa opóźnienia indeksowania powinna być umieszczona zaraz po dyrektywach Disallow lub Allow.

Przykład:

User-agent: BingBot Disallow: / private / Crawl-delay: 10

Baidu

Baidu nie obsługuje dyrektywy opóźnień indeksowania, jednak możliwe jest zarejestrowanie konta Narzędzi dla webmasterów Baidu, na którym można kontrolować częstotliwość indeksowania podobną do Google Search Console.

Kiedy używać pliku robots.txt?

Zalecamy zawsze używać pliku robots.txt. Nie ma absolutnie nic złego w posiadaniu go, a to świetne miejsce do ręcznego wyszukiwania wyszukiwarek na temat tego, jak najlepiej indeksować twoją stronę.

Najlepsze praktyki dotyczące pliku robots.txt

Najlepsze praktyki dotyczące plików robots.txt dzielą się na następujące kategorie:

Plik robots.txt należy zawsze umieszczać w katalogu głównym witryny (w katalogu najwyższego poziomu hosta) i nosić nazwę pliku robots.txt, na przykład: https://www.example.com/robots.txt . Pamiętaj, że adres URL pliku robots.txt jest, podobnie jak każdy inny adres URL, wrażliwy na wielkość liter.

Jeśli pliku robots.txt nie można znaleźć w domyślnej lokalizacji, wyszukiwarki uznają, że w witrynie nie ma żadnych dyrektyw i indeksuje się.

Kolejność pierwszeństwa

Ważne jest, aby pamiętać, że wyszukiwarki obsługują pliki robots.txt inaczej. Domyślnie pierwsza dopasowana dyrektywa zawsze wygrywa .

Jednak dzięki Google i Bing wygrywa . Na przykład: dyrektywa Zezwalaj wygrywa z dyrektywą Disallow, jeśli jej długość jest dłuższa.

Przykład

User-agent: * Zezwól: / about / company / Disallow: / about /

W powyższym przykładzie wyszukiwarki, w tym Google i Bing, nie mają dostępu do katalogu / about /, z wyjątkiem podkatalogu / about / company /.

Przykład

User-agent: * Disallow: / about / Allow: / about / company /

W powyższym przykładzie wyszukiwarki z wyjątkiem Google i Bing nie mają dostępu do katalogu / about /, w tym / about / company /.

Google i Bing mają dostęp, ponieważ dyrektywa Allow jest dłuższa niż dyrektywa Disallow.

Tylko jedna grupa dyrektyw na robota

Można zdefiniować tylko jedną grupę dyrektyw na wyszukiwarkę. Mieć wiele grup dyrektyw dla jednej wyszukiwarki myli je.

Bądź jak najbardziej konkretny

Dyrektywa disallow uruchamia się również w częściowych dopasowaniach. Przy określaniu dyrektywy Disallow, aby zapobiec niezamierzonemu uniemożliwieniu dostępu do plików, bądź jak najbardziej szczegółowy.

Przykład:

User-agent: * Disallow: / katalog

Powyższy przykład nie zezwala wyszukiwarkom na dostęp do:

  • /informator
  • /informator/
  • / nazwa-katalogu-1
  • /directory-name.html
  • /directory-name.php
  • / nazwa-katalogu.pdf

Dyrektywy dla wszystkich robotów, a także dyrektywy dla konkretnego robota

Dla robota ważna jest tylko jedna grupa dyrektyw. W przypadku, gdy dyrektywy dla wszystkich robotów są zgodne z dyrektywami dla konkretnego robota, tylko te szczegółowe dyrektywy zostaną wzięte pod uwagę. Aby konkretny robot mógł również przestrzegać dyrektyw dla wszystkich robotów, należy powtórzyć te dyrektywy dla konkretnego robota.

Spójrzmy na przykład, który to wyjaśni:

Przykład

User-agent: * Disallow: / secret / Disallow: / test / Disallow: / not-launch-yet / User-agent: googlebot Disallow: / not-launch-yet /

W powyższym przykładzie wyszukiwarki z wyjątkiem Google nie mają dostępu / tajne /, / test / i / nie-uruchomione-jeszcze /. Google nie ma dostępu tylko do / jeszcze nie uruchomionych /, ale ma dostęp do / tajne / i / test /.

Jeśli nie chcesz, aby googlebot miał dostęp / tajny / i / nie-uruchomiony-jeszcze / wtedy musisz powtórzyć te dyrektywy specjalnie dla googlebot:

User-agent: * Disallow: / secret / Disallow: / test / Disallow: / not-launch-yet / User-agent: googlebot Disallow: / secret / Disallow: / not-started-yet /

Pamiętaj, że plik robots.txt jest publicznie dostępny. Nie zezwalanie na sekcje stron internetowych może być wykorzystane jako wektor ataku przez osoby o złych zamiarach.

Plik Robots.txt dla każdej (pod) domeny

Dyrektywy Robots.txt dotyczą tylko domeny (pod) domeny, na której znajduje się plik.

Przykłady

http://example.com/robots.txt obowiązuje dla http://example.com, ale nie dla http: // www .example.com lub http s : //example.com.

Najlepiej jest mieć tylko jeden plik robots.txt dostępny w Twojej (pod) domenie. To koniec w ContentKing. Jeśli masz wiele plików robots.txt, upewnij się, że zwracają one status HTTP 404 lub 301-przekierowują je do kanonicznego pliku robots.txt.

Sprzeczne wskazówki: robots.txt a Google Search Console

W przypadku, gdy plik robots.txt koliduje z ustawieniami zdefiniowanymi w Google Search Console, Google często wybiera ustawienia zdefiniowane w Google Search Console w stosunku do dyrektyw zdefiniowanych w pliku robots.txt.

Monitoruj plik robots.txt

Ważne jest, aby monitorować plik robots.txt pod kątem zmian. W ContentKing widzimy wiele problemów, w których nieprawidłowe dyrektywy i nagłe zmiany w pliku robots.txt powodują poważne problemy z SEO. Dotyczy to zwłaszcza uruchamiania nowych funkcji lub nowej strony internetowej przygotowanej w środowisku testowym, ponieważ często zawierają one następujący plik robots.txt:

User-agent: * Disallow: /

Zbudowalismy śledzenie zmian i alarmowanie robots.txt z tego powodu.

Skąd wiesz, kiedy zmienia się plik robots.txt?

Widzimy to cały czas: pliki robots.txt zmieniają się bez wiedzy zespołu marketingu cyfrowego. Nie bądź tą osobą. Zacznij monitorować plik robots.txt, teraz otrzymasz powiadomienia, gdy się zmieni!

Nie używaj noindex w swoim robots.txt

Chociaż niektórzy twierdzą, że dobrym pomysłem jest użycie dyrektywy noindex w pliku robots.txt, nie jest to oficjalny standard i Google otwarcie zaleca, aby go nie używać . Google nie wyjaśniło dokładnie, dlaczego, ale uważamy, że powinniśmy poważnie potraktować ich zalecenia (w tym przypadku). To ma sens, ponieważ:

  • Trudno jest śledzić, które strony nie powinny być indeksowane, jeśli używasz wielu sposobów sygnalizowania braku indeksowania stron.
  • Dyrektywa noindex nie jest dowodem na to, że nie jest oficjalnym standardem. Załóżmy, że nie będzie w 100% śledzony przez Google.
  • Wiemy tylko o Google za pomocą dyrektywy noindex, inne wyszukiwarki nie będą go używać na stronach noindex.

Najlepszym sposobem sygnalizowania wyszukiwarkom, że strony nie powinny być indeksowane, jest użycie meta robots tag lub X-Robots-Tag . Jeśli nie możesz ich użyć, a dyrektywa robind.txt noindex jest twoją ostatnią deską ratunku, niż możesz ją wypróbować, ale załóż, że nie będzie w pełni działać, nie będziesz rozczarowany.

Przykłady pliku robots.txt

W tym rozdziale omówimy szeroki zakres przykładów plików robots.txt.

Wszystkie roboty mają dostęp do wszystkiego

Istnieje wiele sposobów informowania wyszukiwarek, że mogą uzyskać dostęp do wszystkich plików:

User-agent: * Disallow:

Lub posiadanie pustego pliku robots.txt lub brak pliku robots.txt.

Wszystkie roboty nie mają dostępu

User-agent: * Disallow: /

Uwaga: jedna dodatkowa postać może zrobić różnicę.

Wszystkie boty Google nie mają dostępu

User-agent: googlebot Disallow: /

Pamiętaj, że wyłączenie Googlebota dotyczy wszystkich Googlebotów. Obejmuje to roboty Google, które szukają na przykład wiadomości (googlebot-news) i obrazów (googlebot-images).

Wszystkie boty Google, z wyjątkiem wiadomości Googlebot, nie mają dostępu

User-agent: googlebot Disallow: / User-agent: googlebot-news Disallow:

Googlebot i Slurp nie mają żadnego dostępu

User-agent: Slurp User-agent: googlebot Disallow: /

Wszystkie roboty nie mają dostępu do dwóch katalogów

User-agent: * Disallow: / admin / Disallow: / private /

Wszystkie roboty nie mają dostępu do jednego konkretnego pliku

User-agent: * Disallow: /directory/some-pdf.pdf

Googlebot nie ma dostępu do / admin / i Slurp nie ma dostępu do / private /

User-agent: googlebot Disallow: / admin / User-agent: Slurp Disallow: / private /

Robots.txt dla WordPress

Poniższy plik robots.txt jest specjalnie zoptymalizowany dla WordPressa, zakładając:

  • Nie chcesz, aby sekcja administracyjna była indeksowana.
  • Nie chcesz indeksować stron z wewnętrznymi wynikami wyszukiwania.
  • Nie chcesz indeksować tagów i stron autora.
  • Nie chcesz, aby Twoja strona 404 była indeksowana.

User-agent: * Disallow: / wp-admin / #block dostęp do sekcji admin Disallow: /wp-login.php #block dostęp do sekcji admin Disallow: / search / #block dostęp do wewnętrznych stron wyników wyszukiwania Disallow: *? S = * #blokuj dostęp do wewnętrznych stron wyników wyszukiwania Disallow: *? p = * #blokuj dostęp do stron, dla których permalinks nie powiedzie się Disallow: * & p = * #blokuj dostęp do stron, dla których permalinki nie powiedzie się Disallow: * i podgląd = * #blokuj dostęp aby wyświetlić podgląd stron Disallow: / tag / #block dostęp do stron tagów Disallow: / autor / #block dostęp do stron autora Disallow: / 404-error / #block dostęp do strony 404 Mapa strony: https://www.example.com/ sitemap_index.xml

Należy pamiętać, że ten plik robots.txt będzie działał w większości przypadków, ale zawsze należy go dostosować i przetestować, aby upewnić się, że dotyczy on konkretnej sytuacji.

Jakie są ograniczenia pliku robots.txt?

Plik Robots.txt zawiera dyrektywy

Mimo że robots.txt jest dobrze szanowany przez wyszukiwarki, nadal jest to dyrektywa, a nie mandat.

Strony nadal pojawiają się w wynikach wyszukiwania

Strony, które są niedostępne dla wyszukiwarek z powodu robots.txt, ale mają linki do nich, mogą nadal pojawiać się w wynikach wyszukiwania, jeśli są połączone z przeszukiwanej strony. Przykład tego, jak to wygląda:

Protip: możliwe jest usunięcie tych adresów URL z Google za pomocą narzędzia do usuwania adresów URL Google Search Console. Pamiętaj, że te adresy URL zostaną tymczasowo usunięte. Aby nie wyświetlać stron wyników Google, należy usuwać adresy URL co 90 dni.

Buforowanie

Google wskazało, że plik robots.txt jest zazwyczaj buforowany przez maksymalnie 24 godziny. Ważne jest, aby wziąć to pod uwagę, wprowadzając zmiany w pliku robots.txt.

Nie jest jasne, w jaki sposób inne wyszukiwarki radzą sobie z buforowaniem pliku robots.txt, ale generalnie najlepiej unikać buforowania pliku robots.txt, aby uniknąć sytuacji, w której wyszukiwarki będą potrzebować więcej czasu, niż potrzeba, aby móc śledzić zmiany.

Rozmiar pliku

W przypadku plików robots.txt Google obsługuje obecnie limit rozmiaru pliku wynoszący 500 kb. Każda treść po tym maksymalnym rozmiarze pliku może zostać zignorowana.

Nie jest jasne, czy inne wyszukiwarki mają maksymalny rozmiar plików dla plików robots.txt.

Często zadawane pytania dotyczące robots.txt

  1. Czy użycie pliku robots.txt uniemożliwi wyszukiwarkom wyświetlanie niedozwolonych stron na stronach wyników wyszukiwania?
  2. Czy powinienem uważać na używanie pliku robots.txt?
  3. Czy ignorowanie robots.txt podczas drapania strony internetowej jest nielegalne?
  4. Nie mam pliku robots.txt. Czy wyszukiwarki nadal będą indeksować moją witrynę?
  5. Czy mogę używać Noindex zamiast Disallow w moim pliku robots.txt?
  6. Jakie wyszukiwarki szanują plik robots.txt?
  7. Jak mogę uniemożliwić wyszukiwarkom indeksowanie stron wyników wyszukiwania w mojej witrynie WordPress?

1. Czy użycie pliku robots.txt uniemożliwi wyszukiwarkom wyświetlanie niedozwolonych stron na stronach wyników wyszukiwania?

Nie, weź ten przykład:

Ponadto: jeśli strona jest zabroniona za pomocą robots.txt, a sama strona zawiera <meta name = "roboty" content = "noindex, nofollow">, roboty wyszukiwarek nadal będą przechowywać stronę w indeksie, ponieważ nigdy dowiedz się o <meta name = "robotach" content = "noindex, nofollow">, ponieważ nie mają dostępu.

2. Czy powinienem być ostrożny w używaniu pliku robots.txt?

Tak, powinieneś być ostrożny. Ale nie bój się go używać. To świetne narzędzie, które pomaga wyszukiwarkom lepiej indeksować Twoją witrynę.

3. Czy nielegalne jest ignorowanie robots.txt podczas zdrapywania witryny?

Z technicznego punktu widzenia nie. Plik robots.txt jest dyrektywą opcjonalną. Nie możemy nic powiedzieć, jeśli z prawnego punktu widzenia.

4. Nie mam pliku robots.txt. Czy wyszukiwarki nadal będą indeksować moją witrynę?

Tak. Gdy wyszukiwarka nie napotka pliku robots.txt w katalogu głównym (w katalogu najwyższego poziomu hosta), zakładają, że nie ma dla nich dyrektyw i będą próbować przeszukać całą witrynę.

5. Czy mogę używać Noindex zamiast Disallow w moim pliku robots.txt?

Nie, nie jest to zalecane. Google szczególnie odradza stosowanie dyrektywy noindex w pliku robots.txt.

6. Jakie wyszukiwarki szanują plik robots.txt?

Wiemy, że wszystkie poniższe wyszukiwarki respektują plik robots.txt:

7. Jak mogę uniemożliwić wyszukiwarkom indeksowanie stron wyników wyszukiwania w mojej witrynie WordPress?

Dołączenie następujących dyrektyw do pliku robots.txt uniemożliwia wszystkim wyszukiwarkom indeksowanie strony wyników wyszukiwania w witrynie WordPress, zakładając, że nie wprowadzono żadnych zmian w funkcjonowaniu stron wyników wyszukiwania.

User-agent: * Disallow: /? S = Disallow: / search /

Dalsza lektura

Txt?
Txt działa przeciwko tobie?
Txt?
Txt?
Txt?
Txt uniemożliwi wyszukiwarkom wyświetlanie niedozwolonych stron na stronach wyników wyszukiwania?
Txt?
Txt podczas zdrapywania witryny?
Czy wyszukiwarki nadal będą indeksować moją witrynę?
Txt?