Навигация по сайту

Популярные статьи

Wyjaśnienie plików Robots.txt WordPress

  1. Dlaczego plik Robots.txt?
  2. Co dzieje się w pliku Robots.txt?
  3. Co to znaczy?
  4. Co powinien zawierać Twój plik Robots.txt?
  5. Zalecenia
  6. Uwaga!
  7. Zasoby

Oto kilka ważnych pomysłów na temat tego, czym jest plik robots.txt, dlaczego chcesz go mieć i czego się spodziewać.

Dlaczego plik Robots.txt?

Sieć jest zbudowana na standardach, często nazywanych protokołami. Te „zasady” pozwalają nam na skuteczniejszą komunikację i efektywne działanie różnych systemów. Formalne nazwy „reguł” za plikiem Robots.txt obejmują protokół wykluczania robotów lub standard wykluczania robotów, a czasami protokół robots.txt.

txt

Zatrzymaj robota

Celem protokołu Robots.txt jest umożliwienie właścicielom stron internetowych dostarczenia instrukcji dla robotów indeksujących lub pająków i robotów internetowych, które przeszukują sieć w poszukiwaniu danych. To jest znak zakazu wjazdu na twoje pliki.

Z drugiej strony mapa witryny jest znakiem powitalnym dla robotów indeksujących lub robotów sieciowych.

Robots.txt = wykluczenie
Mapy witryn = włączenie

Z tego powodu składnia Allow w pliku robots.txt nie jest tak naprawdę potrzebna. Intencją jest wykluczenie. Zakłada się, że reszta witryny jest bezpłatna i otwarta do wyszukiwania.

Najdokładniejsze oceny witryn sprawdzają, czy obecny jest plik Robots.txt, w tym Doradca strony sieci Web.

Co dzieje się w pliku Robots.txt?

Oto jest przykład robots.txt z WordPress Codex , z którego pochodzi AskApache.com

  1. Agent użytkownika: *
  2. Disallow: / cgi-bin
  3. Disallow: / wp-admin
  4. Disallow: / wp-includes
  5. Disallow: / wp-content / plugins
  6. Disallow: / wp-content / cache
  7. Disallow: / wp-content / themes
  8. Disallow: / trackback
  9. Zabroń: / karm
  10. Disallow: / komentarze
  11. Disallow: / category / * / *
  12. Disallow: * / trackback
  13. Disallow: * / feed
  14. Disallow: * / komentarze
  15. Disallow: / *? *
  16. Disallow: / *?
  17. Zezwól: / wp-content / uploads
  18. # Google Image
  19. User-agent: Googlebot-Image
  20. Zakazać:
  21. Dopuszczać: /*
  22. # Google AdSense
  23. User-agent: Mediapartners-Google *
  24. Zakazać:
  25. Dopuszczać: /*
  26. # digg mirror
  27. User-agent: duggmirror
  28. Disallow: /
  29. Mapa witryny: http://www.example.com/sitemap.xml

Co to znaczy?

Wiersz 1 powyżej pozwala nazwać boty wyszukiwania, do których odnoszą się te instrukcje. W tym przypadku gwiazdka * oznacza, że ​​dotyczy wszystkich.

Agent użytkownika: *

Linia 2 powyżej jest pierwszą z wielu linii określających, które katalogi nie będą używane przy użyciu składni Disallow.

Disallow: / cgi-bin

Linia 18 to pierwszy raz, gdy widzimy komentarz. # Przed jakimkolwiek tekstem jest komentarzem. W tym przypadku komentarz mówi nam, że poniższa sekcja jest przeznaczona specjalnie dla bota Google Images

# Google Image

Linia 29 pokazuje ścieżkę do Twojej mapy witryny

Co powinien zawierać Twój plik Robots.txt?

Możesz zbadać swoich kolegów i konkurencję, aby uzyskać pomysły do ​​rozważenia. Odwiedź dowolną witrynę i dodaj „/robots.txt” do adresu URL. Więc, dla tej strony, odwiedzasz www.WebPageAdvisor.com/robots.txt aby zobaczyć mój plik Robots.txt.

Oto kilka pomysłów, które należy rozważyć, wyłączając ze względów osobistych lub bezpieczeństwa:

Robots.txt NIE jest zabezpieczeniem

  1. Osobiste zdjęcia przechowywane na Twoim koncie hostingowym
  2. Pliki haseł
  3. Kopie zapasowe lub poprzednie wersje witryny
  4. Wrażliwe dane e-commerce
  5. Ciągi połączeń PayPal
  6. Pliki kont administratora i użytkownika
  7. Wtyczka, pamięć podręczna i pliki motywów

Inne wyłączenia zawarte powyżej dotyczą celów SEO, w szczególności w celu ograniczenia powielania treści. Chociaż jest to ważne, pamiętaj, że Google widzi tysiące witryn WordPress i prawdopodobnie zorientował się, że strony z kanałami, kategoriami i komentarzami nie są kanonicznymi adresami URL dla Twoich treści.

Wyszukiwarka grafiki Google może przynieść duży ruch do wielu witryn. Jeśli jednak sprzedajesz zdjęcia, możesz nie chcieć tego rodzaju ruchu. Masz powód, aby wykluczyć bota Grafika Google.

Niektórzy ludzie nie chcą pojawiać się w Internetowa maszyna cofania, zwana także Internetowym Archiwum . Następujące czynności zablokują Wayback Machine w odwiedzaniu Twojej witryny.

User-agent: ia_archiver
Disallow: /

User-agent: ia_archiver / 1.6
Disallow: /

Zalecenia

  1. Zobacz, jak wygląda Twój bieżący plik Robots.txt (wpisz twojadomena.com/robots.txt)
  2. Zobacz, co robią twoi konkurenci i współpracownicy
  3. Pomyśl o tym, co znajduje się na koncie, którego nie chcesz zobaczyć w wynikach wyszukiwania

Interesujące jest, aby rozejrzeć się i znaleźć witryny z plikiem Robots.txt, takim jak ten przykład. Może być częścią domyślnej instalacji na tym hoście.

Na przykład spotkałem tego

User-agent: * Disallow: Sitemap: http://www.woothemes.com/sitemap.xml.gz

To jest całkiem bezużyteczne. Zasadniczo oznacza to, że „Wszystkie programy klienckie nie są nigdzie zabronione. Oto moja mapa witryny ”Domyślam się, że wszystko to jest domyślne. W ten sam sposób, w jaki Robots.txt znajduje się w tej samej lokalizacji na większości serwerów, plik Sitemap.xml znajduje się również w standardowej lokalizacji. Tak więc powyższy plik nie ma sensu dosłownie. Ponownie możesz odwiedzić stronę sitemap.xml większości witryn, podążając za tym przykładem: http://webpageadvisor.com/sitemap.xml

Uwaga!

Bądź ostrożny. Jeśli skopiujesz przykład, pamiętaj, aby edytować nazwę witryny i wprowadzić własną nazwę domeny oraz usunąć nazwę domeny example.com.

Upewnij się, że wiesz, co wykluczasz. Wiele witryn przypadkowo wykluczyło wszystkie wyszukiwarki z całości lub części publicznej witryny internetowej. Niedobrze.

Natychmiast przetestuj plik Robots.txt. Utwórz konto za pomocą narzędzi Google WebMaster. Przejdź do opcji Crawler Access, a następnie przejdź do karty Test Robots.txt i postępuj zgodnie z instrukcjami. Możesz też skorzystać z tej strony http://www.searchenginepromotionhelp.com/m/robots-text-tester/robots-checker.php który wygląda na pomocny w testowaniu pliku Robots.txt. Obie strony pomogą również w utworzeniu pliku.

Oto kicker, Tylko dlatego, że ci mówią, że nie chcą, żeby nie uciekli. Istnieją boty, które ignorują plik Robots.txt. Proszę więc nie myśleć o tym pliku jako o „środku bezpieczeństwa”. Ten plik zawiera informacje doradcze i nie ma możliwości uniemożliwienia dostępu. Aby zapobiec dostępowi, musisz iść gdzie indziej. Rozważ przeniesienie lub dodanie dodatkowych środków bezpieczeństwa w celu ograniczenia dostępu. Na przykład na serwerze Linux użyj pliku .htaccess, aby ograniczyć dostęp. Pomocna może być również ochrona hasłem w pliku lub użycie https (SSL).

Zasoby

Tutaj jest lista robotów internetowych z dość obszernym zestawem danych dla każdego z nich. Może chcesz zbadać bota, który wysysa twoją przepustowość, a następnie zablokuj go po sprawdzeniu.

Jak wspomniano powyżej, AskApache ma mnóstwo informacji na wiele tematów, w tym Robots.txt

WordPress.org oferuje przykład i kilka linków, aby uzyskać więcej informacji, które są pomocne.

Jako zasób porównawczy możesz znaleźć Wpis pliku Robots.txt w Wikipedii pomocny.

Txt?
Txt?
Co to znaczy?
Txt?
Txt?
Txt?
Disallow: / *?
Txt?