WordPress Robots.txt Pliki wyjaśnione | Doradca strony internetowej

Dlaczego plik Robots.txt?
Co dzieje się w pliku Robots.txt?
Co to znaczy?
Co powinien zawierać Twój plik Robots.txt?
Zalecenia
Uwaga!
Zasoby

Oto kilka ważnych pomysłów na temat tego, czym jest plik robots.txt, dlaczego chcesz go mieć i czego się spodziewać.

Dlaczego plik Robots.txt?

Sieć jest zbudowana na standardach, często nazywanych protokołami. Te „zasady” pozwalają nam na skuteczniejszą komunikację i efektywne działanie różnych systemów. Formalne nazwy „reguł” za plikiem Robots.txt obejmują protokół wykluczania robotów lub standard wykluczania robotów, a czasami protokół robots.txt.

Zatrzymaj robota

Celem protokołu Robots.txt jest umożliwienie właścicielom stron internetowych dostarczenia instrukcji dla robotów indeksujących lub pająków i robotów internetowych, które przeszukują sieć w poszukiwaniu danych. To jest znak zakazu wjazdu na twoje pliki.

Z drugiej strony mapa witryny jest znakiem powitalnym dla robotów indeksujących lub robotów sieciowych.

Robots.txt = wykluczenie
Mapy witryn = włączenie

Z tego powodu składnia Allow w pliku robots.txt nie jest tak naprawdę potrzebna. Intencją jest wykluczenie. Zakłada się, że reszta witryny jest bezpłatna i otwarta do wyszukiwania.

Najdokładniejsze oceny witryn sprawdzają, czy obecny jest plik Robots.txt, w tym Doradca strony sieci Web.

Co dzieje się w pliku Robots.txt?

Oto jest przykład robots.txt z WordPress Codex , z którego pochodzi AskApache.com

Agent użytkownika: *
Disallow: / cgi-bin
Disallow: / wp-admin
Disallow: / wp-includes
Disallow: / wp-content / plugins
Disallow: / wp-content / cache
Disallow: / wp-content / themes
Disallow: / trackback
Zabroń: / karm
Disallow: / komentarze
Disallow: / category / * / *
Disallow: * / trackback
Disallow: * / feed
Disallow: * / komentarze
Disallow: / *? *
Disallow: / *?
Zezwól: / wp-content / uploads
# Google Image
User-agent: Googlebot-Image
Zakazać:
Dopuszczać: /*
# Google AdSense
User-agent: Mediapartners-Google *
Zakazać:
Dopuszczać: /*
# digg mirror
User-agent: duggmirror
Disallow: /
Mapa witryny: http://www.example.com/sitemap.xml

Co to znaczy?

Wiersz 1 powyżej pozwala nazwać boty wyszukiwania, do których odnoszą się te instrukcje. W tym przypadku gwiazdka * oznacza, że dotyczy wszystkich.

Agent użytkownika: *

Linia 2 powyżej jest pierwszą z wielu linii określających, które katalogi nie będą używane przy użyciu składni Disallow.

Disallow: / cgi-bin

Linia 18 to pierwszy raz, gdy widzimy komentarz. # Przed jakimkolwiek tekstem jest komentarzem. W tym przypadku komentarz mówi nam, że poniższa sekcja jest przeznaczona specjalnie dla bota Google Images

# Google Image

Linia 29 pokazuje ścieżkę do Twojej mapy witryny

Co powinien zawierać Twój plik Robots.txt?

Możesz zbadać swoich kolegów i konkurencję, aby uzyskać pomysły do rozważenia. Odwiedź dowolną witrynę i dodaj „/robots.txt” do adresu URL. Więc, dla tej strony, odwiedzasz www.WebPageAdvisor.com/robots.txt aby zobaczyć mój plik Robots.txt.

Oto kilka pomysłów, które należy rozważyć, wyłączając ze względów osobistych lub bezpieczeństwa:

Robots.txt NIE jest zabezpieczeniem

Osobiste zdjęcia przechowywane na Twoim koncie hostingowym
Pliki haseł
Kopie zapasowe lub poprzednie wersje witryny
Wrażliwe dane e-commerce
Ciągi połączeń PayPal
Pliki kont administratora i użytkownika
Wtyczka, pamięć podręczna i pliki motywów

Inne wyłączenia zawarte powyżej dotyczą celów SEO, w szczególności w celu ograniczenia powielania treści. Chociaż jest to ważne, pamiętaj, że Google widzi tysiące witryn WordPress i prawdopodobnie zorientował się, że strony z kanałami, kategoriami i komentarzami nie są kanonicznymi adresami URL dla Twoich treści.

Wyszukiwarka grafiki Google może przynieść duży ruch do wielu witryn. Jeśli jednak sprzedajesz zdjęcia, możesz nie chcieć tego rodzaju ruchu. Masz powód, aby wykluczyć bota Grafika Google.

Niektórzy ludzie nie chcą pojawiać się w Internetowa maszyna cofania, zwana także Internetowym Archiwum . Następujące czynności zablokują Wayback Machine w odwiedzaniu Twojej witryny.

User-agent: ia_archiver
Disallow: /

User-agent: ia_archiver / 1.6
Disallow: /

Zalecenia

Zobacz, jak wygląda Twój bieżący plik Robots.txt (wpisz twojadomena.com/robots.txt)
Zobacz, co robią twoi konkurenci i współpracownicy
Pomyśl o tym, co znajduje się na koncie, którego nie chcesz zobaczyć w wynikach wyszukiwania

Interesujące jest, aby rozejrzeć się i znaleźć witryny z plikiem Robots.txt, takim jak ten przykład. Może być częścią domyślnej instalacji na tym hoście.

Na przykład spotkałem tego

User-agent: * Disallow: Sitemap: http://www.woothemes.com/sitemap.xml.gz

To jest całkiem bezużyteczne. Zasadniczo oznacza to, że „Wszystkie programy klienckie nie są nigdzie zabronione. Oto moja mapa witryny ”Domyślam się, że wszystko to jest domyślne. W ten sam sposób, w jaki Robots.txt znajduje się w tej samej lokalizacji na większości serwerów, plik Sitemap.xml znajduje się również w standardowej lokalizacji. Tak więc powyższy plik nie ma sensu dosłownie. Ponownie możesz odwiedzić stronę sitemap.xml większości witryn, podążając za tym przykładem: http://webpageadvisor.com/sitemap.xml

Uwaga!

Bądź ostrożny. Jeśli skopiujesz przykład, pamiętaj, aby edytować nazwę witryny i wprowadzić własną nazwę domeny oraz usunąć nazwę domeny example.com.

Upewnij się, że wiesz, co wykluczasz. Wiele witryn przypadkowo wykluczyło wszystkie wyszukiwarki z całości lub części publicznej witryny internetowej. Niedobrze.

Natychmiast przetestuj plik Robots.txt. Utwórz konto za pomocą narzędzi Google WebMaster. Przejdź do opcji Crawler Access, a następnie przejdź do karty Test Robots.txt i postępuj zgodnie z instrukcjami. Możesz też skorzystać z tej strony http://www.searchenginepromotionhelp.com/m/robots-text-tester/robots-checker.php który wygląda na pomocny w testowaniu pliku Robots.txt. Obie strony pomogą również w utworzeniu pliku.

Oto kicker, Tylko dlatego, że ci mówią, że nie chcą, żeby nie uciekli. Istnieją boty, które ignorują plik Robots.txt. Proszę więc nie myśleć o tym pliku jako o „środku bezpieczeństwa”. Ten plik zawiera informacje doradcze i nie ma możliwości uniemożliwienia dostępu. Aby zapobiec dostępowi, musisz iść gdzie indziej. Rozważ przeniesienie lub dodanie dodatkowych środków bezpieczeństwa w celu ograniczenia dostępu. Na przykład na serwerze Linux użyj pliku .htaccess, aby ograniczyć dostęp. Pomocna może być również ochrona hasłem w pliku lub użycie https (SSL).

Zasoby

Tutaj jest lista robotów internetowych z dość obszernym zestawem danych dla każdego z nich. Może chcesz zbadać bota, który wysysa twoją przepustowość, a następnie zablokuj go po sprawdzeniu.

Jak wspomniano powyżej, AskApache ma mnóstwo informacji na wiele tematów, w tym Robots.txt

WordPress.org oferuje przykład i kilka linków, aby uzyskać więcej informacji, które są pomocne.

Jako zasób porównawczy możesz znaleźć Wpis pliku Robots.txt w Wikipedii pomocny.

Txt?
Txt?
Co to znaczy?
Txt?
Txt?
Txt?
Disallow: / *?
Txt?

Навигация по сайту

Популярные статьи