Навигация по сайту

Популярные статьи

WordPress Robots.txt Файлы Растлумачэнні

  1. Чаму файл robots.txt?
  2. Што ідзе ў файле robots.txt?
  3. Што гэта значыць?
  4. Што павінен утрымліваць ваш robots.txt?
  5. рэкамендацыі
  6. Увага!
  7. рэсурсы

Вось некаторыя важныя ідэі аб тым, што файл robots.txt, чаму вы хочаце адзін і чаго чакаць.

Чаму файл robots.txt?

Вэб грунтуецца на стандартах, часта званых пратаколамі. Гэтыя «правілы» дазволяць усім нам больш эфектыўна мець зносіны і дазваляць розныя сістэмы для эфектыўнай працы. Афіцыйныя назвы «правілы» за файл robots.txt ўключаюць Пратакол выключэнняў для робатаў або Стандарт выключэнняў для робатаў , а часам і robots.txt пратакол.

txt пратакол

спыніць Bot

Мэтай Robots.txt пратаколу з'яўляецца магчымасць уладальнікам сайтаў прадастаўляць інструкцыі для пошукавых робатаў або павукоў і вэб-робатаў, якія шукаюць у Інтэрнэце для data.This файл прызначаны, каб сказаць ім, куды не ісці. Гэта не ўварванне знак для вашых файлаў.

З іншага боку сайта з'яўляецца пазітыўным знакам для пошукавых робатаў або павукоў і вэб-робатаў.

Robots.txt = выключэнне
Sitemaps = ўключэнне

Менавіта з гэтай прычыны, што Дазволіць сінтаксіс ў файле robots.txt ня сапраўды неабходны нармальна. Намер для выключэння. Астатняя частка сайта лічыцца свабоднай і адкрытай для пошуку.

Большасць дбайных адзнак сайта пераканайцеся, што файл robots.txt прысутнічае, Page Advisor Web ўключана.

Што ідзе ў файле robots.txt?

вось Прыклад robots.txt з WordPress Codex , Які быў узяты з AskApache.com

  1. Агент карыстальніка: *
  2. Disallow: / CGI-BIN
  3. Disallow: / WP-адміністратара
  4. Disallow: / WP-уключае ў сябе
  5. Disallow: / WP-ўтрыманне / ўбудовы
  6. Disallow: / WP-ўтрыманне / кэш
  7. Disallow: / WP-ўтрыманне / тэмы
  8. Disallow: / Trackback
  9. Disallow: / корму
  10. Disallow: / каментары
  11. Disallow: / катэгорыя / * / *
  12. Disallow: * / Trackback
  13. Disallow: * / корму
  14. Disallow: * / каментары
  15. Disallow: / * *
  16. Disallow: / *?
  17. Дазволіць: загрузку / WP-ўтрыманне /
  18. # Google Image
  19. User-Agent: Googlebot-Image
  20. Disallow:
  21. Дазволіць: / *
  22. # Google AdSense
  23. User-Agent: Mediapartners-Google *
  24. Disallow:
  25. Дазволіць: / *
  26. # Digg люстэрка
  27. Агент карыстальніка: duggmirror
  28. Disallow: /
  29. Карта сайта: http://www.example.com/sitemap.xml

Што гэта значыць?

Лінія 1 вышэй дазваляе назваць пошукавыя боты, што гэтыя інструкцыі дастасавальныя да. У гэтым выпадку зорачка * азначае, што гэта ставіцца да ўсіх.

Агент карыстальніка: *

Лінія 2 вышэй, з'яўляецца першай з шматлікіх ліній, якія паказваюць, якія каталогі, каб застацца па-за выкарыстання сінтаксісу Disallow.

Disallow: / CGI-BIN

Радок 18 у першы раз мы бачым, каментар. # Перад любым тэкстам з'яўляецца каментаром. У гэтым выпадку каментар кажа нам, што наступны падзел спецыяльна для малюнкаў бот Google

# Google Image

Радок 29 паказвае, што ён шлях да карце сайта

Што павінен утрымліваць ваш robots.txt?

Вы можаце абследаваць сваіх калег і канкурэнтаў, каб атрымаць ідэі, каб разгледзець. Наведайце любы сайт і дадаць «/robots.txt» у URL. Такім чынам, для гэтага сайта, вы б наведаць www.WebPageAdvisor.com/robots.txt каб убачыць мой файл robots.txt.

Вось некалькі ідэй, каб разгледзець за выключэннем асабістых або па меркаваннях бяспекі:

Robots.txt НЕ бяспекі

  1. Асабістыя фатаграфіі, якія захоўваюцца на вашай ўліковага запісу хостынгу
  2. файлы пароляў
  3. Рэзервовыя копіі або папярэднія версіі вашага вэб-сайта
  4. Канфідэнцыйныя дадзеныя электроннай камерцыі
  5. радкі падлучэння PayPal
  6. файлы ўліковага запісу адміністратара і карыстальнікаў
  7. Убудова, кэш і файлы тэмы

Іншыя выключэння уключаных вышэй для мэт SEO, у прыватнасці, для памяншэння дублявання кантэнту. Нягледзячы на ​​тое, сапраўды, мець у выглядзе, што Google бачыць тысячы сайтаў WordPress і, верагодна, зразумеў, што падаюць, катэгорыю і старонка каментароў не прызначана для кананічных URL-адрас для вашага кантэнту.

Google Image Search можа прынесці здаравеннае колькасць трафіку на многія сайты. Тым не менш, калі вы прадаеце фатаграфіі, вы можаце не хацець такі трафік. то ў вас ёсць прычыны, каб выключыць малюнка бот Google.

Некаторыя людзі не хочуць з'яўляцца ў Інтэрнэт Вайбак машына, якая таксама называецца Internet Archive , Далей будзе блакаваць Wayback машыны ад наведвання вашага сайта.

Агент карыстальніка: ia_archiver
Disallow: /

User-Agent: ia_archiver / 1.6
Disallow: /

рэкамендацыі

  1. Паглядзіце, што ваш бягучы файл robots.txt (тыпу ў yourdomain.com/robots.txt)
  2. Паглядзіце, што вашыя канкурэнты і калегі робяць
  3. Падумайце аб тым, што на вашым рахунку, што вы не хочаце бачыць у выніках пошуку

Цікава паглядзець вакол і знайсці сайты, з дапамогай файлаў robots.txt, такія як гэты прыклад. Гэта можа быць частка ўстаноўкі па змаўчанні на гэтым хасце.

Напрыклад, я здарыўся праз гэты

User-Agent: * Disallow: Карта сайта: http://www.woothemes.com/sitemap.xml.gz

Гэта даволі бескарысна. Гэта ў асноўным азначае, што «ўсе створаныя карыстальнікам агенты ня Недапушчальныя нідзе. Вось мой sitemmap »Я думаю, што ўсё, што маецца на ўвазе па змаўчанні. Такім жа чынам, што Robots.txt знойдзены ў тым жа месцы На некаторых серверах, то sitemap.xml файл таксама знаходзіцца ў стандартным месцы. Такім чынам, вышэй файл не служыць ніякай мэты ў літаральным сэнсе. Зноў жа вы можаце наведаць sitemap.xml большасць сайтаў, вынікаючы гэты прыклад: http://webpageadvisor.com/sitemap.xml

Увага!

Будзь асцярожны. Пры капіяванні прыкладу абавязкова змяніць назву сайта і ўвесці сваё ўласнае даменнае імя і выдаліць імя дамена example.com.

Пераканайцеся, што вы ведаеце, што вы за выключэннем. Многія сайт выпадкова выключаны ўсе пошукавыя сістэмы ад ўсіх або часткі агульнадаступным вэб-сайце. Не добра.

Праверце свой файл robots.txt неадкладна. Стварыць уліковы запіс з Google Webmaster Tools. Перайсці ў Crawler доступу, а затым ўкладку Праверка robots.txt і вынікайце інструкцыям. Ці вы маглі б выкарыстоўваць гэты сайт http://www.searchenginepromotionhelp.com/m/robots-text-tester/robots-checker.php які выглядае, каб быць карысным у тэставанні файл robots.txt. Абодва сайты таксама дапаможа вам стварыць файл, а таксама.

Вось кикер, толькі таму што ты ім застацца ў баку, не азначае, што яны будуць трымацца далей. Ёсць боты, якія ігнаруюць Robots.txt. Так што, калі ласка, не думайце пра гэта файле ў якасці "мераў бяспекі». Гэты файл утрымлівае рэкамендацыйную інфармацыю і не мае магчымасцяў для прадухілення доступу. Для прадухілення доступу вам трэба пайсці ў іншае месца. Разгледзім перасоўванне яго або дадаць дадатковыя меры бяспекі для абмежавання доступу. Напрыклад, на сэрвэры Linux выкарыстоўваць файл .htaccess для абмежавання доступу. Абарона пароля на файл або з дапамогай HTTPS (SSL) таксама можа дапамагчы.

рэсурсы

вось спіс вэб-робатаў з даволі шырокім наборам дадзеных для кожнага з іх. Можа быць, вы хочаце даследаваць бот, які быў паглынаючы прапускную здольнасць, а затым блакаваць яго пасля агляду.

Як ужо згадвалася вышэй, AskApache мае велізарную колькасць інфармацыі па многіх пытаннях, у тым ліку Robots.txt

WordPress.org прапануе прыклад і некалькі спасылак для атрымання дадатковай інфармацыі, якая з'яўляецца карыснай.

І ў якасці параўнальнага рэсурсу вы можаце знайсці запіс Robots.txt файл у Вікіпедыі карысна.

Txt?
Txt?
Што гэта значыць?
Txt?
Txt?
Txt?
Txt?