- Чаму файл robots.txt?
- Што ідзе ў файле robots.txt?
- Што гэта значыць?
- Што павінен утрымліваць ваш robots.txt?
- рэкамендацыі
- Увага!
- рэсурсы
Вось некаторыя важныя ідэі аб тым, што файл robots.txt, чаму вы хочаце адзін і чаго чакаць.
Чаму файл robots.txt?
Вэб грунтуецца на стандартах, часта званых пратаколамі. Гэтыя «правілы» дазволяць усім нам больш эфектыўна мець зносіны і дазваляць розныя сістэмы для эфектыўнай працы. Афіцыйныя назвы «правілы» за файл robots.txt ўключаюць Пратакол выключэнняў для робатаў або Стандарт выключэнняў для робатаў , а часам і robots.txt пратакол.
спыніць Bot
Мэтай Robots.txt пратаколу з'яўляецца магчымасць уладальнікам сайтаў прадастаўляць інструкцыі для пошукавых робатаў або павукоў і вэб-робатаў, якія шукаюць у Інтэрнэце для data.This файл прызначаны, каб сказаць ім, куды не ісці. Гэта не ўварванне знак для вашых файлаў.
З іншага боку сайта з'яўляецца пазітыўным знакам для пошукавых робатаў або павукоў і вэб-робатаў.
Robots.txt = выключэнне
Sitemaps = ўключэнне
Менавіта з гэтай прычыны, што Дазволіць сінтаксіс ў файле robots.txt ня сапраўды неабходны нармальна. Намер для выключэння. Астатняя частка сайта лічыцца свабоднай і адкрытай для пошуку.
Большасць дбайных адзнак сайта пераканайцеся, што файл robots.txt прысутнічае, Page Advisor Web ўключана.
Што ідзе ў файле robots.txt?
вось Прыклад robots.txt з WordPress Codex , Які быў узяты з AskApache.com
- Агент карыстальніка: *
- Disallow: / CGI-BIN
- Disallow: / WP-адміністратара
- Disallow: / WP-уключае ў сябе
- Disallow: / WP-ўтрыманне / ўбудовы
- Disallow: / WP-ўтрыманне / кэш
- Disallow: / WP-ўтрыманне / тэмы
- Disallow: / Trackback
- Disallow: / корму
- Disallow: / каментары
- Disallow: / катэгорыя / * / *
- Disallow: * / Trackback
- Disallow: * / корму
- Disallow: * / каментары
- Disallow: / * *
- Disallow: / *?
- Дазволіць: загрузку / WP-ўтрыманне /
- # Google Image
- User-Agent: Googlebot-Image
- Disallow:
- Дазволіць: / *
- # Google AdSense
- User-Agent: Mediapartners-Google *
- Disallow:
- Дазволіць: / *
- # Digg люстэрка
- Агент карыстальніка: duggmirror
- Disallow: /
- Карта сайта: http://www.example.com/sitemap.xml
Што гэта значыць?
Лінія 1 вышэй дазваляе назваць пошукавыя боты, што гэтыя інструкцыі дастасавальныя да. У гэтым выпадку зорачка * азначае, што гэта ставіцца да ўсіх.
Агент карыстальніка: *
Лінія 2 вышэй, з'яўляецца першай з шматлікіх ліній, якія паказваюць, якія каталогі, каб застацца па-за выкарыстання сінтаксісу Disallow.
Disallow: / CGI-BIN
Радок 18 у першы раз мы бачым, каментар. # Перад любым тэкстам з'яўляецца каментаром. У гэтым выпадку каментар кажа нам, што наступны падзел спецыяльна для малюнкаў бот Google
# Google Image
Радок 29 паказвае, што ён шлях да карце сайта
Што павінен утрымліваць ваш robots.txt?
Вы можаце абследаваць сваіх калег і канкурэнтаў, каб атрымаць ідэі, каб разгледзець. Наведайце любы сайт і дадаць «/robots.txt» у URL. Такім чынам, для гэтага сайта, вы б наведаць www.WebPageAdvisor.com/robots.txt каб убачыць мой файл robots.txt.
Вось некалькі ідэй, каб разгледзець за выключэннем асабістых або па меркаваннях бяспекі:

Robots.txt НЕ бяспекі
- Асабістыя фатаграфіі, якія захоўваюцца на вашай ўліковага запісу хостынгу
- файлы пароляў
- Рэзервовыя копіі або папярэднія версіі вашага вэб-сайта
- Канфідэнцыйныя дадзеныя электроннай камерцыі
- радкі падлучэння PayPal
- файлы ўліковага запісу адміністратара і карыстальнікаў
- Убудова, кэш і файлы тэмы
Іншыя выключэння уключаных вышэй для мэт SEO, у прыватнасці, для памяншэння дублявання кантэнту. Нягледзячы на тое, сапраўды, мець у выглядзе, што Google бачыць тысячы сайтаў WordPress і, верагодна, зразумеў, што падаюць, катэгорыю і старонка каментароў не прызначана для кананічных URL-адрас для вашага кантэнту.
Google Image Search можа прынесці здаравеннае колькасць трафіку на многія сайты. Тым не менш, калі вы прадаеце фатаграфіі, вы можаце не хацець такі трафік. то ў вас ёсць прычыны, каб выключыць малюнка бот Google.
Некаторыя людзі не хочуць з'яўляцца ў Інтэрнэт Вайбак машына, якая таксама называецца Internet Archive , Далей будзе блакаваць Wayback машыны ад наведвання вашага сайта.
Агент карыстальніка: ia_archiver
Disallow: /
User-Agent: ia_archiver / 1.6
Disallow: /
рэкамендацыі
- Паглядзіце, што ваш бягучы файл robots.txt (тыпу ў yourdomain.com/robots.txt)
- Паглядзіце, што вашыя канкурэнты і калегі робяць
- Падумайце аб тым, што на вашым рахунку, што вы не хочаце бачыць у выніках пошуку
Цікава паглядзець вакол і знайсці сайты, з дапамогай файлаў robots.txt, такія як гэты прыклад. Гэта можа быць частка ўстаноўкі па змаўчанні на гэтым хасце.
Напрыклад, я здарыўся праз гэты
User-Agent: * Disallow: Карта сайта: http://www.woothemes.com/sitemap.xml.gz
Гэта даволі бескарысна. Гэта ў асноўным азначае, што «ўсе створаныя карыстальнікам агенты ня Недапушчальныя нідзе. Вось мой sitemmap »Я думаю, што ўсё, што маецца на ўвазе па змаўчанні. Такім жа чынам, што Robots.txt знойдзены ў тым жа месцы На некаторых серверах, то sitemap.xml файл таксама знаходзіцца ў стандартным месцы. Такім чынам, вышэй файл не служыць ніякай мэты ў літаральным сэнсе. Зноў жа вы можаце наведаць sitemap.xml большасць сайтаў, вынікаючы гэты прыклад: http://webpageadvisor.com/sitemap.xml
Увага!
Будзь асцярожны. Пры капіяванні прыкладу абавязкова змяніць назву сайта і ўвесці сваё ўласнае даменнае імя і выдаліць імя дамена example.com.
Пераканайцеся, што вы ведаеце, што вы за выключэннем. Многія сайт выпадкова выключаны ўсе пошукавыя сістэмы ад ўсіх або часткі агульнадаступным вэб-сайце. Не добра.
Праверце свой файл robots.txt неадкладна. Стварыць уліковы запіс з Google Webmaster Tools. Перайсці ў Crawler доступу, а затым ўкладку Праверка robots.txt і вынікайце інструкцыям. Ці вы маглі б выкарыстоўваць гэты сайт http://www.searchenginepromotionhelp.com/m/robots-text-tester/robots-checker.php які выглядае, каб быць карысным у тэставанні файл robots.txt. Абодва сайты таксама дапаможа вам стварыць файл, а таксама.
Вось кикер, толькі таму што ты ім застацца ў баку, не азначае, што яны будуць трымацца далей. Ёсць боты, якія ігнаруюць Robots.txt. Так што, калі ласка, не думайце пра гэта файле ў якасці "мераў бяспекі». Гэты файл утрымлівае рэкамендацыйную інфармацыю і не мае магчымасцяў для прадухілення доступу. Для прадухілення доступу вам трэба пайсці ў іншае месца. Разгледзім перасоўванне яго або дадаць дадатковыя меры бяспекі для абмежавання доступу. Напрыклад, на сэрвэры Linux выкарыстоўваць файл .htaccess для абмежавання доступу. Абарона пароля на файл або з дапамогай HTTPS (SSL) таксама можа дапамагчы.
рэсурсы
вось спіс вэб-робатаў з даволі шырокім наборам дадзеных для кожнага з іх. Можа быць, вы хочаце даследаваць бот, які быў паглынаючы прапускную здольнасць, а затым блакаваць яго пасля агляду.
Як ужо згадвалася вышэй, AskApache мае велізарную колькасць інфармацыі па многіх пытаннях, у тым ліку Robots.txt
WordPress.org прапануе прыклад і некалькі спасылак для атрымання дадатковай інфармацыі, якая з'яўляецца карыснай.
І ў якасці параўнальнага рэсурсу вы можаце знайсці запіс Robots.txt файл у Вікіпедыі карысна.
Txt?Txt?
Што гэта значыць?
Txt?
Txt?
Txt?
Txt?