Навигация по сайту

Популярные статьи

Файли WordPress Robots.txt роз'яснено

  1. Чому файл Robots.txt?
  2. Що відбувається в файлі robots.txt?
  3. Що це означає?
  4. Що має містити файл Robots.txt?
  5. Рекомендації
  6. Обережно!
  7. Ресурси

Нижче наведено кілька важливих уявлень про те, що таке файл robots.txt, чому ви хочете його і чого очікувати.

Чому файл Robots.txt?

Мережа побудована на стандартах, які часто називаються протоколами. Ці «правила» дозволяють нам все ефективніше спілкуватися і дозволяти різним системам ефективно працювати. Формальними назвами "правил" за файлом Robots.txt є протокол виключення роботів або стандарт виключення роботів, а іноді й протокол robots.txt.

txt

Зупиніть бот

Метою протоколу Robots.txt є надання власникам веб-сайтів інструкцій для веб-сканерів або павуків, а також веб-роботів, які здійснюють пошук даних в Інтернеті. Це знак без втручання для ваших файлів.

З іншого боку, файл Sitemap є вітальним знаком для веб-сканерів або павуків і веб-роботів.

Robots.txt = виключення
Sitemaps = включення

Саме тому синтаксис "Дозволити" у файлі robots.txt не потрібний нормально. Метою є виключення. Решта сайту вважається вільною та відкритою для пошуку.

Більшість докладних оцінок сайту перевіряють, чи існує файл Robots.txt, включений веб-сайт.

Що відбувається в файлі robots.txt?

Ось такий наприклад robots.txt з кодексу WordPress , з якого взяли AskApache.com

  1. User-agent: *
  2. Заборонити: / cgi-bin
  3. Disallow: / wp-admin
  4. Disallow: / wp-includes
  5. Заборонити: / wp-content / plugins
  6. Заборонити: / wp-content / cache
  7. Заборонити: / wp-content / themes
  8. Disallow: / трекбек
  9. Заборонити: / подача
  10. Заборонити: / коментарі
  11. Disallow: / category / * / *
  12. Заборонити: * / трекбек
  13. Заборонити: * / канал
  14. Заборонити: * / коментарі
  15. Заборонити: / *? *
  16. Заборонити: / *?
  17. Дозволити: / wp-content / uploads
  18. # Google Image
  19. User-agent: Googlebot-Image
  20. Заборонити:
  21. Дозволити: / *
  22. # Google AdSense
  23. Агент користувача: Mediapartners-Google *
  24. Заборонити:
  25. Дозволити: / *
  26. # digg mirror
  27. Користувач-агент: duggmirror
  28. Заборонити: /
  29. Мапа сайту: http://www.example.com/sitemap.xml

Що це означає?

Рядок 1 вище дає вам змогу назвати пошукові боти, до яких застосовуються ці інструкції. У цьому випадку зірочка * означає, що вона застосовується до всіх.

User-agent: *

Рядок 2 вище - це перша з багатьох рядків, які визначають, які каталоги не використовують синтаксис Disallow.

Заборонити: / cgi-bin

Рядок 18 - це перший раз, коли ми бачимо коментар. # Перед будь-яким текстом - це коментар. У цьому випадку коментар повідомляє нам, що наступний розділ спеціально призначений для робота Google Images

# Google Image

У рядку 29 показано шлях до вашої мапи сайту

Що має містити файл Robots.txt?

Ви можете обстежити своїх колег і конкурс, щоб отримати ідеї для розгляду. Відвідайте будь-який сайт і додайте до неї "/robots.txt". Отже, для цього сайту ви б відвідали www.WebPageAdvisor.com/robots.txt щоб побачити файл Robots.txt.

Нижче наведено кілька ідей для виключення з особистих чи безпекових міркувань:

Robots.txt не є безпекою

  1. Особисті фотографії, збережені на обліковому записі хостингу
  2. Файли паролів
  3. Резервні копії або попередні версії вашого веб-сайту
  4. Чутливі дані електронної комерції
  5. Строки з'єднання PayPal
  6. Файли облікових записів адміністратора та користувача
  7. Файли плагінів, кешу та теми

Інші виключення, наведені вище, призначені для цілей SEO, зокрема для зменшення дублювання вмісту. Хоча, майте на увазі, що Google бачить тисячі сайтів WordPress і, мабуть, з'ясував, що сторінки каналів, категорій і коментарів не призначені для канонічних URL-адрес вашого вмісту.

Пошук зображень Google може принести значну кількість трафіку для багатьох сайтів. Однак, якщо ви продаєте фотографії, ви можете не захотіти такого трафіку. Потім ви маєте підставу виключити бот із зображень Google.

Деякі люди не хочуть з'являтися в Internet Wayback Machine, яка також називається Internet Archive . Наступні заходи блокують машину Wayback від відвідування вашого сайту.

User-agent: ia_archiver
Заборонити: /

User-agent: ia_archiver / 1.6
Заборонити: /

Рекомендації

  1. Подивіться, як виглядає ваш поточний файл Robots.txt (введіть в yourdomain.com/robots.txt)
  2. Подивіться, що роблять ваші конкуренти та колеги
  3. Подумайте, що на вашому обліковому записі ви не хочете бачити в результатах пошуку

Цікаво дивитися навколо та знаходити сайти з файлом Robots.txt, наприклад, у цьому прикладі. Це може бути частиною встановлення за промовчанням на цьому хості.

Наприклад, я потрапив через цю

User-agent: * Disallow: Sitemap: http://www.woothemes.com/sitemap.xml.gz

Це досить марно. В основному це означає, що «Усі агенти користувача заборонені ніде. Ось мій sitemmap ”Я думаю, що все це мається на увазі за замовчуванням. Так само, як файл Robots.txt знаходиться на тому ж місці на більшості серверів, файл Sitemap.xml також можна знайти у стандартному розташуванні. Таким чином, вищезгаданий файл не має сенсу буквально. Знову ви можете відвідати sitemap.xml більшості сайтів, дотримуючись цього прикладу. http://webpageadvisor.com/sitemap.xml

Обережно!

Будь обережний. Якщо ви скопіюєте приклад, обов'язково відредагуйте ім'я веб-сайту та введіть власне ім'я домену та видаліть ім'я домену example.com.

Переконайтеся, що знаєте, що ви виключаєте. Багато веб-сайтів випадково виключили всі пошукові системи з усього або частини публічного веб-сайту. Не добре.

Відразу перевірте файл Robots.txt. Створіть обліковий запис за допомогою інструментів Google WebMaster. Перейдіть у розділ Доступ до сканера, а потім перейдіть на вкладку Тест Robots.txt і дотримуйтесь інструкцій. Або ви можете використовувати цей сайт http://www.searchenginepromotionhelp.com/m/robots-text-tester/robots-checker.php яка виглядає корисною для тестування файлу Robots.txt. Обидва сайти також допоможуть вам створити файл.

Ось кікер, просто тому, що ви їм розповідаєте, щоб не залишитися, це не означає, що вони залишиться осторонь. Є боти, які ігнорують Robots.txt. Отже, будь ласка, не розглядайте цей файл як «заходи безпеки». Цей файл надає консультативну інформацію та не має можливості запобігти доступу. Щоб запобігти доступу, потрібно перейти в інше місце. Розгляньте можливість переміщення або додавання додаткових заходів безпеки для обмеження доступу. Наприклад, на сервері Linux використовуйте файл .htaccess для обмеження доступу. Захист паролем у файлі або за допомогою https (SSL) також може допомогти.

Ресурси

Ось a список веб-роботів з досить широким набором даних для кожного з них. Може бути, ви хочете, щоб дослідити бота, який був смоктати вашу пропускну здатність, а потім блокувати його після перегляду.

Як зазначено вище, AskApache має безліч інформації з багатьох тем, включаючи Robots.txt

WordPress.org пропонує приклад і кілька посилань для отримання додаткової інформації, яка є корисною.

А як порівняльний ресурс ви можете знайти Вхід до файлу Robots.txt у Вікіпедії корисно.

Txt?
Txt?
Що це означає?
Txt?
Txt?
Txt?
Заборонити: / *?
Txt?