Файли WordPress Robots.txt Роз'яснення | Порадник веб-сторінки

Чому файл Robots.txt?
Що відбувається в файлі robots.txt?
Що це означає?
Що має містити файл Robots.txt?
Рекомендації
Обережно!
Ресурси

Нижче наведено кілька важливих уявлень про те, що таке файл robots.txt, чому ви хочете його і чого очікувати.

Чому файл Robots.txt?

Мережа побудована на стандартах, які часто називаються протоколами. Ці «правила» дозволяють нам все ефективніше спілкуватися і дозволяти різним системам ефективно працювати. Формальними назвами "правил" за файлом Robots.txt є протокол виключення роботів або стандарт виключення роботів, а іноді й протокол robots.txt.

Зупиніть бот

Метою протоколу Robots.txt є надання власникам веб-сайтів інструкцій для веб-сканерів або павуків, а також веб-роботів, які здійснюють пошук даних в Інтернеті. Це знак без втручання для ваших файлів.

З іншого боку, файл Sitemap є вітальним знаком для веб-сканерів або павуків і веб-роботів.

Robots.txt = виключення
Sitemaps = включення

Саме тому синтаксис "Дозволити" у файлі robots.txt не потрібний нормально. Метою є виключення. Решта сайту вважається вільною та відкритою для пошуку.

Більшість докладних оцінок сайту перевіряють, чи існує файл Robots.txt, включений веб-сайт.

Що відбувається в файлі robots.txt?

Ось такий наприклад robots.txt з кодексу WordPress , з якого взяли AskApache.com

User-agent: *
Заборонити: / cgi-bin
Disallow: / wp-admin
Disallow: / wp-includes
Заборонити: / wp-content / plugins
Заборонити: / wp-content / cache
Заборонити: / wp-content / themes
Disallow: / трекбек
Заборонити: / подача
Заборонити: / коментарі
Disallow: / category / * / *
Заборонити: * / трекбек
Заборонити: * / канал
Заборонити: * / коментарі
Заборонити: / *? *
Заборонити: / *?
Дозволити: / wp-content / uploads
# Google Image
User-agent: Googlebot-Image
Заборонити:
Дозволити: / *
# Google AdSense
Агент користувача: Mediapartners-Google *
Заборонити:
Дозволити: / *
# digg mirror
Користувач-агент: duggmirror
Заборонити: /
Мапа сайту: http://www.example.com/sitemap.xml

Що це означає?

Рядок 1 вище дає вам змогу назвати пошукові боти, до яких застосовуються ці інструкції. У цьому випадку зірочка * означає, що вона застосовується до всіх.

User-agent: *

Рядок 2 вище - це перша з багатьох рядків, які визначають, які каталоги не використовують синтаксис Disallow.

Заборонити: / cgi-bin

Рядок 18 - це перший раз, коли ми бачимо коментар. # Перед будь-яким текстом - це коментар. У цьому випадку коментар повідомляє нам, що наступний розділ спеціально призначений для робота Google Images

# Google Image

У рядку 29 показано шлях до вашої мапи сайту

Що має містити файл Robots.txt?

Ви можете обстежити своїх колег і конкурс, щоб отримати ідеї для розгляду. Відвідайте будь-який сайт і додайте до неї "/robots.txt". Отже, для цього сайту ви б відвідали www.WebPageAdvisor.com/robots.txt щоб побачити файл Robots.txt.

Нижче наведено кілька ідей для виключення з особистих чи безпекових міркувань:

Robots.txt не є безпекою

Особисті фотографії, збережені на обліковому записі хостингу
Файли паролів
Резервні копії або попередні версії вашого веб-сайту
Чутливі дані електронної комерції
Строки з'єднання PayPal
Файли облікових записів адміністратора та користувача
Файли плагінів, кешу та теми

Інші виключення, наведені вище, призначені для цілей SEO, зокрема для зменшення дублювання вмісту. Хоча, майте на увазі, що Google бачить тисячі сайтів WordPress і, мабуть, з'ясував, що сторінки каналів, категорій і коментарів не призначені для канонічних URL-адрес вашого вмісту.

Пошук зображень Google може принести значну кількість трафіку для багатьох сайтів. Однак, якщо ви продаєте фотографії, ви можете не захотіти такого трафіку. Потім ви маєте підставу виключити бот із зображень Google.

Деякі люди не хочуть з'являтися в Internet Wayback Machine, яка також називається Internet Archive . Наступні заходи блокують машину Wayback від відвідування вашого сайту.

User-agent: ia_archiver
Заборонити: /

User-agent: ia_archiver / 1.6
Заборонити: /

Обережно!

Будь обережний. Якщо ви скопіюєте приклад, обов'язково відредагуйте ім'я веб-сайту та введіть власне ім'я домену та видаліть ім'я домену example.com.

Переконайтеся, що знаєте, що ви виключаєте. Багато веб-сайтів випадково виключили всі пошукові системи з усього або частини публічного веб-сайту. Не добре.

Відразу перевірте файл Robots.txt. Створіть обліковий запис за допомогою інструментів Google WebMaster. Перейдіть у розділ Доступ до сканера, а потім перейдіть на вкладку Тест Robots.txt і дотримуйтесь інструкцій. Або ви можете використовувати цей сайт http://www.searchenginepromotionhelp.com/m/robots-text-tester/robots-checker.php яка виглядає корисною для тестування файлу Robots.txt. Обидва сайти також допоможуть вам створити файл.

Ось кікер, просто тому, що ви їм розповідаєте, щоб не залишитися, це не означає, що вони залишиться осторонь. Є боти, які ігнорують Robots.txt. Отже, будь ласка, не розглядайте цей файл як «заходи безпеки». Цей файл надає консультативну інформацію та не має можливості запобігти доступу. Щоб запобігти доступу, потрібно перейти в інше місце. Розгляньте можливість переміщення або додавання додаткових заходів безпеки для обмеження доступу. Наприклад, на сервері Linux використовуйте файл .htaccess для обмеження доступу. Захист паролем у файлі або за допомогою https (SSL) також може допомогти.

Ресурси

Ось a список веб-роботів з досить широким набором даних для кожного з них. Може бути, ви хочете, щоб дослідити бота, який був смоктати вашу пропускну здатність, а потім блокувати його після перегляду.

Як зазначено вище, AskApache має безліч інформації з багатьох тем, включаючи Robots.txt

WordPress.org пропонує приклад і кілька посилань для отримання додаткової інформації, яка є корисною.

А як порівняльний ресурс ви можете знайти Вхід до файлу Robots.txt у Вікіпедії корисно.

Txt?
Txt?
Що це означає?
Txt?
Txt?
Txt?
Заборонити: / *?
Txt?

Навигация по сайту

Популярные статьи