Файл robots.txt - настройка і директиви robots.txt, забороняємо індексацію сторінок

Навіщо потрібен robots.txt
Директиви robots.txt і правила настройки
Мета-тег robots і як він прописується
Правильні файли robots.txt для популярних CMS
Приклади для інших CMS
Як перевірити коректність роботи файлу
Популярні питання про robots.txt

Robots.txt - це службовий файл, який служить рекомендацією щодо обмеження доступу до вмісту веб-документів для пошукових систем. У даній статті ми розберемо настройку Robots.txt, опис директив і складання його для популярних CMS.

Знаходиться даний файл Робота в кореневому каталозі вашого сайту і відкривається / редагується простим блокнотом, я рекомендую Notepad ++. Для тих, хто не любить читати - є ВІДЕО, дивіться в кінці статті 😉

У чому його користь
Директиви і правила написання
Мета-тег Robots і його директиви
Правильні Роботс для популярних CMS
Перевірка робота
Відео-інструкція
Популярні питання

Навіщо потрібен robots.txt

Як я вже говорив вище - за допомогою файлу robots.txt ми можемо обмежити доступ пошукових роботів до документів, тобто ми безпосередньо впливаємо на індексацію сайту. Найчастіше закривають від індексації:

Службові файли і папки CMS
дублікати
Документи, які не несуть користь для користувача
Чи не унікальні сторінки

Розберемо конкретний приклад:

Інтернет-магазин з продажу взуття та реалізований на одній з популярних CMS, причому не найкращим чином. Я можу відразу сказати, що будуть у видачі сторінки пошуку, пагінація, корзина, деякі файли движка і т.д. Все це будуть дублі і службові файли, які не приносять користі для користувача. Отже, вони повинні бути закриті від індексації, а якщо ще є розділ «Новини» в які копіпаст різні цікаві статті з сайтів конкурентів - то і думати не треба, відразу закриваємо.

Тому обов'язково виходимо файлом robots.txt, щоб в видачу не попадав сміття. Не забуваємо, що файл повинен відкриватися за адресою http://site.ru/robots.txt.

Директиви robots.txt і правила настройки

User-agent. Це звернення до конкретного роботу пошукової системи або до всіх роботам. Якщо прописується конкретну назву робота, наприклад «YandexMedia», то загальні директиви user-agent не використовуються для нього. Приклад написання:

User-agent: YandexBot Disallow: / cart # буде використовуватися тільки основним індексується роботом Яндекса

Disallow / Allow. Це заборона / дозвіл індексації конкретного документа або розділу. Порядок написання не має значення, але при 2 директивах і однаковому префікс пріоритет віддається «Allow». Зчитує пошуковий робот їх по довжині префікса, від меншого до більшого. Якщо вам потрібно заборонити індексацію сторінки - просто введи відносний шлях до неї (Disallow: / blog / post-1).

User-agent: Yandex Disallow: / Allow: / articles # Забороняємо індексацію сайту, окрім 1 розділу articles

Регулярні вирази з * і $. Зірочка означає будь-яку послідовність символів (в тому числі і порожню). Знак долара означає переривання. Приклади використання:

Disallow: / page * # забороняє всі сторінки, конструкції http://site.ru/page Disallow: / arcticles $ # забороняємо тільки сторінку http://site.ru/articles, дозволяючи сторінки http://site.ru/articles / new

Директива Sitemap. Якщо ви використовуєте карту сайту (sitemap.xml) - то в robots.txt вона повинна вказуватися так:

Sitemap: http://site.ru/sitemap.xml

Директива Host. Як вам відомо у сайтів є дзеркала (читаємо, Як склеїти дзеркала сайту ). Дане правило вказує пошуковому боту на головне дзеркало вашого ресурсу. Відноситься до Яндексу. Якщо у вас дзеркало без WWW, то пишемо:

Host: site.ru

Crawl-delay. Задає затримаю (в секундах) між стрибками ботом ваших документів. Прописується після директив Disallow / Allow.

Crawl-delay: 5 # таймаут в 5 секунд

Clean-param. Указує пошуковому боту, що не потрібно завантажувати додатково дублюючу інформацію (ідентифікатори сесій, реферерів, користувачів). Прописувати Clean-param слід для динамічних сторінок:

Clean-param: ref / category / books # вказуємо, що наша сторінка основна, а http://site.ru/category/books?ref=yandex.ru&id=1 це та ж сторінка, але з параметрами

Головне правило: robots.txt повинен бути написаний в нижньому регістрі і лежати в корені сайту. Приклад структури файлу:

User-agent: Yandex Disallow: / cart Allow: / cart / images Sitemap: http://site.ru/sitemap.xml Host: site.ru Crawl-delay: 2

Мета-тег robots і як він прописується

Даний варіант заборони сторінок краще враховується пошуковою системою Google. Яндекс однаково добре враховує обидва варіанти.

Директив у нього 2: follow / nofollow і index / noindex. Цей дозвіл / заборона переходу по посиланнях і дозвіл / заборона на індексацію документа. Директиви можна прописувати разом, дивимося приклад нижче.

Для будь-якої окремої сторінки ви можете прописати в тезі <head> </ head> наступне:

Правильні файли robots.txt для популярних CMS

Приклад Robots.txt для WordPress

Нижче ви можете побачити мій варіант з даного Seo блогу.

User-agent: Yandex Disallow: / wp-content / uploads / Allow: / wp-content / uploads / * / * / Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow : /template.html Disallow: / cgi-bin Disallow: / wp-admin Disallow: / wp-includes Disallow: / wp-content / plugins Disallow: / wp-content / cache Disallow: / wp-content / themes Disallow: / wp-trackback Disallow: / wp-feed Disallow: / wp-comments Disallow: * / trackback Disallow: * / feed Disallow: * / comments Disallow: / tag Disallow: / archive Disallow: * / trackback / Disallow: * / feed / Disallow: * / comments / Disallow: /? feed = Disallow: /? s = Host: romanus.ru User-agent: * Disallow: / wp-content / uploads / Allow: / wp-content / uploads / * / * / Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: / cgi-bin Disallow: / wp-admin Disallow: / wp-includes Disallow: / wp -content / plugins Disallow: / wp-content / cache Disallow: / wp-content / themes Disallow: / wp-trackback Disallow: / wp-feed Disallow: / wp-comments Disallow : * / Trackback Disallow: * / feed Disallow: * / comments Disallow: / tag Disallow: / archive Disallow: * / trackback / Disallow: * / feed / Disallow: * / comments / Disallow: /? Feed = Disallow: /? s = Sitemap: https://romanus.ru/sitemap.xml

Трекбек забороняю бо це дублює шматок статті в коментах. А якщо трекбек багато - ви отримаєте купу однакових коментарів.

Службові папки і файли будь-CMS я намагаюся я закриваю, тому що не хочу щоб вони потрапляли в індекс (хоча пошуковики вже і так не беруть, але гірше не буде).

Фіди (feed) варто закривати, тому що це часткові або повні дублі сторінок.

Теги закриваємо, якщо ми їх не використовуємо або нам лінь їх оптимізувати.

Приклади для інших CMS

Щоб завантажити правильний robots для потрібної CMS просто клікніть на відповідне посилання.

Як перевірити коректність роботи файлу

Аналіз robots.txt в Яндекс вебмайстрів - тут .

Вказуємо адресу свого сайту, натискаємо кнопку «Завантажити» (або вписуємо його вручну) - бот качає ваш файл. Далі просто вказуємо потрібні нам урли в списку, які ми хочемо перевірити і тиснемо «Перевірити».

Дивимося і коригуємо, якщо це потрібно.

Навигация по сайту

Популярные статьи