Как определить бюджет сканирования?

Как Google определяет бюджет сканирования?
Определение активности сканера
Когда возникает проблема с бюджетом сканирования?
Оптимизация возможностей бюджета сканирования
Удалить дубликаты страниц
Разрешить неработающие ссылки
Не пишите тонкие страницы
Удалить 301 перенаправить цепи
TL; DR:

Мы все говорим об этом как о SEO, но как на самом деле работает бюджет обхода? Мы знаем, что количество страниц, которые поисковые системы сканируют и индекс, когда они посещают сайты наших клиентов, коррелирует с их успехом в органическом поиске, но всегда ли лучше иметь больший бюджет сканирования?

Как и во всем с Google, я не думаю, что взаимосвязь между бюджетом сканирования ваших сайтов и эффективностью рейтинга / поисковой выдачи на 100% прямолинейна и зависит от ряда факторов.

Почему важен бюджет сканирования? Из-за обновления кофеина 2010 года. С этим обновлением Google перестроил способ индексации контента с помощью пошаговой индексации. Внедрив систему «перколяторов», они устранили «узкое место» страниц при индексации.

Как Google определяет бюджет сканирования?

Это все о вашем PageRank, Потоке цитирования и Потоке доверия.

Почему я не упомянул полномочия домена? Честно говоря, по моему мнению, это одна из наиболее неправильно используемых и неправильно понятых метрик, доступных для SEO и маркетологов, которая имеет свое место, но слишком много агентств и SEO-специалистов придают ей слишком большую ценность, особенно при создании ссылок.

PageRank теперь, конечно, устарел, особенно после того, как они отбросили панель инструментов, так что все дело в коэффициенте доверия сайта (коэффициент доверия = поток доверия / поток цитирования). По существу, более мощные домены имеют больший бюджет сканирования, так как вы определяете активность ботов Google на своем веб-сайте и, что важно, выявляете любые проблемы сканирования ботов? Файлы журнала сервера.

Теперь мы все знаем, что для того, чтобы указать ботам Google, что мы индексировали (и ранжировать), мы используем внутреннюю структуру ссылок и держим их близко к корневому домену, а не к 5 подпапкам вдоль URL. Но как насчет технических проблем? Например, потеря бюджета при сканировании, ловушки для ботов или если Google пытается заполнить формы на сайте (это происходит).

Определение активности сканера

Для этого вам нужно получить некоторые файлы журнала сервера. Вам может потребоваться запросить их у вашего клиента, или вы можете скачать их непосредственно у хостинговой компании.

Идея заключается в том, что вы хотите попытаться найти запись о боте Google, попавшем на ваш сайт - но поскольку это не запланированное событие, вам может потребоваться получить данные за несколько дней. Для анализа этих файлов доступно различное программное обеспечение.

Ниже приведен пример попадания на сервер Apache:

50.56.92.47 - - [31 / May / 2012: 12: 21: 17 +0100] «GET» - «/wp-content/themes/wp-theme/help.php» - «404» «-» «Mozilla / 5.0 (совместимо; Googlebot / 2.1; + http: //www.google.com/bot.html) »- www.hit-example.com

Отсюда вы можете использовать инструменты (такие как OnCrawl) для анализа файлов журналов и выявления проблем, таких как сканирование PPC-страниц Google или бесконечные запросы GET к сценариям JSON - обе эти проблемы можно исправить в файле Robots.txt.

Когда возникает проблема с бюджетом сканирования?

Бюджет сканирования не всегда является проблемой, если ваш сайт имеет много URL-адресов и имеет пропорциональное распределение "просмотров", все в порядке. Но что, если на вашем сайте есть 200 000 URL-адресов, а Google сканирует только 2000 страниц на вашем сайте каждый день? Google может потребовать до 100 дней, чтобы заметить новые или обновленные URL - теперь это проблема.

Одним из быстрых тестов, чтобы определить, является ли ваш бюджет сканирования проблемой, является использование Google Search Console и количества URL-адресов на вашем сайте, чтобы вычислить ваш «номер сканирования».

Сначала вам нужно определить, сколько страниц на вашем сайте, вы можете сделать это, выполнив сайт: например, на сайте oncrawl.com в индексе содержится примерно 512 страниц:

com в индексе содержится примерно 512 страниц:

Во-вторых, вам нужно зайти в свою учетную запись Google Search Console и перейти к «Сканированию», а затем «Статистика сканирования». Если ваша учетная запись GSC не была настроена должным образом, возможно, у вас нет этих данных.
Третий шаг - взять среднее число «Число страниц в день» (среднее) и общее количество URL-адресов на вашем веб-сайте и разделить их:

Всего страниц на сайте / Среднее число страниц, просмотренных за день = X

Если X больше 10, вам нужно оптимизировать бюджет сканирования. Если это меньше 5, браво. Вам не нужно читать дальше.

Оптимизация возможностей бюджета сканирования

У вас может быть самый большой бюджет сканирования в Интернете, но если вы не знаете, как его использовать, это бесполезно.

Да, это клише, но это правда. Если Google сканирует все страницы вашего сайта и обнаруживает, что большинство из них являются дубликатами, пустыми или загружаются так медленно, что это может привести к ошибкам тайм-аута, ваш бюджет также может быть нулевым.

Чтобы максимально использовать свой бюджет обхода (даже без доступа к файлам журнала сервера), необходимо убедиться, что вы делаете следующее:

Удалить дубликаты страниц

Часто на сайтах электронной коммерции такие инструменты, как OpenCart, могут создавать несколько URL-адресов для одного и того же продукта. Я видел экземпляры одного и того же продукта по 4 URL-адресам с разными подпапками между пунктом назначения и корнем.

Вы не хотите, чтобы Google индексировал более одной версии каждой страницы, поэтому убедитесь, что у вас есть канонические метки на месте, указывая Google на правильную версию.

Разрешить неработающие ссылки

Используйте Google Search Console или программное обеспечение для сканирования, найдите все сломанные внутренние и внешние ссылки на вашем сайте и исправьте их. Использование 301s - это замечательно, но если это навигационные ссылки или ссылки нижнего колонтитула, которые не работают, просто измените URL, на который они указывают, не полагаясь на 301.

Не пишите тонкие страницы

Избегайте большого количества страниц на вашем сайте, которые не приносят никакой пользы пользователям или поисковым системам. Без контекста Google трудно классифицировать страницы, то есть они ничего не вносят в общую релевантность сайта, и они просто пассажиры, берущие на себя расходы на сканирование.

Удалить 301 перенаправить цепи

Цепные перенаправления являются ненужными, грязными и неправильно понятыми. Цепочки перенаправления могут повредить бюджет сканирования несколькими способами. Когда Google достигает URL и видит 301, он не всегда следует за ним сразу, вместо этого он добавляет новый URL в список, а затем следует за ним.

Вам также необходимо убедиться, что ваша карта сайта XML (и карта сайта HTML) точна, а если ваш сайт многоязычный, убедитесь, что у вас есть карты сайта для каждого языка сайта. Вам также необходимо реализовать интеллектуальную архитектуру сайта, архитектуру URL и ускорить работу ваших страниц. Размещение вашего сайта за CDN, как CloudFlare также было бы полезно.

TL; DR:

Срезать бюджет, как и любой другой бюджет, - это возможность, вы теоретически используете свой бюджет, чтобы выиграть время, которое Googlebot, Bingbot и Slurp тратят на вашем сайте, важно, чтобы вы максимально использовали это время.

Оптимизация бюджета сканирования не легка, и это, конечно, не «быстрая победа». Если у вас есть небольшой сайт или сайт среднего размера, который в хорошем состоянии, вы, вероятно, в порядке. Если у вас есть гигантский сайт с десятками тысяч URL-адресов, и файлы журнала сервера идут вам на ум - возможно, пришло время обратиться к экспертам.

Как Google определяет бюджет сканирования?
Почему важен бюджет сканирования?
Как Google определяет бюджет сканирования?
Почему я не упомянул полномочия домена?
По существу, более мощные домены имеют больший бюджет сканирования, так как вы определяете активность ботов Google на своем веб-сайте и, что важно, выявляете любые проблемы сканирования ботов?
Но как насчет технических проблем?
Когда возникает проблема с бюджетом сканирования?
Но что, если на вашем сайте есть 200 000 URL-адресов, а Google сканирует только 2000 страниц на вашем сайте каждый день?

Навигация по сайту

Популярные статьи