Страницы-сироты: как найти, исправить и проверить

Что такое страница-сирота?
Сиротские страницы плохие?
Как мне найти сиротские страницы?
Найти все свои страницы, используя файлы журналов
Найти все свои страницы в WordPress
Сканируйте свои страницы с помощью Screaming Frog SEO Spider
Раскрытие сиротских страниц
Раскройте Orphan Pages для WordPress с помощью электронных таблиц
Использование Microsoft Excel:
Использование Google Sheets:
Раскройте сиротские страницы с помощью Screaming Frog Log File Analyzer
Что делать, когда вы находите сиротские страницы
верификация
В итоге: принять не блокировать

Нелегко быть ботом поисковой системы: ползать весь день и ночь; пытаясь организовать, классифицировать и понять качество каждой страницы в Интернете; анализируя язык, контекст и темы. Но бот не останавливайся! «Пожалуйста, сэр, я хочу еще немного» - таков голос бота, жаждущий больше контента с вашего сайта! В какой-то момент нам нужно остановиться и спросить себя: что если у нас есть страница на нашем сайте, и бот не может ее сканировать? Это тяжелое положение сиротской страницы. Итак, давайте их найдем и исправим!

Что такое страница-сирота?

Страница-сирота просто не имеет внутренних ссылок на нее. Само имя определяет это: страница без родителя.

Страницы-сироты обычно возникают по человеческим ошибкам; Отсутствующая или ошибочная ссылка на страницу может просто сделать невозможным сканирование поисковой системой, что, несомненно, проблематично для SEO. Например, во время редизайна сайта вы можете неосознанно удалять ссылки на старую страницу, но сама страница продолжает жить. Иногда при правильных обстоятельствах страница-сирота может быть совершенно прекрасной: эти страницы обычно создаются для определенных кампаний с оплатой за клик или по электронной почте и целенаправленно не связаны за пределами кампании. Независимо от того, как это происходит, важно поддерживать хорошее понимание того, как ваш сайт внутренне связан.

Независимо от того, как это происходит, важно поддерживать хорошее понимание того, как ваш сайт внутренне связан

Сиротские страницы плохие?

Там, где есть свет, всегда есть тьма, чтобы уравновесить вселенную. Хотя сами сиротские страницы по своей природе не являются плохими, их также можно принять за страницы дверного проема.

Страницы дорвеев имеют очень похожий контент, слегка подправленный для изменения вариантов ключевого слова. Это обычно наблюдается в ситуации, когда компании может потребоваться настроить таргетинг на сотни разных городов с индивидуально нацеленными страницами, где только название города и штат взаимозаменяемы на каждой странице (например, « Лучшая домашняя безопасность в городе, штате »).

Процитировать Правила качества Google :

«Дверные проемы - это сайты или страницы, созданные для ранжирования по конкретным поисковым запросам. Они вредны для пользователей, потому что они могут привести к появлению нескольких похожих страниц в результатах поиска пользователей, где каждый результат в конечном итоге приводит пользователя к одному и тому же месту назначения. Они также могут привести пользователей к промежуточным страницам, которые не так полезны, как конечный пункт назначения ».

В духе предоставления качественных результатов поиска Google не хочет видеть страницы, которые созданы исключительно для того, чтобы сосредоточиться на множестве небольших вариаций ключевых слов.

Если страница-сирота содержит чрезмерно нацеленный контент или контент, аналогичный другим страницам, и отправляется в XML-карте сайта без метатега noindex , это может привести к ошибкам принятия за страницу входа. Эта страница теперь будет на радаре Google как то, что вы просили проиндексировать, но не как часть архитектуры вашего сайта. Для Google это красный флаг, и красные флаги могут привести к штрафам, алгоритмически или вручную.

Поскольку страницы в дверях могут привести к штрафу Google, всегда следует избегать страниц, не являющихся дверями, если это возможно. Тем не менее, некоторые страницы могут быть целенаправленно осиротевшими для создания целевых страниц для кампаний с оплатой за клик или по электронной почте.

Для кампаний PPC и электронной почты они часто специфичны для кампаний, поэтому маркетологи не хотят, чтобы кто-то переходил к ним вне контекста кампании. Целевые страницы PPC / электронной почты часто имеют урезанный дизайн, который направляет пользователей к одной конкретной цели, поэтому может не включать в себя полную архитектуру ссылок сайта. Это абсолютно веская причина иметь их; Вы должны просто убедиться, что метатег noindex применяется:

Всегда помните, что пользователь или поисковая система должны иметь возможность переходить на каждую страницу сайта. Любые страницы, которые выпадают из этой области видимости, должны иметь четкую директиву, что вы не хотите, чтобы эта страница была проиндексирована.

В дополнение к риску, связанному с дверным проемом, страницы-сироты не получают значительного дохода от внутренних ссылок - поэтому, если вы создаете страницу, которая, как вы надеетесь, будет иметь органический рейтинг в поисковых системах, важно, чтобы она не была сиротой. как по причинам открытости, так и авторитетности.

Как мне найти сиротские страницы?

В конечном итоге вам всегда нужно сравнивать два набора данных URL , чтобы найти потерянные страницы. Если это поможет, вы можете продолжить здесь аналогию, думая об этих двух наборах данных URL как о каждом из родителей:

Набор данных URL 1: Все URL страницы, когда-либо созданные для вашего сайта.
Набор данных URL 2: Все URL-адреса страницы, которые могут быть просканированы.

Расхождение между двумя наборами данных URL должно раскрыть все потерянные страницы на вашем сайте.

Найти все свои страницы, используя файлы журналов

Самый простой способ получить ваши файлы журналов - войти в вашу cPanel и найти опцию под названием Raw Log Files . Если вы по-прежнему не можете его найти, вам может потребоваться связаться с вашим хостинг-провайдером и попросить его предоставить файлы журнала для вашего сайта.

Необработанные журналы доступа позволяют увидеть, какие посещения вашего веб-сайта были сделаны, без отображения графиков, диаграмм или другой графики. Вы можете использовать меню Raw Access Logs, чтобы загрузить сжатую версию журнала доступа сервера для вашего сайта. Это может быть очень полезно, если вы хотите быстро увидеть, кто посетил ваш сайт.

Необработанные журналы могут содержать данные за несколько часов, поскольку они отбрасываются после того, как система их обработает. Однако, если архивирование включено, система архивирует необработанные данные журнала до того, как система их удалит. Так что продолжайте и убедитесь, что вы архивируете!

Когда ваш файл журнала будет готов к работе, теперь нам нужно собрать другой набор данных страниц, которые Google может сканировать, используя Кричащая лягушка , Кроме того, вы можете:

Найти все свои страницы в WordPress

Полезный плагин для WordPress, довольно удачно названный Экспортировать все URL , может помочь вам экспортировать все страницы, сообщения и пользовательские типы сообщений в вашей системе управления контентом. Экспортируя все эти страницы с вашего сайта WordPress, вы сможете сравнивать и сравнивать список страниц, которые были найдены при сканировании вашего сайта. Если будут какие-либо выбросы, у вас будут раскрытые страницы, которые не были найдены при сканировании сайта.

Отсюда вы можете просто оценить, есть ли страницы, которые должны быть частью вашего сайта, и включить их обратно, просто перейдя по ссылке на вашу потерянную страницу со страницы, которую вы знаете, просканированы и доступны для бота.

Пожалуйста, сделайте резервную копию вашей базы данных перед установкой и активацией любых плагинов.

Установите и активируйте Экспортировать все URL плагин.
Выберите все типы (страницы, сообщения и пользовательские типы сообщений)
Выберите все дополнительные данные (URL, заголовки, категории)
Статус сообщения: Опубликован
Тип экспорта: .csv

Когда у вас есть все ваши страницы WordPress, нам нужно собрать другой набор URL-адресов, которые можно найти при сканировании, используя Кричащая лягушка SEO Spider ,

Сканируйте свои страницы с помощью Screaming Frog SEO Spider

Screaming Frog - фантастический инструмент, который мы высоко ценим здесь, в UpBuild. С использованием Кричащая лягушка SEO Spider Мы можем сканировать наш веб-сайт, как робот Googlebot, и экспортировать список всех найденных URL.

Когда у вас будет готов Screaming Frog, сначала убедитесь, что для вашего режима сканирования установлено значение «Паук» по умолчанию.

Когда у вас будет готов Screaming Frog, сначала убедитесь, что для вашего режима сканирования установлено значение «Паук» по умолчанию

Затем убедитесь, что в разделе « Конфигурация»> «Паук» флажок «Проверить внешние ссылки» не установлен , чтобы избежать ненужного сканирования внешнего сайта.

Затем убедитесь, что в разделе « Конфигурация»> «Паук» флажок «Проверить внешние ссылки» не установлен , чтобы избежать ненужного сканирования внешнего сайта

Теперь вы можете ввести URL вашего сайта и нажать « Пуск» .
После завершения сканирования просто
- а. Перейдите на вкладку « Внутренние ».
- б. Фильтр по HTML .
- с. Нажмите Экспорт .
- д. Сохранить в формате .csv .

csv

Раскрытие сиротских страниц

Теперь у нас должно быть два набора данных URL, оба в формате .csv:

Все URL страницы, когда-либо созданные для вашего сайта из файлов журнала или WordPress.
Все URL страницы, которые можно на самом деле сканировать из Screaming Frog.

Все, что нам нужно сделать сейчас, это сравнить данные URL из двух файлов .csv и найти URL, которые не были просканированы.

Раскройте Orphan Pages для WordPress с помощью электронных таблиц

Если вы собрали свои данные из WordPress, вы можете использовать электронную таблицу, чтобы выявить расхождения:

Откройте новую электронную таблицу в Microsoft Excel, Google Sheets или по вашему выбору.
Поместите все URL из WordPress .csv в столбец А.
Поместите все URL из Screaming Frog .csv в столбец B.

Если будут какие-либо страницы-сироты, вы заметите, что в одном столбце ( скорее всего, в столбце A ) содержится больше URL-адресов.

Далее мы удаляем все повторяющиеся значения из столбца A и столбца B:

Использование Microsoft Excel:

Просто используйте команду « Удалить дубликаты» в группе «Инструменты данных» на вкладке « Данные ». Затем следуйте инструкциям на экране, чтобы выбрать и удалить дубликаты столбцов, содержащих два набора URL-адресов. Как только удаление повторяющихся URL-адресов завершено, все оставшиеся URL-адреса являются вашими сиротскими страницами!

Использование Google Sheets:

В Google Sheets мы можем использовать формулу = VLOOKUP, чтобы указать URL-адреса, которые не были найдены при нашем сканировании, которые в этом случае будут нашими бесхозными URL-адресами.

Откройте новый Google Sheet ,
Поместите URL-адреса данных из вашего WordPress .csv в столбец А.
- Примечание. Важно, чтобы данные WordPress находились в столбце a, поскольку VLOOKUP формулирует, используя данные в крайнем левом столбце для всех последующих столбцов.
- Поместите URL-адреса данных из вашей Screaming Frog .csv в столбец B.
- В столбце и ячейке C1 просто введите следующее:
  - = ВПР (А1, А: В, 2,0)
  - Затем перетащите ячейку C1 до нужного количества URL-адресов в электронной таблице.
  - Везде, где VLOOKUP возвращает « N / A », что указывает на потерянную страницу (ту, которая была найдена в вашем WordPress .csv, но не в Screaming Frog .csv).

Пропустить вперед, чтобы узнать что делать, когда вы находите сиротские страницы , или же:

Раскройте сиротские страницы с помощью Screaming Frog Log File Analyzer

Если вы решили вместо этого проанализировать файл журнала, мы можем использовать Кричащая лягушка SEO Анализатор файла журнала чтобы раскрыть наши сиротские страницы.

Программа очень проста в использовании и, как вы можете видеть из рисунка ниже, у нас есть возможность импортировать два набора данных, которые нам нужно проанализировать. Называется здесь просто как файл журнала и данные URL ( это будет наш Screaming Frog SEO Spider .csv ).

csv )

Импортировать файл журнала.
Импорт данных URL (Screaming Frog SEO Spider)
Перейдите на вкладку URLs:
- Измените свой вид на Не в данных URL. Это покажет вам все URL, которые были найдены в файле журнала, но не в просканированных данных.

Это покажет вам все URL, которые были найдены в файле журнала, но не в просканированных данных

Что делать, когда вы находите сиротские страницы

Когда у вас есть список страниц-сирот, все, что вам нужно сделать, это определить значение, которое содержит каждая страница-сирота:

Если вы хотите сохранить страницу, то примите ее!
- Внутренняя ссылка на вашу бесхозную страницу со страницы, которую вы знаете, уже доступна пользователям и ботам. Подумайте о своих пользователях; где бы эта страница-сирота естественно подходила и представляла ценность для моего пользователя.
- Убедитесь, что ваша новая страница добавлена как в вашу HTML-карту сайта, так и в вашу XML-карту сайта.

Если вы не хотите сохранять страницу, удалите ее и перенаправьте 301!
- Если сиротская страница имеет тонкий контент, дублированный контент или не имеет значения, вы можете просто полностью удалить страницу.
  - Примечание. Помните, что вы должны предоставить перенаправление 301 для потерянного URL-адреса с этой страницы на следующую наиболее релевантную страницу, так как она может быть доступна из внешнего источника.

Если вы хотите, чтобы страница оставалась сиротой, тогда не индексируйте ее!
- Понятно, что у вас могут быть страницы, которые вам просто не нужны как часть путешествия пользователя. В этом случае вы просто захотите убедиться, что ваша страница имеет четкий метатег noindex.

верификация

После того, как вы определились и реализовали один из трех вариантов выше для каждой из ваших страниц-сирот, вам следует снова пройти весь процесс. На этот раз вы должны быть уверены, что при сравнении двух наборов данных URL все ваши отдаленные страницы будут содержать метатег noindex . Если у вас есть страницы, по-прежнему без этой директивы, просто выберите один из вариантов выше, пока все ваши страницы не будут прочно закреплены.
Наконец, вы хотите убедиться, что вся ваша тяжелая работа находится на радаре Google.

Примечание: если вы используете Yoast SEO плагин чтобы управлять вашим XML Sitemap, автоматически включаются вновь принятые страницы, и в следующих нескольких шагах нет необходимости. Однако, если у вас по-прежнему нет настройки Google Search Console для вашего сайта WordPress, тогда Йоаст дает некоторые конкретные инструкции о том, как вы можете добиться этого при использовании своего плагина.

Для тех из вас, кто не использует плагин Yoast SEO, попробуйте еще раз и откройте Spreaming Frog SEO Spider, чтобы мы могли снова сканировать наш веб-сайт и создать новую блестящую карту сайта XML.

Введите URL вашего веб-сайта и нажмите Пуск . Как только ваше сканирование достигнет 100%, просто выберите Sitemaps из меню и затем создайте XML Sitemap .

Как только ваше сканирование достигнет 100%, просто выберите Sitemaps из меню и затем создайте XML Sitemap

Это откроет ряд параметров конфигурации карты сайта. Однако, поскольку настройки экспорта XML-файла карты сайта по умолчанию соответствуют требованиям и включают только HTML-страницы, включенные во «внутреннюю» вкладку с ответом «200» OK от сканирования, вы можете продолжить и нажать « Далее» .

Однако, поскольку настройки экспорта XML-файла карты сайта по умолчанию соответствуют требованиям и включают только HTML-страницы, включенные во «внутреннюю» вкладку с ответом «200» OK от сканирования, вы можете продолжить и нажать « Далее»

После того как вы сохранили и скачали карту сайта XML, вы можете отправить ее на Google Search Console , Это поможет вам отслеживать индексацию ваших страниц и является прямым способом сообщить Google, что у вас есть страницы, которые вы хотите проиндексировать. Это оно!

Это оно

В итоге: принять не блокировать

Робот Googlebot сканирует страницы на наших сайтах , используя созданные нами внутренние ссылки . Всегда помните, что если пользователь не может получить к нему доступ, то, скорее всего, ни один не может Google. Аудит бесхозных страниц может помочь вам обнаружить ценные страницы и, возможно, даже избежать наказания.

Думайте о своем сайте как о дереве. Можно легко предположить, что все страницы доступны, но если вы отрежете ветку, вы можете обнаружить, что вы удалили больше конечностей, чем вы думаете. Поэтому, когда ваш веб-сайт претерпевает какие-либо архитектурные изменения, обязательно проверяйте страницы-сироты. Принять, не блокировать.

связанные с

Что такое страница-сирота?
Сиротские страницы плохие?
Как мне найти сиротские страницы?
В какой-то момент нам нужно остановиться и спросить себя: что если у нас есть страница на нашем сайте, и бот не может ее сканировать?
Что такое страница-сирота?
Сиротские страницы плохие?
Как мне найти сиротские страницы?

Навигация по сайту

Популярные статьи