Google: сканирование 404 означает, что Google открыт для большего количества вашего контента

Google: сканирование 404 означает, что Google открыт для большего количества вашего контента

Джон Мюллер из Google говорит, что робот Googlebot, сканирующий 404 страницы, означает, что Google не против получать больше контента с сайта.

Джон Мюллер из Google ответил на вопрос о Search Console и отчетах об ошибках 404, предположив, что повторное сканирование страниц с кодом статуса 404 является положительным сигналом.

404 Код состояния

Код статуса 404, часто называемый кодом ошибки, уже давно сбивает с толку многих владельцев сайтов и оптимизаторов, поскольку слово “ошибка” подразумевает, что что-то сломано и нужно починить. Но это не так.

<п>404 — это просто код состояния, который сервер отправляет в ответ на запрос браузера страницы. 404 — это сообщение, сообщающее, что запрошенная страница не найдена. Единственная ошибка — это сам запрос, потому что страница не существует.

Хотя обычно это называется ошибкой 404, формальное название — 404 Not Found. Это имя точно отражает значение кода состояния 404: запрошенная страница не найдена.

Скриншот официального веб-стандарта для кода состояния 4o4

<п>

Google: 404 Crawling Means Google Is Open To More Of Your Content

Google продолжает сканировать 404 страницы

Кто-то на Reddit написал, что Google Search Console продолжает сообщать, что несуществующие страницы продолжают находить с помощью данных карты сайта, несмотря на то, что в карте сайта больше не отображаются недостающие страницы.

<п>Человек утверждает, что Search Console сканирует недостающие страницы, но на самом деле их сканирует робот Googlebot; Search Console просто сообщает о неудачных сканированиях.

Они обеспокоены потраченным впустую бюджетом сканирования и хотят знать, следует ли им вместо этого отправлять код ответа 410.

Они написали:

“Консоль поиска Google все еще сканирует кучу несуществующих страниц, которые возвращают 404. В инструменте проверки страниц и статистике сканирования указано, что они “обнаружены через” моя страница-sitemap.xml.

<п>Проблема: <п>Когда я прямо сейчас открываю файл page-sitemap.xml в браузере, ни одного из этих 404 URL-адресов в нем нет.

В карте сайта всего 21 хорошая, живая страница.

…Я не хочу удалять или прекращать отправку карты сайта, потому что она чистая и указывает только на хорошие страницы. Но эти повторяющиеся обходы тратят впустую краулинговый бюджет.

<стр>Кто-нибудь сталкивался с этим раньше?

Остановится ли Google в конце концов самостоятельно?

Следует ли мне переключить 404 на 410 Gone?

Или есть ли другой способ сказать GSC “эй, они ушли навсегда”?”

О сканировании страниц 404 в Google

<п>У Google есть давняя практика сканирования страниц 404 на случай, если эти страницы были случайно удалены и восстановлены. Как вы вскоре увидите, Джон Мюллер из Google убедительно указывает на то, что неоднократное сканирование страницы 404 указывает на то, что системы Google могут рассматривать контент в положительном свете.

О ответе на ошибку 404 Страница не найдена

Официальное веб-стандартное определение кода состояния 404 заключается в том, что запрошенный ресурс не найден, и все, не более того. Этот ответ не означает, что страница никогда не возвращается. Это просто означает, что запрошенная страница не найдена.

<ч2>Около 410 Ушел ответ

Официальный веб-стандарт для кода состояния 410 заключается в том, что страница исчезла и что состояние исчезновения, скорее всего, будет постоянным. Цель ответа — сообщить, что ресурсы намеренно удалены и что любые ссылки на эти ресурсы должны быть удалены.

Google по сути обрабатывает 404 и 410 одинаково

<п>Технически, если веб-страница навсегда исчезла и никогда не возвращается, 410 — это правильное сообщение сервера, которое следует отправить в ответ на запросы отсутствующей страницы. На практике Google обрабатывает ответ 410 практически так же, как и ответ 404 сервера. Подобно тому, как он обрабатывает ответы 404, сканеры Google все равно могут вернуться, чтобы проверить, исчезла ли страница ответа 410.

Сотрудники Google постоянно заявляют, что ответ сервера 410 немного быстрее при удалении страницы из индекса Google.

Google подтверждает факты о кодах ответов 404 и 410

Мюллер из Google ответил коротким, но информативным ответом, в котором объяснил, что ошибки 404, зарегистрированные в Search Console, не являются проблемой, которую необходимо устранять, что отправка ответа 410 не повлияет на отчеты 404 Search Console, и что обилие URL-адресов в этом отчете можно рассматривать в положительном свете.

Мюллер ответил:

“Это не вызывает проблем, поэтому я просто оставлю их в покое. Они будут сканироваться повторно в течение длительного времени, 410 этого не изменит. В некотором смысле это означает, что Google не против получать больше контента с вашего сайта.”

Недоразумения относительно ответов сервера 4XX

<п>Дискуссия на Reddit продолжилась. Модератор субреддита r/SEO предположил, что причина, по которой Search Console сообщает об обнаружении URL-адреса в карте сайта, заключается в том, что робот Googlebot изначально обнаружил URL-адрес именно там, что звучит разумно.

Модератор ошибся, объясняя, что означает код ответа 404.

Модератор неправильно объяснил:

“404 по сути означает – страница сломана, мы скоро это исправим, зайдите снова: и это то, что делает Google – – проверяю, исправили ли вы это.”

Модератор допустил две ошибки в ответе.

<п><сильный>1. 404 означает, что страница не найдена
Код статуса 404 означает только то, что страница не найдена, и точка. Не верьте мне? Вот официальный веб-стандарт кода состояния 404:

“Код состояния 404 (не найден) указывает, что исходный сервер не нашел текущего представления целевого ресурса или не желает раскрывать его существование. Код состояния 404 не указывает, является ли это отсутствие представления временным или постоянным…”

<п><сильный>2. 404 — это не ошибка, которую нужно исправлять
Люди обычно называют код состояния 404 ответом на ошибку. Причина, по которой это ошибка, заключается в том, что браузер или сканер запросил несуществующий URL-адрес, а это означает, что запрос был ошибкой, а не тем, что страница нуждается в исправлении, как настаивал модератор, когда он сказал, что “404 по сути означает – страница сломана” что на 100% неверно.

Более того, модератор Reddit был не прав, настаивая на том, что Google «проверяет, исправили ли вы это». Google снова проверяет, не пропала ли страница случайно, но это не значит, что ошибку 404 нужно исправлять. В большинстве случаев страница должна исчезнуть по какой-то причине, и Google рекомендует в таких случаях предоставлять код ответа 404.

Это не новость

<п>Дело не в том, что информация модератора Reddit устарела. Так всегда было с Google, который обычно следует официальным веб-стандартам.

<стр>Мэтт Каттс из Google объясняет, как Google обрабатывает ошибки 404 и почему, в видео 2014 года:

“Оказывается, веб-мастера довольно часто стреляют себе в ногу. Страницы пропадают, люди неправильно настраивают сайты, сайты не работают, люди случайно блокируют Googlebot, люди случайно блокируют обычных пользователей. Итак, если вы посмотрите на всю сеть, команда сканирования должна быть устойчивой к этому.

<п>То же самое и с 404s… мы собираемся защитить эту страницу в системе сканирования в течение двадцати четырех часов. Итак, мы как бы ждем и говорим: ну, может быть, это была временная ошибка 404. Может быть, на самом деле это не было предназначено для того, чтобы страница не была найдена. И поэтому в системе сканирования он будет защищен двадцать четыре часа.

…Теперь не поймите это слишком неправильно, мы все равно вернемся, перепроверим и убедимся, действительно ли эти страницы исчезли или, может быть, страницы снова ожили.

…И поэтому, если страница исчезла, можно отобразить 404. Если вы знаете, что она действительно исчезла, можно отобразить 410.

Но мы спроектируем нашу систему сканирования так, чтобы она была надежной. Но если ваш сайт выйдет из строя, или если вас взломают или что-то еще, мы постараемся убедиться, что мы все еще можем найти хороший контент, когда бы он ни был доступен.”

<ч2>Выводы <ул>

  • Сканирование роботом Google 404 страниц можно рассматривать как положительный сигнал о том, что Google нравится ваш контент.
  • Коды состояния

  • 404 не означают, что на странице возникла ошибка; это означает, что страница не найдена.
  • Коды состояния

  • 404 не означают, что что-то нужно исправить. Это означает лишь то, что запрошенная страница не найдена.
  • Нет ничего плохого в отправке кода ответа 404; Google рекомендует.
  • Search Console показывает ответы 404, чтобы владелец сайта мог решить, были ли эти страницы удалены намеренно.