В документации Google Crawler появился новый список IP-адресов

В документации Google Crawler появился новый список IP-адресов

Google пересмотрела документацию по сканерам, добавив второй список IP-адресов, соответствующих сканерам, которые Google не контролирует

<п>Google обновил документацию по роботам Googlebot и сканерам, добавив ряд IP-адресов для ботов, запускаемых пользователями продуктов Google. Названия каналов изменены, что важно для издателей, которые вносят IP-адреса, контролируемые Google, в белый список. Это изменение будет полезно для издателей, которые хотят заблокировать парсеры, использующие облако Google, и другие сканеры, не связанные напрямую с самой Google.

Новый список IP-адресов

Google сообщает, что список содержит диапазоны IP-адресов, которые уже давно используются, поэтому это не новые диапазоны IP-адресов.

Существует два типа диапазонов IP-адресов:

<ол> <ли>Диапазоны IP-адресов, которые инициируются пользователями, но контролируются Google и преобразуются в имя хоста Google.com.
Это такие инструменты, как Google Site Verifier и, предположительно, инструмент проверки расширенных результатов.

  • Диапазоны IP-адресов, которые инициируются пользователями, но не контролируются Google и преобразуются в имя хоста gae.googleusercontent.com.
    Это приложения, находящиеся в облаке Google, или сценарии приложений, вызываемые из Google Таблиц.
  • <п>Списки, соответствующие каждой категории, теперь разные.

    Раньше список, соответствующий IP-адресам Google, был такой: Special-Crawlers.json (разрешается в gae.googleusercontent.com)

    Теперь “специальные сканеры” список соответствует сканерам, которые не контролируются Google.

    “IP-адреса в объекте user-triggered-fetchers.json разрешаются в имена хостов gae.googleusercontent.com. Эти IP-адреса используются, например, если сайт, работающий в Google Cloud (GCP), имеет функцию, требующую получения внешних RSS-каналов по запросу пользователя этого сайта.”

    Новый список, соответствующий сканерам, контролируемым Google: 

    user-triggered-fetchers-google.json

    <п>“Инструменты и функции продукта, для которых конечный пользователь запускает выборку. Например, Google Site Verifier действует по запросу пользователя. Поскольку выборка была запрошена пользователем, эти сборщики игнорируют правила robots.txt.

    Сборщики, контролируемые Google, берут начало с IP-адресов в объекте user-triggered-fetchers-google.json и преобразуются в имя хоста google.com.”

    < /blockquote>

    Список IP-адресов от сканеров Google Cloud и приложений, которые Google не контролирует, можно найти здесь:

    <п><эм>Список IP-адресов Google, которые активируются пользователями и контролируются Google, находится здесь:

    Новый раздел контента

    <стр>Появился новый раздел, в котором объясняется, о чем новый список.

    “Сборщики, контролируемые Google, берут начало с IP-адресов в объекте user-triggered-fetchers-google.json и преобразуются в имя хоста google.com. IP-адреса в объекте user-triggered-fetchers.json преобразуются в имена хостов gae.googleusercontent.com. Эти IP-адреса используются, например, если сайт, работающий в Google Cloud (GCP), имеет функцию, которая требует получения внешних RSS-каналов по запросу пользователя этого сайта. ***-***-***-***.gae.googleusercontent.com или google-proxy-***-***-***-***.google.com сборщики, запускаемые пользователем .json и user-triggered-fetchers-google.json”

    Журнал изменений Google

    В журнале изменений Google изменения объясняются следующим образом:

    “Экспорт дополнительного диапазона IP-адресов средства сбора данных Google
    Что: добавлен дополнительный список IP-адресов для сборщиков, которые контролируются продуктами Google, в отличие, например, от скрипта приложений, управляемого пользователем. Новый список user-triggered-fetchers-google.json содержит диапазоны IP-адресов, которые используются уже давно.

    Почему: Стала технически возможно экспортировать диапазоны.”

    Back To Top