Разъяснение утечки данных Google

Разъяснение утечки данных Google

<стр>Пять вопросов о данных Google, на которые вам нужны ответы прямо сейчас

Во время праздников в США было опубликовано несколько сообщений о предполагаемой утечке данных, связанных с рейтингом Google. Первые сообщения об утечках были посвящены “подтверждению” убеждения, которых долгое время придерживался Рэнд Фишкин, но мало внимания уделялось контексту информации и тому, что она на самом деле означает.

Контекст имеет значение: хранилище документов AI

<п>Утечка документа имеет отношение к публичной платформе Google Cloud под названием Document AI Warehouse, которая используется для анализа, организации, поиска и хранения данных. Эта общедоступная документация называется «Обзор хранилища документов AI». В сообщении на Facebook сообщается, что “утечка” данные — это “внутренняя версия” общедоступной документации Document AI Warehouse. Вот контекст этих данных.

Скриншот: Хранилище документов AI

<п>

Google Data Leak Clarification

@DavidGQuaid написал в Твиттере:

“Думаю, понятно, что это внешний API для создания хранилища документов, как следует из названия”

< /blockquote>

Похоже, это бросает вызов идее о том, что “утечка” данные представляют собой внутреннюю информацию поиска Google.

Насколько нам известно на данный момент, “утечка данных” имеет сходство с тем, что находится на общедоступной странице Document AI Warehouse.

Утечка данных внутреннего поиска?

В исходном сообщении на SparkToro не сказано, что данные получены из поиска Google. Там говорится, что это заявление сделал человек, отправивший данные Рэну Фишкину.

<стр>Одна из вещей, которые меня восхищают в Рэнде Фишкине, это то, что он очень точен в своих произведениях, особенно когда дело касается предостережений. Рэнд точно отмечает, что именно человек, предоставивший данные, утверждает, что данные получены из Google Search. Никаких доказательств, только утверждение.

Он пишет:

“Я получил электронное письмо от человека, утверждающего, что у него есть доступ к массовой утечке документации API из отдела поиска Google.”

<п>Сам Фишкин не утверждает, что бывшие сотрудники Google подтвердили, что данные получены из Google Search. Он пишет, что такое заявление сделал человек, отправивший данные по электронной почте.

“В электронном письме также утверждалось, что подлинность этих просочившихся документов была подтверждена бывшими сотрудниками Google, и что эти бывшие сотрудники и другие лица поделились дополнительной личной информацией. о поисковых операциях Google.”

<п>Фишкин пишет о последующей видеовстрече, на которой источник информации рассказал, что его контакт с бывшими сотрудниками Google происходил в контексте встречи с ними на мероприятии поисковой индустрии. Опять же, нам придется поверить на слово информаторам о бывших сотрудниках Google и о том, что то, что они сказали, было сделано после тщательного изучения данных, а не неофициального комментария.

Фишкин пишет, что связался по этому поводу с тремя бывшими сотрудниками Google. Примечательно то, что бывшие сотрудники Google не подтвердили явно, что данные являются внутренними для Google Search. Они только подтвердили, что данные похожи на внутреннюю информацию Google, а не на то, что они получены из поиска Google.

Фишкин пишет то, что ему сказали бывшие гуглеры:

<ул>

  • “У меня не было доступа к этому коду, когда я там работал. Но это, безусловно, выглядит законно.”
  • “Он имеет все признаки внутреннего API Google.”
  • “Это API на основе Java. А кто-то потратил много времени, придерживаясь собственных внутренних стандартов Google в отношении документации и именования.”
  • “Мне нужно больше времени, чтобы убедиться, но это соответствует внутренней документации, с которой я знаком.”
  • “Ничто из того, что я увидел в кратком обзоре, не указывает на то, что это что-то кроме законного.”
  • <п>Сказать, что что-то произошло из Google Search, и сказать, что это произошло из Google, — это две разные вещи.

    Сохраняйте непредвзятость

    Важно сохранять непредвзятость в отношении данных, потому что в них много неподтвержденного. Например, неизвестно, является ли это внутренним документом поисковой группы. По этой причине, вероятно, не стоит воспринимать эти данные как действенный совет по SEO.

    Кроме того, не рекомендуется анализировать данные специально для подтверждения давних убеждений. Вот как человек попадает в ловушку предвзятости подтверждения.

    Определение предвзятости подтверждения:

    “Предвзятость подтверждения — это тенденция искать, интерпретировать, отдавать предпочтение и вспоминать информацию таким образом, чтобы подтвердить или поддержать прежние убеждения или ценности человека. .”

    Предвзятость подтверждения приводит к тому, что человек отрицает вещи, которые эмпирически верны. Например, существует давняя идея о том, что Google автоматически не позволяет новому сайту ранжироваться, — теория под названием «Песочница». Люди каждый день сообщают, что их новые сайты и новые страницы почти сразу же попадают в первую десятку результатов поиска Google.

    <стр>Но если вы твердо верите в Песочницу, то реальный наблюдаемый опыт, подобный этому, будет отброшен, независимо от того, сколько людей наблюдают противоположный опыт. <п><эм>Бренда Мэлоун, внештатный старший технический специалист по SEO и веб-разработчик (профиль в LinkedIn), написала мне о претензиях по поводу песочницы:

    “Я лично знаю из реального опыта, что теория песочницы неверна. Я только что проиндексировал личный блог с двумя постами за два дня. Невозможно, чтобы небольшой сайт с двумя постами был проиндексирован в соответствии с теорией песочницы.”

    <п>Вывод здесь заключается в том, что если окажется, что документация получена из поиска Google, неправильный способ анализа данных — это поиск подтверждения устоявшихся убеждений.

    Что такое утечка данных Google?

    Есть пять вещей, которые следует учитывать при утечке данных:

    <ол>

  • Контекст утечки информации неизвестен. Это связано с поиском в Google? Это для других целей?
  • Цель данных. Была ли информация использована для фактических результатов поиска? Или она использовалась для внутреннего управления данными или манипулирования ими?
  • Бывшие сотрудники Google не подтвердили, что данные относятся именно к поиску Google. Они только подтвердили, что оно пришло от Google.
  • Сохраняйте непредвзятость. Если вы отправитесь на поиски оправдания давних убеждений, угадайте, что? Вы найдете их повсюду. Это называется предвзятостью подтверждения.
  • <ли>Имеющиеся данные свидетельствуют о том, что данные связаны с внешним API для создания хранилища документов.

    Что другие говорят о “Leaked” Документы <стр>Райан Джонс, человек, который не только имеет глубокий опыт в SEO, но и обладает потрясающими познаниями в информатике, поделился некоторыми разумными наблюдениями о так называемой утечке данных.

    Райан написал в Твиттере:

    <блоковая цитата><п>«Мы не знаем, предназначено ли это для производства или для тестирования. Я думаю, это в основном для тестирования потенциальных изменений.

    Мы не знаем, что используется для Интернета или для других отраслей. Некоторые вещи можно использовать только для дома Google, новостей и т. д.

    Мы не знаем, что является входными данными для алгоритма ML и что используется для обучения. Я предполагаю, что клики не являются прямым вводом, а используются для обучения модели прогнозированию кликабельности. (Не считая трендовых усилений)

    Я также предполагаю, что некоторые из этих полей применимы только к наборам обучающих данных, а не ко всем сайтам.

    Я говорю, что Google не лгал? Совсем нет. Но давайте рассмотрим эту утечку объективно, а не с какой-либо предвзятостью.”

    @DavidGQuaid написал в Твиттере:

    “Мы также не знаем, предназначено ли это для поиска Google или поиска документов в облаке Google

    API кажутся выбором &amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp; выберите – Я не ожидал, что алгоритм будет работать именно так – – что, если инженер захочет пропустить все эти проверки качества – Похоже, я хочу создать приложение-хранилище контента для своей корпоративной базы знаний”

    Это “Утечка” Данные, относящиеся к поиску в Google?

    На данный момент нет веских доказательств того, что эта “утечка” данные на самом деле взяты из поиска Google. Существует огромная неясность относительно цели данных. Примечательно, что есть намеки на то, что эти данные представляют собой всего лишь «внешний API для создания хранилища документов, как следует из названия». и никак не связано с рейтингом веб-сайтов в поиске Google.

    Вывод о том, что эти данные не были получены из поиска Google, на данный момент не является окончательным, но, судя по всему, именно в этом направлении дует ветер доказательств.

    Back To Top