Прокси для DuckDuckGo: практическое руководство по сбору поисковых данных

Прокси для DuckDuckGo: практическое руководство по сбору поисковых данных

DuckDuckGo редко занимает первое место, когда команды решают, где отслеживать рейтинги или получать данные поисковой выдачи, поскольку Google и Bing обычно получают бюджет. Это ошибка, которую стоит исправить. Аудитория, заботящаяся о конфиденциальности, страница результатов, курируемая иначе, чем страница Google, и поток запросов, который одновременно служит окном к индексу Bing, делают DuckDuckGo полезным источником данных для SEO и исследований рынка. Практическое препятствие заключается в том, что сбор этих данных в любом реальном томе требует вставки прокси-сервера для DuckDuckGo перед вашими запросами. В этом руководстве объясняется, зачем нужны прокси, какой тип подходит для работы, как локализовать результаты по рынку и как построить рабочий процесс приема, который будет работать после первых нескольких сотен запросов.

Почему сбор данных DuckDuckGo того стоит

Масштаб меньше, чем у Google, но это не ошибка округления. По оценкам независимых трекеров и аналитических отчетов, DuckDuckGo выполняет около 100 миллионов поисковых запросов в день, около 3 миллиардов в месяц, с глобальной долей от 0,6 до 0,9 процента и более высокой долей от 1,8 до 2,1 процента в Соединенных Штатах, где это вторая по популярности мобильная поисковая система. DuckDuckGo прекратил публиковать точный трафик в 2022 году. Поэтому считайте любое точное число приблизительным, а не проверенным.

Proxies for DuckDuckGo: A Practical Guide to Search-Data Collection

Две вещи делают этот трафик интересным для команд обработки данных. Во-первых, аудитория более заботится о конфиденциальности и предвзято относится к США: около половины всех поисковых запросов поступает из США, за ними следуют Германия, Великобритания и Индия, а возрастная группа 25–34 лет является самым большим сегментом. Если ваш продукт или контент нацелен на этих пользователей, видимость DuckDuckGo важнее, чем предполагает глобальный процент. Во-вторых, поскольку традиционные веб-результаты DuckDuckGo в основном поступают из Bing, мониторинг результатов поиска DuckDuckGo дает вам недорогое вторичное представление о том, как ваши страницы оцениваются в индексе Bing. Это полезно, если вы не можете или не хотите выполнять поиск в Bing напрямую.

Типичные задания, требующие использования конвейера данных DuckDuckGo:

    <ли>Отслеживание рейтинга для аудитории, ориентированной на конфиденциальность, или аудитории из США.
  • Мониторинг функций поисковой выдачи, включая мгновенные ответы, сводку AI и цитируемые источники.
  • Проверка рекламы, подтверждающая, что спонсируемые места размещения отображаются правильно для каждого рынка. Сообщается, что средняя цена за клик DuckDuckGo составляет около 0,41 доллара, что намного ниже, чем у Google. Поэтому для некоторых рекламодателей это реальный канал.
  • Исследования рынка и конкурентов, для которых полезен неперсонализированный набор результатов: DuckDuckGo не адаптирует результаты к профилю, поэтому два чистых запроса для одного и того же запроса и региона должны возвращать одинаковый рейтинг.
  • Как DuckDuckGo дает результаты

    Вы не сможете создать надежный парсер, не понимая, что вы парсите. DuckDuckGo — это не единый индекс. Он сочетает в себе результаты из «более 400 источников», причем большинство из десяти стандартных синих ссылок поступает из Bing, дополненных собственным сканером (DuckDuckBot), поставщиками мгновенных ответов, такими как Wikipedia, Wolfram Alpha и Apple Maps, а с 2023 года — уровнем ответа искусственного интеллекта, основанным на моделях OpenAI и Anthropic. Зависимость от Bing не является теоретической: во время сбоя API Bing в 2024 году DuckDuckGo на короткое время вообще перестал возвращать результаты.

    Для целей сбора наиболее важной деталью является то, что DuckDuckGo предоставляет доступ к более чем одной входной двери. Основной интерфейс Duckduckgo.com насыщен JavaScript и блокирует нумерацию страниц с помощью динамического токена VQD, что затрудняет создание сценариев. DuckDuckGo также поддерживает урезанные версии HTML и «Lite», которые изначально были разработаны для браузеров без JavaScript и гораздо более удобны для серверного парсера.

    Endpoint Что есть JavaScript Лучший for
    duckduckgo.com/ Полная обратная поисковая выдача: органические результаты, мгновенные ответы, реклама, сводка AI Да (токен vqd + JS) Сбор разнообразных функций и рекламных блоков
    html.duckduckgo.com/html/ Статический органический HTML результаты Нет Стандартный анализ на стороне сервера
    lite.duckduckgo.com/lite/ Минимальная, самая быстрая загрузка Результаты Нет Испытания высокого уровня

    DuckDuckBot – это не то же самое, что очистка DuckDuckGo

    Это постоянно расстраивает людей, поэтому стоит сказать об этом четко. DuckDuckBot — это сканер DuckDuckGo, который посещает ваш сайт. Вы управляете им через файл robots.txt так же, как робот Googlebot, и он широко считается одним из наиболее послушных и малоагрессивных сканеров в сети. Парсинг DuckDuckGo работает наоборот: они отправляют автоматические запросы в поисковую выдачу DuckDuckGo для сбора данных. Эти два сервера не имеют друг с другом ничего общего, и только второй требует прокси. Если ваша цель — просто гарантировать, что DuckDuckGo проиндексирует ваши страницы, индексация в Bing является наиболее важным рычагом, а не чем-то связанным с прокси.

    Зачем вам нужны прокси для DuckDuckGo

    Результаты DuckDuckGo’s являются анонимными по своей природе, без учетной записи, профиля и персонализированного рейтинга. Это устраняет проблему, поскольку вам никогда не придется управлять сеансами, вошедшими в систему. Однако проблема, которая фактически останавливает автоматический сбор данных, остается: ограничение скорости, привязанное к вашему IP-адресу.

    Proxies for DuckDuckGo: A Practical Guide to Search-Data Collection

    DuckDuckGo активно отправляет автоматический трафик обратно на свои конечные точки HTML. На практике вы увидите ответы 202, 403 и подобные, когда с одного адреса слишком быстро отправляется слишком много запросов. Официально опубликованного порога не существует, и консенсус сообщества, отраженный в популярной библиотеке Pythonuckduckgo-search (теперь ddgs), заключается в ротации прокси, сохранении значительно ниже примерно 30 запросов в минуту на один IP и добавлении случайных задержек к запросам на пространство. В независимых отчетах о парсинге DuckDuckGo оценивается как умеренная сложность, с ограничением скорости в качестве основной защиты и легким считыванием отпечатков TLS на вершине.

    Решение в принципе простое. Они распределяют рабочую нагрузку по множеству IP-адресов, чтобы ни один из них не превышал лимит для каждого IP-адреса, и постепенно чередуют адреса. Речь идет не о сокрытии того, кем вы являетесь. Все дело в том, чтобы оставаться в рамках бюджета запросов, который допускает DuckDuckGo, и не влиять на качество обслуживания других. Несколько запросов с компьютера выполняются без прокси; Работа по отслеживанию рейтинга, охватывающая тысячи пар ключевое слово-регион, не является такой задачей.

    Выберите правильный тип прокси

    Не все прокси ведут себя одинаково, когда дело доходит до ограничения скорости DuckDuckGo. Решение обычно сводится к соотношению риска обнаружения и стоимости и скорости. Таким образом, знание того, как использовать прокси-сервер с DuckDuckGo, поможет вам выбрать правильный вариант для вашей рабочей нагрузки. 

    Тип прокси Риск обнаружения с помощью DuckDuckGo Relative Стоимость Скорость Наилучший вариант
    Центр обработки данных Выше; Отображение быстрее при постоянной нагрузке Самый низкий Самый быстрый Низкая громкость, не критично ко времени Мониторинг
    Жилой район (вращающийся) Low Средний Средний Устойчивая, комплексная поисковая выдача Коллекция
    Mobile Lowes t Самый высокий Средний Самые сложные задания или если отмечены частные IP-адреса стать

    Proxies for DuckDuckGo: A Practical Guide to Search-Data Collection

    Некоторые записи журнала влияют на реализацию сильнее, чем ожидалось. IPv4 является безопасным стандартом по умолчанию. Хотя IPv6 дешевле, некоторые конечные точки считают его подозрительным. Поэтому сначала протестируйте его небольшой партией, прежде чем делать большой заказ. На транспортном уровне прокси-серверы HTTP(S) покрывают большинство стеков очистки, но некоторые цепочки инструментов корректно маршрутизируют только через SOCKS5, поэтому стоит убедиться, что оба доступны, прежде чем соединять все вместе. Провайдеры, которые предоставляют доступ к IPv4 для центров обработки данных, домашних и мобильных устройств через одну учетную запись, включая Proxies.io, упрощают это на практике, поскольку вы можете начать работу с недорогих адресов центров обработки данных для удобного мониторинга и перенести ту же работу на домашние или мобильные IP-адреса, как только DuckDuckGo вернет 202 секунды под нагрузкой.

    Локализовать результаты по рынку

    DuckDuckGo позволяет привязать поисковую выдачу к рынку, используя параметр региона kl: us-en для США, uk-en для Великобритании, de-de для Германии, fr-fr для Франции, wt-wt для всего мира и так далее. Для отслеживания рейтинга и проверки рекламы этот параметр позволяет вам просматривать страницу примерно так, как это сделал бы пользователь на этом рынке.

    Тонкая часть — это последовательность. Значение kl задает локаль результатов, но IP-адрес, с которого вы подключаетесь, по-прежнему передает географический сигнал, и несоответствие между ними может внести шум в вашу выборку, а это именно то, чего вам не нужно, если это точные, повторяемые показания для конкретного рынка. Чистый подход заключается в том, чтобы сопоставить страну вашего выходного IP-адреса с кодом региона, который вы отправляете, чтобы запрос был внутренне согласованным. Практическим ограничением здесь является широта охвата: пула, в котором перечислены места выхода в США, Великобритании, Германии, Франции, Испании, Польше, Нидерландах, Канаде, Бразилии и Индии (список стран, опубликованный Proxys.io, является показательным примером), обычно достаточно, чтобы связать IP с любым кодом региона, который отслеживает команда SEO. Если страна не указана, более честный вариант — удалить эту локаль из программы, а не отправлять несовпадающий IP-адрес, который незаметно повреждает данные.

    Практический рабочий процесс сбора данных

    Вот рабочий процесс, который хорошо подходит для коллекций DuckDuckGo среднего размера. Предполагается, что вы используете одну из конечных точек, не поддерживающих JavaScript, что устраняет большую часть уязвимостей.

    1. Выберите конечную точку, соответствующую нужным вам данным. Используйте lite.duckduckgo.com для расширенного рейтинга, html.duckduckgo.com, если вам нужно немного больше структуры, и главную страницу, только если вам конкретно нужна реклама, мгновенные ответы или сводка AI.

    2. Установите регион с помощью kl и совместите с ним страну выхода прокси.

    3. Меняйте прокси-сервер при каждом запросе или, по крайней мере, при каждом новом задании и ограничьте параллелизм, чтобы оставаться в пределах примерно 30 запросов в минуту на один IP.

    4. Вместо фиксированного интервала добавьте случайные задержки между запросами, поскольку постоянная частота сама по себе является узнаваемым шаблоном.

    5. Будьте осторожны с нумерацией страниц. Первоначальный запрос возвращает около 35 органических результатов; Использование смещения может вернуть значение примерно до 50, но более высокие смещения также увеличивают вероятность дублирования или переменных чисел результатов, поэтому дедупликация производится по пути. На главной странице нумерация страниц зависит от токена vqd; Если срок его действия истечет, нумерация страниц просто не удастся. Поэтому снова получите первую страницу, чтобы получить новый токен, и повторите попытку.

    6. Если вы допустили ошибку, вернитесь назад. Считайте 202 и 403 сигналами остановки, переключения на новый IP и замедления, чтобы не пытаться снова.

    Минимальное представление уровня запроса с вращающимся прокси и кодом региона:

    Код региона (kl) Рынок
    us-en США (Английский)
    uk-en Великобритания
    де-де Германия fr-fr Франция
    ru-ru< /td>

    Россия
    wt-wt Нет Регион/по всему миру
    Импортировать случайные значения, время, запросы PROXIES = [ … ]   # Ваш вращающийся пул, например. http://user:pass@host:port def fetch(query, kl=”us-en”):    proxy = random.choice(PROXIES)    r = request.get(        “https://html.duckduckgo.co m/html/”,        params={“q”: запрос, “kl”: kl},        proxies={“http”: Прокси, “https”: Proxy},        headers={“User-Agent”: “Mozilla/5.0 … Chrome/120 Safari/537.36”},       &amp ;nbsp;timeout=30,    )    if r.status_code в (202, 403):        time.sleep(random.uniform(5, 12))   # снять, затем повернуть следующий вызов        return None    return r.text   # передается в BeautifulSoup для анализа

    Сам разбор не драматичен. Страницы DuckDuckGo Lite и HTML являются статическими, поэтому стандартный запрос плюс проход BeautifulSoup извлекает заголовки, ссылки и фрагменты без автоматизации браузера. Зарезервируйте автономные браузеры для случаев, когда вам действительно нужна функциональность рендеринга JavaScript.

    Ограничения, компромиссы и ответственное использование

    Прокси решает проблему ограничения скорости IP. Это не делает очистку без последствий, и честный лидер должен это сказать.

    Это находится в правовой и политической серой зоне. Сбор общедоступных данных является законным в большинстве юрисдикций, но условия DuckDuckGo запрещают автоматическое, неличное использование сайта, и компания четко заявляет, что работает над блокировкой парсеров. Уважайте robots.txt, держите частоту запросов на низком уровне, собирайте только общедоступные данные и обращайтесь за юридической консультацией, если ваш вариант использования является коммерческим или крупномасштабным. Здесь сдержанность – это не просто театр уступчивости. Перегрузка конечных точек ухудшает качество обслуживания реальных пользователей. Это поведение, которое ограничение скорости призвано предотвратить.

    Специальные скребки хрупкие. Когда DuckDuckGo меняет свою HTML-структуру, созданный вручную парсер ломается, и механика токена vqd на главной странице периодически меняется. Преимущество скрепера в том, что его можно отремонтировать в удобное для вас время. Преимущество такой библиотеки, как ddgs, заключается в том, что ее поддерживает кто-то другой, но затем ждет исправления, когда она сломается. Бесплатного обеда не существует, есть только выбор того, кто будет нести бремя содержания.

    Официального API SERP не существует. DuckDuckGo предлагает API мгновенного ответа, но он предоставляет мгновенные ответы, а не полные веб-результаты, которые нужны большинству команд. Для коммерческого использования вам необходимо сначала идентифицировать свое приложение, атрибутировать результаты и получить одобрение по электронной почте. (DuckDuckGo известен тем, что отвечает на эти электронные письма.) Для получения полных данных поисковой выдачи вы либо самостоятельно очищаете конечные точки HTML, либо платите управляемому поставщику API SERP, чтобы он выполнил для вас очистку и ротацию прокси. Решение о выборе сборки или покупки зависит от объема, внутренних инженерных возможностей и того, насколько большое значение вы придаете контролю над надежностью.

    Зависимость от Bing представляет собой постоянный риск. Поскольку большая часть набора результатов DuckDuckGo поступает из Bing, изменения в исходном коде оказывают негативное влияние. Изменения Microsoft в своих поисковых API в 2025 году являются напоминанием о том, что источник данных, который вы отслеживаете, не полностью находится в руках DuckDuckGo и, следовательно, не полностью в ваших руках.

    Несколько уроков, которые повторяются в разных проектах: начинайте медленнее, чем вы думаете, и наращивайте; Меняйте IP-адреса и меняйте время, поскольку ограничение скорости основано на шаблонах, а не только на объеме. Выровняйте географию прокси-сервера с регионом KL или примите более зашумленные данные. и активно выполнять дедупликацию, как только вы прокрутите первый набор результатов.

    FAQ

    Нужен ли мне прокси для парсинга DuckDuckGo? 

    Для нескольких разовых запросов – нет. Для чего-то последовательного или масштабируемого — да: ограничение скорости привязано к вашему IP, а ротация прокси-серверов удерживает вас в пределах бюджета запросов, который терпит DuckDuckGo.

    Сколько запросов в минуту на один IP безопасно?

     DuckDuckGo не публикует официальных ограничений. Общее эмпирическое правило таково: примерно 30 ответов в минуту на один IP, со случайными задержками, которые сразу же уменьшаются при 202 или 403 ответах.

    Какой тип прокси лучше всего подходит для DuckDuckGo? 

    Смена частных прокси — надежный стандарт для устойчивого захвата. Мобильные IP-адреса являются наиболее стабильными, но и самыми дорогими. Адреса центров обработки данных подходят для мониторинга небольших объемов.

    Есть ли у DuckDuckGo официальный API для результатов поиска? 

    Не для полных результатов в Интернете. API мгновенного ответа охватывает только мгновенные ответы. Полные данные поисковой выдачи получаются в результате очистки конечных точек HTML или Lite или из стороннего API поисковой выдачи.

    Могу ли я получить результаты DuckDuckGo для конкретной страны? 

    Да. Параметр kl задает рынок (например, us-en, uk-en, de-de). Для получения точных результатов сопоставьте исходную страну вашего прокси с отправленным вами кодом региона.

Back To Top