Как использовать Google Таблицы для парсинга веб-страниц с помощью ИИ

Как использовать Google Таблицы для парсинга веб-страниц с помощью ИИ

<стр>Научитесь использовать Google Sheets для парсинга веб-страниц и интегрируйте инструменты искусственного интеллекта для инновационных стратегий и успеха на основе данных.

<п>Извлечение данных с веб-страниц — относительно сложная задача, которая до недавнего времени требовала определенных технических навыков. Идея погрузиться в код или скрипты для извлечения данных многим показалась ошеломляющей, в том числе и мне.

<стр>Сбор данных может помочь во многих задачах SEO, таких как аудит, анализ конкурентов, изучение веб-сайта и структуры данных. <стр>Google Таблицы предлагают простые решения.

Одним из таких решений является функция IMPORTXML, которая позволяет пользователям собирать данные веб-страницы, используя всего несколько параметров. Это делает извлечение данных доступным для более широкой аудитории, особенно для тех, кто плохо разбирается в языках программирования.

<п>Хотя эта функция впечатляет, настоящий прорыв произошел с внедрением и интеграцией генеративного искусственного интеллекта.

В этом руководстве мы покажем вам, как использовать Google Таблицы и искусственный интеллект, в частности ChatGPT, для парсинга веб-страниц без необходимости продвинутых навыков программирования.

Инструменты: искусственный интеллект и чат-боты

Теперь мы все знакомы с AI, ChatGPT и подобными чат-ботами.

На самом деле, многие из нас используют такие решения, как ChatGPT, для написания собственного кода, скриптов и программ без или с очень ограниченными знаниями в области программирования.

<стр>Это так же просто, как предоставить подробные инструкции в виде подсказок и работать с чат-ботом над созданием инструментов, которые еще совсем недавно считались намного превосходящими наши возможности. <стр>Но самое главное, это инструменты, которые глубоко меняют наш подход к повседневной работе.

Например, если мы зададим ChatGPT следующий вопрос: “Что такое функция IMPORTXML и как я могу использовать ее в Google Sheets для очистки заголовка веб-страницы HTML? Укажите необходимые код для этого в Google Таблицах” ответ очень точный. Через несколько секунд наша формула будет готова к использованию в Google Таблицах.

Но, честно говоря, это была очень простая и простая задача, которую мы могли бы легко выполнить без ChatGPT.

<ч2>Задание

Итак, как это работает, если мы хотим извлечь данные, которые немного менее стандартны по сравнению с заголовком или описанием страницы?

Например, как это будет работать, если мы хотим извлечь следующие данные с главной страницы PPC журнала поисковой системы?

Перечислите все избранные статьи, их авторов, URL-адреса ссылок и описание статей для столбцов, перечисленных на https://www.searchenginejournal.com/category/paid-media. /оплата за клик/.

Можем ли мы сделать это напрямую с помощью ChatGPT?

<х2>Выполнение с помощью ChatGPT

При создании подсказок потребовалось несколько попыток предоставить инструкции, которые были достаточно подробными, чтобы чат-бот мог полностью понять цель задачи и получить хорошие результаты.

Во многих случаях казалось, что ИИ был вынужден выдавать быстрые результаты, несмотря на их точность.

<п>Но позвольте мне объяснить. <п>Задача заключалась в том, чтобы проанализировать страницу и составить список всех избранных статей, их авторов, URL-адресов ссылок и описания каждой из 30 статей, перечисленных на странице. Затем скомпилируйте данные в таблицу и, наконец, экспортируйте ее в файл CSV.

Простой правый?

Сначала ChatGPT вернул только образец из семи статей и только их заголовки и URL-адреса; после переработанной подсказки удалось вывести список и экспортировать все 30 статей и их ссылки.

Вот это было хорошо. Итак, для выполнения задачи нам просто нужно было добавить авторов и описания статей.

Но здесь бот споткнулся и не смог предоставить точное описание каждой статьи, несмотря на то, что мы предоставили примеры элементов страницы, которые ему нужно было найти и скопировать.

ChatGPT продолжал игнорировать инструкции и снова и снова предоставлял собственные описания статей.

ChatGPT даже не удался, когда мы попробовали другой подход и загрузили копию HTML-страницы.

How To Use Google Sheets For Web Scraping With AI

Снимок экрана из ChatGPT, февраль 2024 г.

На этот раз он смог предоставить точные данные для семи статей, но не смог пройти мимо этого. О проблеме сообщили:

<блоковая цитата><п>“…структура и содержание страницы создают серьезные проблемы для комплексного извлечения данных за один сеанс.

Страница довольно обширная и сложная, и извлечь все 30 статей в текущем формате взаимодействия не представляется возможным.”

< /blockquote>

How To Use Google Sheets For Web Scraping With AI

Скриншот из ChatGPT, февраль 2024 г.

ChatGPT + Google Таблицы

<стр>Итак, возвращаемся к IMPORTXML и Google Sheets.

На этот раз заставить ChatGPT предоставить формулы для каждого поля было проще простого.

How To Use Google Sheets For Web Scraping With AI

Снимок экрана из ChatGPT, февраль 2024 г.

Вот некоторые формулы, предложенные чат-ботом, которые вы можете легко извлечь самостоятельно в Google Таблицах:

<п><сильный>Название

=IMPORTXML(“https://www.searchenginejournal.com/category/paid-media/pay-per-click/”, “//*[@id='archives-wrapper']/статья/div/div[2]/h2/a”)

Имя автора

=IMPORTXML(“https://www.searchenginejournal.com/category/paid-media/pay-per-click/”, “//*[@id='archives-wrapper']/артикль/div/div[2]/p[1]/a”)

URL-ссылка

=IMPORTXML(“https://www.searchenginejournal.com/category/paid-media/pay-per-click/”, “//*[@id='archives-wrapper']/статья/div/div[2]/h2/a/@href”)

<сильный>Описание

=IMPORTXML(“https://www.searchenginejournal.com/category/paid-media/pay-per-click/”, “//*[@id='archives-wrapper']/артикль/div/div[2]/p[2]”) <п>В кратчайшие сроки мы смогли извлечь данные в электронную таблицу.

How To Use Google Sheets For Web Scraping With AI

Снимок экрана из Google Sheets, февраль 2024 г.

Кроме того, используя простые вложенные формулы, мы можем быстро получать данные с нескольких страниц одновременно.

В приведенном ниже примере мне удалось извлечь одни и те же данные, относящиеся к каждой статье (название, автор, URL-ссылка и описание) для первых 10 страниц раздела PPC.

В результате всего менее чем за минуту было собрано 300 статей!

How To Use Google Sheets For Web Scraping With AI

Снимок экрана из Google Таблиц, февраль 2024 г.

Сравнение двух

<стр>Итак, как сравнить ChatGPT и ChatGPT + Google Sheets IMPORTXML?

<п>По моему опыту, я не смог найти простой и быстрый способ использовать ChatGPT для сбора данных, которые я искал – – заметьте, это не значит, что это невозможно, и может быть несколько способов сделать это, но я не нашел ни одного.

Что мне помогло, так это комбинация различных инструментов, и это очень хорошо послужило мне для моей намеченной цели.

ChatGPT был чрезвычайно полезен для написания формул IMPORTXML, которые мне нужно было использовать в Google Sheets, и эти формулы сделали все остальное.

Дополнительным бонусом опции ChatGPT + Google Sheets является то, что вы можете просто использовать бесплатную версию ChatGPT 3.5 и получить инструмент для создания формул IMPORTXML вместо версии 4 для сканирования страницы и извлечения. данные.

<ч2>Ключевые выводы <стр>Это подчеркивает важнейший аспект того, как ИИ изменил наше мышление и работу.

Лучший инструмент для работы — это не просто использование искусственного интеллекта, Google Sheets или какого-либо конкретного программного обеспечения, а скорее комбинация инструментов и навыков.

Именно благодаря этому комплексному подходу мы разрабатываем эффективные и действенные рабочие процессы, тем самым повышая нашу общую производительность.

Back To Top