<стр>Научитесь использовать Google Sheets для парсинга веб-страниц и интегрируйте инструменты искусственного интеллекта для инновационных стратегий и успеха на основе данных.стр>
<п>Извлечение данных с веб-страниц — относительно сложная задача, которая до недавнего времени требовала определенных технических навыков. Идея погрузиться в код или скрипты для извлечения данных многим показалась ошеломляющей, в том числе и мне.
<стр>Сбор данных может помочь во многих задачах SEO, таких как аудит, анализ конкурентов, изучение веб-сайта и структуры данных.стр> <стр>Google Таблицы предлагают простые решения.стр>
Одним из таких решений является функция IMPORTXML, которая позволяет пользователям собирать данные веб-страницы, используя всего несколько параметров. Это делает извлечение данных доступным для более широкой аудитории, особенно для тех, кто плохо разбирается в языках программирования.
<п>Хотя эта функция впечатляет, настоящий прорыв произошел с внедрением и интеграцией генеративного искусственного интеллекта.
В этом руководстве мы покажем вам, как использовать Google Таблицы и искусственный интеллект, в частности ChatGPT, для парсинга веб-страниц без необходимости продвинутых навыков программирования.
Инструменты: искусственный интеллект и чат-боты
Теперь мы все знакомы с AI, ChatGPT и подобными чат-ботами.
На самом деле, многие из нас используют такие решения, как ChatGPT, для написания собственного кода, скриптов и программ без или с очень ограниченными знаниями в области программирования.
<стр>Это так же просто, как предоставить подробные инструкции в виде подсказок и работать с чат-ботом над созданием инструментов, которые еще совсем недавно считались намного превосходящими наши возможности.стр> <стр>Но самое главное, это инструменты, которые глубоко меняют наш подход к повседневной работе.стр>
Например, если мы зададим ChatGPT следующий вопрос: “Что такое функция IMPORTXML и как я могу использовать ее в Google Sheets для очистки заголовка веб-страницы HTML? Укажите необходимые код для этого в Google Таблицах” ответ очень точный. Через несколько секунд наша формула будет готова к использованию в Google Таблицах.
Но, честно говоря, это была очень простая и простая задача, которую мы могли бы легко выполнить без ChatGPT.
<ч2>Заданиеч2>
Итак, как это работает, если мы хотим извлечь данные, которые немного менее стандартны по сравнению с заголовком или описанием страницы?
Например, как это будет работать, если мы хотим извлечь следующие данные с главной страницы PPC журнала поисковой системы?
Перечислите все избранные статьи, их авторов, URL-адреса ссылок и описание статей для столбцов, перечисленных на https://www.searchenginejournal.com/category/paid-media. /оплата за клик/.
Можем ли мы сделать это напрямую с помощью ChatGPT?
<х2>Выполнение с помощью ChatGPT
При создании подсказок потребовалось несколько попыток предоставить инструкции, которые были достаточно подробными, чтобы чат-бот мог полностью понять цель задачи и получить хорошие результаты.
Во многих случаях казалось, что ИИ был вынужден выдавать быстрые результаты, несмотря на их точность.
<п>Но позвольте мне объяснить.п> <п>Задача заключалась в том, чтобы проанализировать страницу и составить список всех избранных статей, их авторов, URL-адресов ссылок и описания каждой из 30 статей, перечисленных на странице. Затем скомпилируйте данные в таблицу и, наконец, экспортируйте ее в файл CSV.
Простой правый?
Сначала ChatGPT вернул только образец из семи статей и только их заголовки и URL-адреса; после переработанной подсказки удалось вывести список и экспортировать все 30 статей и их ссылки.
Вот это было хорошо. Итак, для выполнения задачи нам просто нужно было добавить авторов и описания статей.
Но здесь бот споткнулся и не смог предоставить точное описание каждой статьи, несмотря на то, что мы предоставили примеры элементов страницы, которые ему нужно было найти и скопировать.
ChatGPT продолжал игнорировать инструкции и снова и снова предоставлял собственные описания статей.
ChatGPT даже не удался, когда мы попробовали другой подход и загрузили копию HTML-страницы.
Снимок экрана из ChatGPT, февраль 2024 г.
На этот раз он смог предоставить точные данные для семи статей, но не смог пройти мимо этого. О проблеме сообщили:
<блоковая цитата><п>“…структура и содержание страницы создают серьезные проблемы для комплексного извлечения данных за один сеанс.
Страница довольно обширная и сложная, и извлечь все 30 статей в текущем формате взаимодействия не представляется возможным.”
< /blockquote>
Скриншот из ChatGPT, февраль 2024 г.
ChatGPT + Google Таблицы
<стр>Итак, возвращаемся к IMPORTXML и Google Sheets.
На этот раз заставить ChatGPT предоставить формулы для каждого поля было проще простого.
Снимок экрана из ChatGPT, февраль 2024 г.
Вот некоторые формулы, предложенные чат-ботом, которые вы можете легко извлечь самостоятельно в Google Таблицах:
<п><сильный>Названиесильный>п>
=IMPORTXML(“https://www.searchenginejournal.com/category/paid-media/pay-per-click/”, “//*[@id='archives-wrapper']/статья/div/div[2]/h2/a”)
Имя автора
=IMPORTXML(“https://www.searchenginejournal.com/category/paid-media/pay-per-click/”, “//*[@id='archives-wrapper']/артикль/div/div[2]/p[1]/a”)
URL-ссылка
=IMPORTXML(“https://www.searchenginejournal.com/category/paid-media/pay-per-click/”, “//*[@id='archives-wrapper']/статья/div/div[2]/h2/a/@href”)
<сильный>Описаниесильный>
=IMPORTXML(“https://www.searchenginejournal.com/category/paid-media/pay-per-click/”, “//*[@id='archives-wrapper']/артикль/div/div[2]/p[2]”) <п>В кратчайшие сроки мы смогли извлечь данные в электронную таблицу.
Снимок экрана из Google Sheets, февраль 2024 г.
Кроме того, используя простые вложенные формулы, мы можем быстро получать данные с нескольких страниц одновременно.
В приведенном ниже примере мне удалось извлечь одни и те же данные, относящиеся к каждой статье (название, автор, URL-ссылка и описание) для первых 10 страниц раздела PPC.
В результате всего менее чем за минуту было собрано 300 статей!
Снимок экрана из Google Таблиц, февраль 2024 г.
Сравнение двух
<стр>Итак, как сравнить ChatGPT и ChatGPT + Google Sheets IMPORTXML?
<п>По моему опыту, я не смог найти простой и быстрый способ использовать ChatGPT для сбора данных, которые я искал – – заметьте, это не значит, что это невозможно, и может быть несколько способов сделать это, но я не нашел ни одного.
Что мне помогло, так это комбинация различных инструментов, и это очень хорошо послужило мне для моей намеченной цели.
ChatGPT был чрезвычайно полезен для написания формул IMPORTXML, которые мне нужно было использовать в Google Sheets, и эти формулы сделали все остальное.
Дополнительным бонусом опции ChatGPT + Google Sheets является то, что вы можете просто использовать бесплатную версию ChatGPT 3.5 и получить инструмент для создания формул IMPORTXML вместо версии 4 для сканирования страницы и извлечения. данные.
<ч2>Ключевые выводыч2> <стр>Это подчеркивает важнейший аспект того, как ИИ изменил наше мышление и работу.стр>
Лучший инструмент для работы — это не просто использование искусственного интеллекта, Google Sheets или какого-либо конкретного программного обеспечения, а скорее комбинация инструментов и навыков.
Именно благодаря этому комплексному подходу мы разрабатываем эффективные и действенные рабочие процессы, тем самым повышая нашу общую производительность.