Seo

So verwenden Sie Google Sheets für Web Scraping mit KI

Das Scrapen von Daten aus Webseiten ist eine relativ anspruchsvolle Aufgabe, die bis vor Kurzem ein gewisses Maß an technischem Geschick erforderte. Die Idee, sich für die Datenextraktion mit Code oder Skripten zu befassen, schien für viele, mich eingeschlossen, überwältigend.

Data Scraping kann viele SEO-Aufgaben unterstützen, wie z. B. Audits, Konkurrenzanalysen und die Untersuchung von Website- und Datenstrukturen.

Google Sheets bietet einfache Lösungen, die dabei helfen.

Eine dieser Lösungen ist die IMPORTXML-Funktion, die es Benutzern ermöglicht, Webseitendaten mit nur wenigen Parametern zu extrahieren. Es macht die Datenextraktion einem breiteren Publikum zugänglich, insbesondere denjenigen, die sich mit Programmiersprachen nicht so gut auskennen.

Obwohl diese Funktion beeindruckend ist, kam der eigentliche Durchbruch mit der Einführung und Integration generativer KI in den Mix.

In diesem Leitfaden zeigen wir Ihnen, wie Sie Google Sheets und KI, insbesondere ChatGPT, für Web Scraping verwenden, ohne dass fortgeschrittene Programmierkenntnisse erforderlich sind.

Die Tools: KI und Chatbots

Mittlerweile kennen wir alle KI, ChatGPT und ähnliche Chatbots.

Tatsächlich verwenden viele von uns Lösungen wie ChatGPT, um eigenen Code, Skripte und Programme zu schreiben, ohne oder mit sehr begrenzten Programmierkenntnissen.

Es ist so einfach, detaillierte Anweisungen in Form von Eingabeaufforderungen bereitzustellen und mit dem Chatbot zusammenzuarbeiten, um Tools zu entwickeln, von denen wir bis vor Kurzem noch glaubten, dass sie uns weit überlegen wären.

Vor allem aber sind es Werkzeuge, die die Art und Weise, wie wir unsere tägliche Arbeit angehen, tiefgreifend verändern.

Wenn wir ChatGPT beispielsweise die folgende Frage stellen: „Was ist die IMPORTXML-Funktion und wie kann ich sie in Google Sheets verwenden, um den Titel einer HTML-Webseite zu extrahieren?“ Stellen Sie den dafür erforderlichen Code in Google Sheets bereit“, ist die Antwort äußerst zutreffend. In Sekundenschnelle haben wir unsere Formel zur Verwendung in Google Sheets bereit.

Aber um ehrlich zu sein, war das eine sehr einfache und einfache Aufgabe, die wir ohne ChatGPT problemlos hätten erledigen können.

Die Aufgabe

Wie funktioniert das also, wenn wir Daten extrahieren möchten, die im Vergleich zu einem Seitentitel oder einer Seitenbeschreibung etwas weniger Standard sind?

Wie funktioniert das beispielsweise, wenn wir die folgenden Daten aus der PPC-Titelseite des Search Engine Journal extrahieren möchten?

Listen Sie alle vorgestellten Artikel, ihre Autoren, die Link-URLs und die Artikelbeschreibung für die auf https://www.searchenginejournal.com/category/paid-media/pay-per-click/ aufgeführten Spalten auf.

Können wir das direkt mit ChatGPT machen?

Ausführen mit ChatGPT

Beim Erstellen von Eingabeaufforderungen waren einige Versuche erforderlich, um Anweisungen bereitzustellen, die detailliert genug waren, damit der Chatbot das Ziel der Aufgabe vollständig verstehen und gute Ergebnisse liefern konnte.

In vielen Fällen hatte man den Eindruck, dass die KI unter Druck stand, trotz ihrer Genauigkeit schnelle Ergebnisse zu liefern.

Aber lassen Sie es mich erklären.

Die Aufgabe bestand darin, die Seite zu analysieren und alle vorgestellten Artikel, ihre Autoren, die Link-URLs und die Beschreibung für jeden der 30 auf der Seite aufgeführten Artikel aufzulisten. Anschließend stellen Sie die Daten in einer Tabelle zusammen und exportieren sie schließlich in eine CSV-Datei.

Einfach, oder?

Zunächst gab ChatGPT nur eine Stichprobe von sieben Artikeln und nur deren Titel und URLs zurück; Nach einer überarbeiteten Eingabeaufforderung gelang es, alle 30 Artikel und ihre Links aufzulisten und zu exportieren.

Das war gut. Um die Aufgabe abzuschließen, mussten wir lediglich die Autoren und die Artikelbeschreibungen hinzufügen.

Aber hier stolperte der Bot und konnte keine genaue Beschreibung jedes Artikels liefern, obwohl wir Beispiele für das Seitenelement bereitgestellt hatten, das er finden und kopieren musste.

ChatGPT ignorierte die Anweisungen immer wieder und lieferte immer wieder eigene Artikelbeschreibungen.

ChatGPT schlug sogar fehl, als wir es mit einem anderen Ansatz versuchten und eine Kopie des Seiten-HTML herunterluden und hochluden.

” alt=”ChatGPT-Extrakt” width=”760″ height=”652″ srcset=”” src=”https://behmaster.com/wp-content/uploads/2024/03/localimages/20240217-01-65cebbb8d4013-sej-768×659.png” class=” b-lazy pcimg”>Screenshot von ChatGPT, Februar 2024

Dieses Mal konnten genaue Daten für sieben Artikel bereitgestellt werden, darüber hinaus kam es jedoch nicht. Das Problem wurde gemeldet:

„…die Struktur und der Inhalt der Seite stellen erhebliche Herausforderungen für die umfassende Datenextraktion in einer einzigen Sitzung dar.“

Die Seite ist recht umfangreich und komplex, und es ist im aktuellen Interaktionsformat nicht möglich, alle 30 Artikel zu extrahieren.“

” alt=”ChatGPT extrahiert aus 30 Artikeln” width=”760″ height=”483″ srcset=”” src=”https://behmaster.com/wp-content/uploads/2024/03/localimages/20240217-02-65cebbbf26016-sej-768×488.png” class=” b-lazy pcimg”>Screenshot von ChatGPT, Februar 2024

ChatGPT Google Sheets

Also zurück zu IMPORTXML und Google Sheets.

Dieses Mal war es ein Kinderspiel, ChatGPT dazu zu bringen, die Formeln für jedes Feld bereitzustellen.

” alt=” Anweisungen zum Extrahieren von ChatGPT” width=”760″ height=”484″ srcset=”” src=”https://behmaster.com/wp-content/uploads/2024/03/localimages/20240217-03-65cebbc440ad2-sej-768×489.png” class=” b-lazy pcimg”>Screenshot von ChatGPT, Februar 2024

Hier sind einige der vom Chatbot vorgeschlagenen Formeln, die Sie ganz einfach selbst in Google Sheets extrahieren können:

Titel

=IMPORTXML("https://www.searchenginejournal.com/category/paid-media/pay-per-click/", "//*[@id='archives-wrapper']/article/div/div[2]/h2/a")

Autorenname

=IMPORTXML("https://www.searchenginejournal.com/category/paid-media/pay-per-click/", "//*[@id='archives-wrapper']/article/div/div[2]/p[1]/a")

URL-Link

=IMPORTXML("https://www.searchenginejournal.com/category/paid-media/pay-per-click/", "//*[@id='archives-wrapper']/article/div/div[2]/h2/a/@href")

Beschreibung

=IMPORTXML("https://www.searchenginejournal.com/category/paid-media/pay-per-click/", "//*[@id='archives-wrapper']/article/div/div[2]/p[2]")

Im Handumdrehen konnten wir die Daten in die Tabelle extrahieren.

” alt=”Google Sheets” width=”760″ height=”371″ srcset=”” src=”https://behmaster.com/wp-content/uploads/2024/03/localimages/20240217-04-65cebcf934c6b-sej-768×375.png” class=” b-lazy pcimg”>Screenshot aus Google Sheets, Februar 2024

Darüber hinaus können wir durch die Verwendung einfach aufgebauter verschachtelter Formeln schnell die Daten von mehreren Seiten gleichzeitig abrufen.

Im folgenden Beispiel konnte ich für die ersten 10 Seiten des PPC-Abschnitts dieselben Daten zu jedem Artikel (Titel, Autor, URL-Link und Beschreibung) extrahieren.

Das Ergebnis sind insgesamt 300 gescrollte Artikel in weniger als einer Minute!

” alt=”Ergebnisse aus Google Sheets extrahieren” width=”760″ height=”371″ srcset=”” src=”https://behmaster.com/wp-content/uploads/2024/03/localimages/20240217-05-65cebd05637cc-sej-768×375.png” class=” b-lazy pcimg”>Screenshot aus Google Sheets, Februar 2024

Vergleich der beiden

Wie vergleichen sich also ChatGPT mit ChatGPT Google Sheets IMPORTXML?

Meiner Erfahrung nach konnte ich keine einfache und schnelle Möglichkeit finden, mit ChatGPT die gesuchten Daten zu extrahieren – das bedeutet allerdings nicht, dass dies nicht möglich ist, und es gibt möglicherweise mehrere Möglichkeiten, dies zu tun, aber Ich habe keine gefunden.

Was für mich funktionierte, war eine Kombination der verschiedenen Tools, und das hat mir für meinen beabsichtigten Zweck wirklich gute Dienste geleistet.

ChatGPT war äußerst nützlich für das Schreiben der IMPORTXML-Formeln, die ich in Google Sheets verwenden musste, und diese Formeln erledigten den Rest.

Ein zusätzlicher Bonus der Option ChatGPT Google Sheets besteht darin, dass Sie einfach die kostenlose Version 3.5 von ChatGPT verwenden und das Tool zum Erstellen Ihrer IMPORTXML-Formeln erhalten können, anstatt Version 4 zum Scannen der Seite und Extrahieren der Daten zu verwenden.

Schlüssel zum Mitnehmen

Dies unterstreicht einen entscheidenden Aspekt, wie KI unser Denken und Arbeiten verändert hat.

Das beste Werkzeug für diese Aufgabe ist nicht nur die alleinige Verwendung von KI, Google Sheets oder einer bestimmten Software, sondern eine Kombination aus Werkzeugen und Fähigkeiten.

Mit diesem integrierten Ansatz entwickeln wir effiziente und effektive Arbeitsabläufe und verbessern so unsere Gesamtproduktivität.

Mehr Ressourcen:

  • Probieren Sie diese Tools und Methoden zum Exportieren von Google-Suchergebnissen nach Excel aus
  • SEO für Anfänger: Eine Einführung in die SEO-Grundlagen
  • PPC-Trends 2024

Ausgewähltes Bild: Visual Generation/Shutterstock

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button