Wie man eine große Site crawlt und Daten mit Screaming Frogs SEO Spider extrahiert

Schreiende Frog SEO Spider-
Lesezeit: 3 Minuten

Wir unterstützen derzeit mehrere Kunden bei Marketo-Migrationen. Da große Unternehmen solche Unternehmenslösungen einsetzen, ist dies wie ein Spinnennetz, das sich über Jahre hinweg in Prozesse und Plattformen einbindet - bis zu dem Punkt, an dem Unternehmen nicht einmal jeden Berührungspunkt kennen.

Bei einer Automatisierungsplattform für Unternehmensmarketing wie Marketo sind Formulare der Einstiegspunkt für Daten auf Websites und Zielseiten. Unternehmen haben häufig Tausende von Seiten und Hunderte von Formularen auf ihren Websites, die für die Aktualisierung identifiziert werden müssen.

Ein großartiges Werkzeug dafür ist Schreiende SEO Spinne des Frosches… Vielleicht die beliebteste Plattform auf dem Markt zum Crawlen, Prüfen und Extrahieren von Daten von einer Site. Die Plattform ist reich an Funktionen und bietet Hunderte von Optionen für praktisch jede Aufgabe, die Sie benötigen.

Screaming Frog SEO Spider: Kriechen und extrahieren

Ein wichtiges Merkmal von Screaming Frog SEO Spider ist, dass Sie benutzerdefinierte Extraktionen basierend auf durchführen können Regex, XPath, oder CSSPath Besonderheiten. Dies ist äußerst nützlich, da wir die Websites des Clients crawlen und die MunchkinID- und FormId-Werte von Seiten prüfen und erfassen möchten.

Öffnen Sie mit dem Werkzeug Konfiguration> Benutzerdefiniert> Extraktion um Elemente zu identifizieren, die Sie extrahieren möchten.

Schreifrosch benutzerdefinierte Extraktion

Der Extraktionsbildschirm ermöglicht eine praktisch unbegrenzte Datenerfassung:

Screaming Frog SEO Spinnenextraktionsregeln

Regex-, XPath- und CSSPath-Extraktion

Für die MunchkinID befindet sich der Bezeichner im Formularskript auf der Seite:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

Wir wenden dann eine an Regex-Regel So erfassen Sie die ID aus dem Skript-Tag, das in die Seite eingefügt wurde:

Regex: ["']id["']: *["'](.*?)["']

Für die Formular-ID befinden sich die Daten in einem Eingabe-Tag im Marketo-Formular:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

Wir wenden eine an XPath-Regel um die ID aus dem Formular zu erfassen, das in die Seite eingefügt wurde. Die XPath-Abfrage sucht nach einem Formular mit einer Eingabe mit dem Namen formid, dann speichert die Extraktion die Wert:

XPath: //form/input[@name="formid"]/@value

Schreiender Frosch SEO Spider Javascript Rendering

Eine weitere großartige Option von Screaming Frog ist, dass Sie nicht auf den HTML-Code auf der Seite beschränkt sind, sondern jedes JavaScript rendern können, das Formulare in Ihre Site einfügt. Innerhalb Konfiguration> Spinnekönnen Sie zur Registerkarte Rendern gehen und diese aktivieren.

Schreiender Frosch SEO Spider Javascript Rendering

Das Crawlen der Site dauert natürlich etwas länger, aber Sie erhalten Formulare, die von JavaScript clientseitig gerendert werden, sowie Formulare, die serverseitig eingefügt werden.

Dies ist zwar eine sehr spezifische Anwendung, aber unglaublich nützlich, wenn Sie mit großen Websites arbeiten. Sie sollten unbedingt prüfen, wo Ihre Formulare auf der gesamten Website eingebettet sind.

Laden Sie Screaming Frog SEO Spider herunter

Was denken Sie?

Diese Seite verwendet Akismet, um Spam zu reduzieren. Erfahren Sie, wie Ihre Kommentardaten verarbeitet werden.