ScreamingFrogのSEOスパイダーを使用して大規模なサイトをクロールしてデータを抽出する方法

スクリーミングフロッグSEOスパイダー
読書の時間: 3

現在、複数のクライアントを支援しています Marketoの移行。 大企業はこのようなエンタープライズソリューションを利用しているため、企業がすべてのタッチポイントを認識しなくなるまで、何年にもわたってプロセスやプラットフォームに組み込まれるクモの巣のようなものです。

Marketoのようなエンタープライズマーケティングオートメーションプラットフォームでは、フォームはサイトやランディングページ全体のデータのエントリポイントです。 多くの場合、企業はサイト全体に数千のページと数百のフォームを持っており、更新のために識別する必要があります。

このための優れたツールは 叫ぶカエルのSEOスパイダー…おそらく、サイトからデータをクロール、監査、抽出するための市場で最も人気のあるプラットフォームです。 このプラットフォームは機能が豊富で、必要なほぼすべてのタスクに数百のオプションを提供します。

スクリーミングフロッグSEOスパイダー:クロールと抽出

Screaming Frog SEO Spiderの重要な機能は、に基づいてカスタム抽出を実行できることです。 正規表現, XPathまたは CSSPath 詳細。 これは、クライアントのサイトをクロールし、ページからMunchkinIDとFormIdの値を監査してキャプチャするために非常に役立ちます。

ツールを使用して、開きます 構成>カスタム>抽出 抽出したい要素を特定します。

screamingfrogカスタム抽出

抽出画面では、事実上無制限のデータ収集が可能です。

スクリーミングフロッグSEOスパイダー抽出ルール

正規表現、XPath、およびCSSPath抽出

MunchkinIDの場合、識別子はページ内のフォームスクリプト内にあります。

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

次に、 正規表現ルール ページに挿入されたスクリプトタグ内からIDをキャプチャするには:

Regex: ["']id["']: *["'](.*?)["']

フォームIDの場合、データはMarketoフォーム内の入力タグにあります。

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

適用します XPathルール ページに挿入されたフォーム内からIDをキャプチャします。 XPathクエリは、次の名前の入力を持つフォームを検索します フォルミッド、次に抽出により保存されます :

XPath: //form/input[@name="formid"]/@value

スクリーミングフロッグSEOスパイダーJavascriptレンダリング

Screaming FrogのもうXNUMXつの優れたオプションは、ページ内のHTMLに限定されず、サイト内にフォームを挿入するJavaScriptをレンダリングできることです。 以内に 構成>スパイダー、[レンダリング]タブに移動して、これを有効にすることができます。

スクリーミングフロッグSEOスパイダーJavascriptレンダリング

もちろん、これはサイトをクロールするのに少し時間がかかりますが、JavaScriptによってクライアント側でレンダリングされるフォームと、サーバー側で挿入されるフォームを取得します。

これは非常に特殊なアプリケーションですが、大規模なサイトで作業している場合は非常に便利です。 フォームがサイト全体のどこに埋め込まれているかを絶対に監査する必要があります。

Screaming Frog SEOSpiderをダウンロードする

どう思いますか?

このサイトはAkismetを使用して迷惑メールを減らします。 コメントの処理方法を学ぶ.