Robots.txt ファイルとは何ですか? SEO 用のロボットファイルの作成、送信、再クロールに必要なものすべて

Douglas Karr

2023 年 11 月 24 日

について包括的な記事を書きました検索エンジンが Web サイトを検索、クロール、インデックス付けする方法。そのプロセスの基礎となるステップは、 robots.txt ファイルは、検索エンジンがサイトをクロールするためのゲートウェイです。 robots.txt ファイルを適切に構築する方法を理解することは、検索エンジンの最適化において不可欠です (SEO).

このシンプルかつ強力なツールは、ウェブマスターが検索エンジンとウェブサイトのやり取りを制御するのに役立ちます。 robots.txt ファイルを理解し効果的に活用することは、Web サイトの効率的なインデックス作成と検索エンジンの結果での最適な表示を確保するために不可欠です。

Robots.txt ファイルとは何ですか?

robots.txt ファイルは、Web サイトのルートディレクトリにあるテキストファイルです。その主な目的は、サイトのどの部分をクロールしてインデックスを作成すべきか、またはすべきではないかについて、検索エンジンクローラーをガイドすることです。このファイルはロボット排除プロトコル (REP)、Web クローラーや他の Web ロボットと通信するために Web サイトが使用する標準。

REP は公式のインターネット標準ではありませんが、主要な検索エンジンで広く受け入れられ、サポートされています。受け入れられた標準に最も近いのは、Google、Bing、Yandex などの主要な検索エンジンのドキュメントです。詳細については、次のサイトを参照してください。 Google の Robots.txt 仕様推奨されています。

Robots.txt が SEO にとって重要なのはなぜですか?

制御されたクロール: Robots.txt を使用すると、Web サイトの所有者は、検索エンジンがサイトの特定のセクションにアクセスするのを防ぐことができます。これは、重複したコンテンツ、プライベート領域、または機密情報を含むセクションを除外する場合に特に役立ちます。
最適化されたクロールバジェット: 検索エンジンは、Web サイトごとにクロールバジェット、つまり検索エンジンボットがサイト上でクロールするページの数を割り当てます。 robots.txt は、無関係なセクションや重要性の低いセクションを禁止することで、このクロールバジェットを最適化し、より重要なページがクロールされ、インデックスが作成されるようにします。
ウェブサイトの読み込み時間の改善: robots.txt は、重要でないリソースへのボットのアクセスを防ぐことでサーバーの負荷を軽減し、SEO の重要な要素であるサイトの読み込み時間を改善できる可能性があります。
非公開ページのインデックス作成の防止: これにより、非公開領域 (ステージングサイトや開発領域など) がインデックスに登録され、検索結果に表示されないようにすることができます。

Robots.txt の必須コマンドとその使用法

許可： このディレクティブは、サイトのどのページまたはセクションにクローラーがアクセスするかを指定するために使用されます。たとえば、Web サイトに SEO に特に関連するセクションがある場合、「許可」コマンドを使用すると、そのセクションが確実にクロールされるようになります。

Allow: /public/

許可しません： このコマンドは、「許可」の逆で、Web サイトの特定の部分をクロールしないよう検索エンジンボットに指示します。これは、ログインページやスクリプトファイルなど、SEO の価値がないページに役立ちます。

Disallow: /private/

ワイルドカード： パターンマッチングにはワイルドカードが使用されます。アスタリスク (*) は一連の文字を表し、ドル記号 ($) は URL の終わりを示します。これらは、広範囲の URL を指定する場合に便利です。

Disallow: /*.pdf$

サイトマップ： robots.txt にサイトマップの場所を含めると、検索エンジンがサイト上のすべての重要なページを見つけてクロールできるようになります。これは、サイトのインデックス作成をより迅速かつ完全に行うのに役立つため、SEO にとって非常に重要です。

Sitemap: https://martech.zone/sitemap_index.xml

Robots.txt の追加コマンドとその使用法

ユーザーエージェント ルールを適用するクローラを指定します。「User-agent: *」はルールをすべてのクローラに適用します。例：

User-agent: Googlebot

インデックスなし: 標準の robots.txt プロトコルの一部ではありませんが、一部の検索エンジンは NOINDEX robots.txt 内のディレクティブを、指定された URL にインデックスを付けないように指示します。

Noindex: /non-public-page/

クロール遅延: このコマンドは、サーバーへのヒットの間に特定の時間待機するようにクローラに要求します。これは、サーバー負荷の問題があるサイトに役立ちます。

Crawl-delay: 10

robots.txt ファイルをテストする方法

埋もれているのに Google検索コンソール、サーチコンソールにはrobots.txtファイルテスターが用意されています。

右側の XNUMX つの点をクリックして、Robots.txt ファイルを再送信することもできます。 再クロールをリクエストする.

Robots.txt ファイルをテストまたは再送信する

Robots.txt ファイルを AI ボットの制御に使用できますか?

robots.txt ファイルを使用して、次のことを定義できます。 AI Web クローラーやその他の自動ボットを含むボットは、サイト上のコンテンツをクロールしたり利用したりできます。このファイルはこれらのボットをガイドし、Web サイトのどの部分へのアクセスを許可するか、または禁止するかを示します。 AI ボットの動作を制御する robots.txt の有効性は、いくつかの要因によって決まります。

プロトコルの遵守: 最も評判の高い検索エンジンクローラーや他の多くの AI ボットは、以下に設定されたルールを尊重します。

robots.txt。ただし、このファイルは強制的な制限というよりも要求であることに注意することが重要です。ボットは、これらのリクエスト、特に悪質なエンティティによって運営されているリクエストを無視する可能性があります。
指示の具体性: ボットごとに異なる命令を指定できます。たとえば、特定の AI ボットにサイトのクロールを許可し、他の AI ボットには禁止することができます。これは、 User-agent のディレクティブ robots.txt 上記のファイルの例。例えば、 User-agent: Googlebot Google のクローラへの指示を指定しますが、 User-agent: * すべてのボットに適用されます。
制限事項： 一方、 robots.txt ボットが指定されたコンテンツをクロールできないようにすることができます。すでに知っている場合は、コンテンツを隠すことはありません。 URL。さらに、クロールされたコンテンツの使用を制限する手段は提供されません。コンテンツの保護や特定の使用制限が必要な場合は、パスワード保護やより高度なアクセス制御メカニズムなどの他の方法が必要になる場合があります。
ボットの種類: すべての AI ボットが検索エンジンに関連しているわけではありません。さまざまなボットがさまざまな目的 (データ集約、分析、コンテンツスクレイピングなど) に使用されます。 robots.txt ファイルは、REP に準拠している限り、これらのさまざまな種類のボットのアクセスを管理するために使用することもできます。

　 robots.txt ファイルは、AI ボットによるサイトコンテンツのクロールと利用に関する設定を通知するための効果的なツールです。ただし、その機能は厳密なアクセス制御を強制するのではなく、ガイドラインを提供することに限定されており、その有効性はボットがロボット排除プロトコルに準拠しているかどうかに依存します。

robots.txt ファイルは、SEO の武器の中で小さいながらも強力なツールです。正しく使用すると、Web サイトの可視性と検索エンジンのパフォーマンスに大きな影響を与える可能性があります。サイトのどの部分がクロールされインデックスに登録されるかを制御することで、ウェブマスターは最も価値のあるコンテンツを強調表示し、SEO の取り組みとウェブサイトのパフォーマンスを向上させることができます。