robots.txt

非常に単純な形式の robots.txt ファイルでは、次の 2 つのルールを使用します。

User-agent: 以降のルールを適用するロボット
Disallow: ブロックする URL

この 2 行でファイルの 1 エントリとみなされます。含めるエントリの数に制限はありません。1 つのエントリに複数の Disallow 行と複数の User-agent 行を含めることができます。

robots.txt ファイルの各セクションは独立しており、先行のセクションには依存しません。次に例を示します。

User-agent: *

Disallow: /folder1/

User-Agent: Googlebot

Disallow: /folder2/

この例では、/folder2/ に一致する URL のみが Googlebot でブロックされます。

ユーザーエージェントとロボット

ユーザーエージェントとは、個々の検索エンジンロボットのことです。ウェブロボットデータベースには一般的なロボットがリストされています。名前を入力して特定のロボットに適用するようエントリを設定したり、アスタリスク「*」を入力してすべてのロボットに適用するように設定できます。すべてのロボットに適用するエントリは、次のように記述します。

User-agent: *

Google では、複数の異なるロボット（ユーザーエージェント）を使用します。Google のウェブ検索で使用するロボットは Googlebot です。Googlebot-Mobile や Googlebot-Image のような他のロボットは、Googlebot 用に設定したルールに従いますが、これらのロボット専用にルールを設定することもできます。

ユーザーエージェントのブロック

Disallow 行にはブロックするページをリストします。特定の URL またはパターンを入力できます。エントリはスラッシュ「/」で始める必要があります。

サイト全体をブロックするには、スラッシュのみを入力します。
Disallow: /
ディレクトリとそのコンテンツをすべてブロックするには、ディレクトリ名の後にスラッシュを入力します。
Disallow: /junk-directory/
個々のページをブロックするには、そのページをリストします。
Disallow: /private_file.html
Google 画像検索から特定の画像を削除するには、次の記述を追加します:
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
Google 画像検索からサイトのすべての画像を削除するには、次のように記述します:
User-agent: Googlebot-Image
Disallow: /
特定の種類のファイル（例: .gif ファイル）をブロックするには、次のように記述します。
User-agent: Googlebot
Disallow: /*.gif$
サイトのページに AdSense 広告を表示する一方で、クロールをブロックするには、Mediapartners-Google 以外のすべてのロボットを許可しないようにします。これによって、ページは検索結果に表示されなくなりますが、表示広告の決定に使用される Mediapartners-Google ロボットによるページ分析を許可できます。Mediapartners-Google ロボットは、他の Google ユーザーエージェントとページを共有しません。次に例を示します。
User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /

ディレクティブは大文字と小文字を区別します。たとえば、Disallow: /junk_file.asp は http://www.example.com/junk_file.asp をブロックしますが http://www.example.com/Junk_file.asp はブロックしません。Googlebot では、robots.txt の中の空白（特に空行）と不明なディレクティブは無視されます。

Googlebot は、robots.txt ファイルによるサイトマップファイルの送信（英語）をサポートしています。

パターン一致

Googlebot では、パターン一致をある程度認識します（認識しない検索エンジンもあります）。

文字列に一致させるには、アスタリスク（*）を使用します。たとえば、private で始まるすべてのサブディレクトリへのアクセスをブロックするには、次のように記述します。
User-agent: Googlebot
Disallow: /private*/
疑問符（?）を含むすべての URL へのアクセスをブロックするには、次のように記述します（具体的には、ドメイン名の後に文字列と疑問符が続き、その後に文字列が続く URL です）。
User-agent: Googlebot
Disallow: /*?
URL の末尾に一致させるには、$ を使用します。たとえば、.xls で終わるすべての URL をブロックするには、次のように記述します。
User-agent: Googlebot
Disallow: /*.xls$

このパターン一致を Allow コマンドと組み合わせて使用できます。たとえば、「?」がセッション ID を表す場合、重複するページを Googlebot がクロールしないよう、セッション ID を含むすべての URL を除外できます。ただし、? で終わる URL がクロールを希望するページのパターンの場合があります。この場合は、robots.txt ファイルを次のように設定します。

User-agent: *
Allow: /*?$
Disallow: /*?

Disallow:/ *? コマンドは ? を含む URL（具体的には、ドメイン名の後に文字列と疑問符が続き、その後に文字列が続く URL）をブロックします。
Allow: /*?$ コマンドは ? で終わる URL（具体的には、ドメイン名の後に文字列が続き、? で終わる URL）を許可します。

パターン一致

コメントを残すコメントをキャンセル

最近の投稿

アーカイブ

メタ情報

カテゴリー

robots.txt

パターン一致

コメントを残す コメントをキャンセル

最近の投稿

アーカイブ

メタ情報

カテゴリー

コメントを残すコメントをキャンセル