- User-agent: 以降のルールを適用するロボット
- Disallow: ブロックする URL
- サイト全体をブロックするには、スラッシュのみを入力します。
Disallow: / - ディレクトリとそのコンテンツをすべてブロックするには、ディレクトリ名の後にスラッシュを入力します。
Disallow: /junk-directory/ - 個々のページをブロックするには、そのページをリストします。
Disallow: /private_file.html - Google 画像検索から特定の画像を削除するには、次の記述を追加します:
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg - Google 画像検索からサイトのすべての画像を削除するには、次のように記述します:
User-agent: Googlebot-Image
Disallow: / - 特定の種類のファイル(例: .gif ファイル)をブロックするには、次のように記述します。
User-agent: Googlebot
Disallow: /*.gif$ - サイトのページに AdSense 広告を表示する一方で、クロールをブロックするには、Mediapartners-Google 以外のすべてのロボットを許可しないようにします。これによって、ページは検索結果に表示されなくなりますが、表示広告の決定に使用される Mediapartners-Google ロボットによるページ分析を許可できます。Mediapartners-Google ロボットは、他の Google ユーザー エージェントとページを共有しません。次に例を示します。
User-agent: *
Disallow: /User-agent: Mediapartners-Google
Allow: /
ディレクティブは大文字と小文字を区別します。たとえば、Disallow: /junk_file.asp は http://www.example.com/junk_file.asp をブロックしますが http://www.example.com/Junk_file.asp はブロックしません。Googlebot では、robots.txt の中の空白(特に空行)と不明なディレクティブは無視されます。
Googlebot は、robots.txt ファイルによるサイトマップ ファイルの送信(英語)をサポートしています。
パターン一致
- 文字列に一致させるには、アスタリスク(*)を使用します。たとえば、private で始まるすべてのサブディレクトリへのアクセスをブロックするには、次のように記述します。
User-agent: Googlebot
Disallow: /private*/
- 疑問符(?)を含むすべての URL へのアクセスをブロックするには、次のように記述します(具体的には、ドメイン名の後に文字列と疑問符が続き、その後に文字列が続く URL です)。
User-agent: Googlebot
Disallow: /*?
- URL の末尾に一致させるには、$ を使用します。たとえば、.xls で終わるすべての URL をブロックするには、次のように記述します。
User-agent: Googlebot
Disallow: /*.xls$このパターン一致を Allow コマンドと組み合わせて使用できます。たとえば、「?」がセッション ID を表す場合、重複するページを Googlebot がクロールしないよう、セッション ID を含むすべての URL を除外できます。ただし、? で終わる URL がクロールを希望するページのパターンの場合があります。この場合は、robots.txt ファイルを次のように設定します。
User-agent: *
Allow: /*?$
Disallow: /*?Disallow:/ *? コマンドは ? を含む URL(具体的には、ドメイン名の後に文字列と疑問符が続き、その後に文字列が続く URL)をブロックします。
Allow: /*?$ コマンドは ? で終わる URL(具体的には、ドメイン名の後に文字列が続き、? で終わる URL)を許可します。