robots.txt

 

非常に単純な形式の robots.txt ファイルでは、次の 2 つのルールを使用します。
  • User-agent: 以降のルールを適用するロボット
  • Disallow: ブロックする URL 
この 2 行でファイルの 1 エントリとみなされます。含めるエントリの数に制限はありません。1 つのエントリに複数の Disallow 行と複数の User-agent 行を含めることができます。
 
robots.txt ファイルの各セクションは独立しており、先行のセクションには依存しません。次に例を示します。
 
User-agent: *
Disallow: /folder1/
 
User-Agent: Googlebot
Disallow: /folder2/
この例では、/folder2/ に一致する URL のみが Googlebot でブロックされます。
 
ユーザー エージェントとロボット
ユーザー エージェントとは、個々の検索エンジン ロボットのことです。ウェブ ロボット データベースには一般的なロボットがリストされています。名前を入力して特定のロボットに適用するようエントリを設定したり、アスタリスク「*」を入力してすべてのロボットに適用するように設定できます。すべてのロボットに適用するエントリは、次のように記述します。
 
User-agent: *
Google では、複数の異なるロボット(ユーザー エージェント)を使用します。Google のウェブ検索で使用するロボットは Googlebot です。Googlebot-Mobile や Googlebot-Image のような他のロボットは、Googlebot 用に設定したルールに従いますが、これらのロボット専用にルールを設定することもできます。 
 
ユーザー エージェントのブロック
Disallow 行にはブロックするページをリストします。特定の URL またはパターンを入力できます。エントリはスラッシュ「/」で始める必要があります。
 
  • サイト全体をブロックするには、スラッシュのみを入力します。 
    Disallow: /
  • ディレクトリとそのコンテンツをすべてブロックするには、ディレクトリ名の後にスラッシュを入力します。
    Disallow: /junk-directory/
  • 個々のページをブロックするには、そのページをリストします。
    Disallow: /private_file.html
  • Google 画像検索から特定の画像を削除するには、次の記述を追加します:
    User-agent: Googlebot-Image
    Disallow: /images/dogs.jpg
  • Google 画像検索からサイトのすべての画像を削除するには、次のように記述します:
    User-agent: Googlebot-Image
    Disallow: /
  • 特定の種類のファイル(例: .gif ファイル)をブロックするには、次のように記述します。
    User-agent: Googlebot
    Disallow: /*.gif$
  • サイトのページに AdSense 広告を表示する一方で、クロールをブロックするには、Mediapartners-Google 以外のすべてのロボットを許可しないようにします。これによって、ページは検索結果に表示されなくなりますが、表示広告の決定に使用される Mediapartners-Google ロボットによるページ分析を許可できます。Mediapartners-Google ロボットは、他の Google ユーザー エージェントとページを共有しません。次に例を示します。
    User-agent: *
    Disallow: /

    User-agent: Mediapartners-Google
    Allow: /

ディレクティブは大文字と小文字を区別します。たとえば、Disallow: /junk_file.asp は http://www.example.com/junk_file.asp をブロックしますが http://www.example.com/Junk_file.asp はブロックしません。Googlebot では、robots.txt の中の空白(特に空行)と不明なディレクティブは無視されます。

Googlebot は、robots.txt ファイルによるサイトマップ ファイルの送信(英語)をサポートしています。 

パターン一致

Googlebot では、パターン一致をある程度認識します(認識しない検索エンジンもあります)。
  • 文字列に一致させるには、アスタリスク(*)を使用します。たとえば、private で始まるすべてのサブディレクトリへのアクセスをブロックするには、次のように記述します。 

    User-agent: Googlebot
    Disallow: /private*/
     

  • 疑問符(?)を含むすべての URL へのアクセスをブロックするには、次のように記述します(具体的には、ドメイン名の後に文字列と疑問符が続き、その後に文字列が続く URL です)。 

    User-agent: Googlebot
    Disallow: /*?
     

  • URL の末尾に一致させるには、$ を使用します。たとえば、.xls で終わるすべての URL をブロックするには、次のように記述します。

    User-agent: Googlebot
    Disallow: /*.xls$

    このパターン一致を Allow コマンドと組み合わせて使用できます。たとえば、「?」がセッション ID を表す場合、重複するページを Googlebot がクロールしないよう、セッション ID を含むすべての URL を除外できます。ただし、? で終わる URL がクロールを希望するページのパターンの場合があります。この場合は、robots.txt ファイルを次のように設定します。 

    User-agent: *
    Allow: /*?$
    Disallow: /*?

    Disallow:/ *? コマンドは ? を含む URL(具体的には、ドメイン名の後に文字列と疑問符が続き、その後に文字列が続く URL)をブロックします。
    Allow: /*?$ コマンドは ? で終わる URL(具体的には、ドメイン名の後に文字列が続き、? で終わる URL)を許可します。

 
This entry was posted in 未分類. Bookmark the permalink.

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

*

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>