PR

super-goo.com クローラーのrobots.txt による拒否や調整

最近、super-goo.com からのアクセスが多くなってきたので、robots.txt を調整することにした。

スポンサードリンク

super-goo.com はgoo のクローラー

以下によると、ケータイ用クローラーだそう:

携帯用botに補足されました。 ドメインはsuper-goo.comで、名前のとおりgooの巡回クローラーです。ドコモの公式サーチエンジンらしい(「サイバー サイバー:super-goo.com」より引用)

同様の内用が以下にも:

super-goo.com が日に、300~500件ほどアクセスしています。 (中略)調べると、goo社の携帯向け検索ロボットだとか(「super-goo.comからの不審なアクセス | WEBマスターの知恵ブログ」より引用)

ということでgoo を運営するNTT レゾナントを調べると、たしかにそのようだ:

「ichiro」は、NTTレゾナント株式会社が運用しているWebクローラの名称です(「クローラーとは – 検索ガイド – goo ウェブ検索」より引用)

同ページには複数のクローラー情報が公開されていた:

  • 「goo_vsearch」は、NTTレゾナント株式会社が運用しているWebクローラ
  • 「wakame」はNTTレゾナント株式会社が運用するデータ解析用Webクローラ
  • 「gooblogsearch」はNTTレゾナント株式会社が運用するブログ検索用Webクローラ
  • 「goo_wpa」は、NTTレゾナント株式会社が運用するデータ解析用Webクローラのうちのひとつ

また、アクセス制限されたサイト(おそらくモバイル専用という意味だろう)用にクローラー情報を公開していて、これらを受け入れるようにするとインデックスされるかもしれない:

モバイルgooでは、アクセス制限等を行っている携帯サイトでも、アクセス許可の設定を行えば、ロボットが巡回しサイト情報を取得できるよう、IPアドレスの帯域情報とユーザーエージェントの情報を公開します(「クローラーとは – 検索ガイド – goo ウェブ検索」より引用)

アクセスの調整

User-agent: ichiro
Crawl-Delay: 20

アクセスの拒否

robots.txt による拒否

User-agent: ichiro
Disallow: /

.htaccess による拒否

deny from 203.131.248.0/21
deny from 210.173.180.0/24
deny from 218.213.0.0/16

クローラー情報については「ロボット(国内) – ロボ避けとアクセス制限のための覚え書き – livedoor Wiki(ウィキ)」も詳しい。

コメント

  1. @urarai より:

    [*web制作] / “http://t.co/cDkBzvNk » http://t.co/x9PGNrgj クローラーのrobots.txt による拒否や調整” http://t.co/kc0kbNBD

  2. @mypacecreator より:

    みてる → http://t.co/vQikYX11Sn クローラーのrobots.txt による拒否や調整 http://t.co/3pauXMnEJJ