PR

Internet Archive クローラーのrobots.txt による拒否や調整

最近、*.us.archive.org からのアクセスが多くなってきたので、robots.txt を調整することにした。

スポンサードリンク

何かと思って調べてみると、「サムネイル・キャプチャ作成サービス – ロボ避けとアクセス制限のための覚え書き – livedoor Wiki(ウィキ)」によれば、Internet Archive というものらしい。

GIGAZINE には、次のように書かれている:

インターネットアーカイブが目標としているのは「すべての知識への普遍的なアクセス」。本をデジタル化し、映像や音楽、ウェブサイトを集め、これらへ誰でも無料でアクセスできる環境を提供している(「全知識への普遍的なアクセスを目指す「Internet Archive」が寄付を募集中 – GIGAZINE」より引用)

Wikipedia には、次のように書かれている:

インターネット・アーカイブ(Internet Archive)は、Web・マルチメディア資料のアーカイブを運営している団体(中略)ある時点において収集されたウェブページのコピー(ウェブアーカイブ)や、ソフトウェア・映画・本・録音データ(バンド等の許可によるライブ公演の録音も含む)などがある。アーカイブは、その資料を無償で研究者や歴史家などに提供している(「インターネット・アーカイブ – Wikipedia」より引用)

アクセスの調整

User-agent: ia_archiver
Crawl-Delay: 20

アクセスの拒否

robots.txt による拒否

User-agent: ia_archiver
Disallow: /

(「真があって運の尽き: Internet Archiveのサイト削除方法」より引用)

.htaccess による拒否

deny from 207.241.224.0/20

(「サムネイル・キャプチャ作成サービス – ロボ避けとアクセス制限のための覚え書き – livedoor Wiki(ウィキ)」より引用)

コメント