PR

Internet Archive クローラーのrobots.txt による拒否や調整

WEB

2012.07.232014.06.20

最近、*.us.archive.org からのアクセスが多くなってきたので、robots.txt を調整することにした。

スポンサードリンク

何かと思って調べてみると、「サムネイル・キャプチャ作成サービス – ロボ避けとアクセス制限のための覚え書き – livedoor Wiki（ウィキ）」によれば、Internet Archive というものらしい。

GIGAZINE には、次のように書かれている：

インターネットアーカイブが目標としているのは「すべての知識への普遍的なアクセス」。本をデジタル化し、映像や音楽、ウェブサイトを集め、これらへ誰でも無料でアクセスできる環境を提供している（「全知識への普遍的なアクセスを目指す「Internet Archive」が寄付を募集中 – GIGAZINE」より引用）

Wikipedia には、次のように書かれている：

インターネット・アーカイブ（Internet Archive）は、Web・マルチメディア資料のアーカイブを運営している団体（中略）ある時点において収集されたウェブページのコピー（ウェブアーカイブ）や、ソフトウェア・映画・本・録音データ（バンド等の許可によるライブ公演の録音も含む）などがある。アーカイブは、その資料を無償で研究者や歴史家などに提供している（「インターネット・アーカイブ – Wikipedia」より引用）

目次

アクセスの調整
アクセスの拒否
1. robots.txt による拒否
2. .htaccess による拒否

アクセスの調整

User-agent: ia_archiver
Crawl-Delay: 20

アクセスの拒否

robots.txt による拒否

User-agent: ia_archiver
Disallow: /

（「真があって運の尽き: Internet Archiveのサイト削除方法」より引用）

.htaccess による拒否

deny from 207.241.224.0/20

（「サムネイル・キャプチャ作成サービス – ロボ避けとアクセス制限のための覚え書き – livedoor Wiki（ウィキ）」より引用）

コメント