自サイトのアクセスログ見てて、同時刻に複数ページへすんげぇ勢いでアクセスしている Firefox の UA 名なんか見つけると、Firefox を高速化する機能拡張 Fasterfox 使ってんだろうなとか思うわけで、まぁここら辺のことはかなり前に最速な人が取り上げてたりする。
今までこの Fasterfox のリンク先読み機能に対して、サイト側の方ではどうにも出来なかったんだけど、Fasterfox のバージョンが 1.0.3 になってから robots.txt を読むようになったらしく、下記の2行を robots.txt に記述すれば先読みをブロックできる。
User-agent: Fasterfox
Disallow: /
つう訳で、サーバに負荷をかけられたくねぇって人や、ログに余計なノイズを残すなやって人はやってみると幸せになれるかも知れないですぜ !
Comments
オフィシャルのFAQによればルートディレクトリのrobot.txtだけを読んでサブディレクトリは読まないと述べられていますが、たとえばhttp://www.example.com/~mydir/のような場合はmydirの下においても意味がないということだろうか?
robots.txt(複数形)ではないですか? 少なくともリンク先にはそう書かれていますし、
A Standard for Robot Exclusion
http://www.robotstxt.org/wc/norobots.html
を見てもrobots.txtが正しいはずです。
この場合スペルミスするとロボットが拾い損ねてまったく無意味になるわけで。
>>名無し さん
んー、どうでしょう。ユーザーディレクトリの最上位を見てくれるほど行儀が良いのか。試してみる価値はあるかと。
>>えむけい さん
あちゃー、仰るとおりです。修正しておきました。
ご指摘ありがとうございました。
参考にして既存の robots.txt に追加させていただきました。
ユーザー利用型のクローラーはページ取得感覚に配慮が無いのが多いのが困りものですねぇ……
一部検索エンジンのクローラーも配慮無く1秒間に数ページ持ってったり(苦笑)
robots.txt と robot.txt は初期から熟練まで間違えやすいですよね(笑)
ディレクトリと言えば、はてな関連のはフォルダ単位で robots.txt を探すようですが(はてなが今より信用出来なかったころに、はてなのシステムからのアクセスを403エラーにしてやってログをみたらそう言うアクセスしてました)
……問題はいまだにはてなのサービスを信用/信頼出来ないとこなんですけど(苦笑)
>配慮無く1秒間に数ページ持ってったり
ああ、ありますね(笑)
あと最近は RSS フィードのクロールで酷いのがあったりもしますよね。