ウェブサイトを巡回しているボットは、Google や Bing などメジャーなもの以外にもたくさんあり、場合によってはサイトに無駄な負荷を掛けかねないスパムのようなボットも見られる。 私は不要なボットはなるべくアクセスしないように robots.txt で拒否している。 Google のように集客力があれば良いが、サイトのアクセスに寄与しないボットはデメリットしかない。
ただ、行儀の良いボットなら robots.txt の記述を守ってくれるが、残念なことにそうでないボットも多い。 その場合は .htaccess にIPアドレスやホスト名を書いて塞ぐしかない。
複数のボットのアクセスを禁止するには、単に1行空けて複数書けば良い。
User-agent: dotbot Disallow: / User-agent: Yandex Disallow: / User-agent: AhrefsBot Disallow: / User-agent: MJ12bot Disallow: /
アルファベットは大文字・小文字どちらでも良いが、もし不安ならボットの公式サイト通りに記述すると良い。
以下、私のサイトで見つけたボットの一覧。
2014年6月、久しぶりに Apache のログを自作のプログラムで集計したところ softlayer.com というドメインが大量に見つかった。 どうやらボットのようだ。
ユーザーエージェントに書かれている URL にアクセスするとボットの説明が書いてある。 ウェブサイトへのアクセスを拒否するには robots.txt に以下を追加する。
User-agent: AhrefsBot Disallow: /
Apache のログには serverregal.de、fastwebserver.de、superkabel.de も多く見つかった。 これらもボットで、すべて Majestic-12 によるものだった。 ユーザーエージェントもすべて同じだった。
robots.txt の記述例
User-agent: MJ12bot Disallow: /
2016年1月、Apache のログを見たら 192.243.55.134 や 192.243.55.135 など、192 で始まるIPアドレスからのアクセスを見つけた。 ローカルエリアのアドレスのようなこのIPアドレスはドミニカ国のもののようだ。 ログに書かれたユーザーエージェントを見ると SemrushBot というボットだった。
robots.txt の記述例
User-agent: SemrushBot Disallow: /
アクセス数は1日3000件ほどで Google や Bing のボットと比べると少ないが、無駄なアクセスを減らしたいのでアクセスを禁止した。 SEMrush は SEO/SEM 関連のサイトのようだ。
Wotbox というボットを見つけた。 アクセス数はそれほどでもなかったが、少しでもサーバの負荷を減らしたいのでアクセスを禁止することにした。 Wotbox は以下のようなユーザーエージェントを使っている。 Apache のログを見ると、一応 robots.txt を確認しているようだ。
robots.txt の記述例
User-agent: wotbox Disallow: /
2017年4月、検索エンジンのようなウェブサービスのボットを久しぶりに見つけた。 Linguee Bot という名前のボットで、ホスト名は atlantic464.serverprofi24.de となっている。 Linguee はドイツにある翻訳・辞書ツールのサービスのようだ。
robots.txt の記述例
User-agent: Linguee Disallow: /
アクセスログを見る限り、一応 robots.txt を見ていた。 Linguee のサイトには使用しているIPアドレスのリストがあり、以下のようなものがある。
62.75.182.85 / loft7096.serverloft.com 62.75.254.22 / server627525422.internet-server.dk 62.75.254.61 / loft8414.serverprofi24.com 85.25.176.105 / loft2143.serverloft.de 85.25.236.75 / server8.hamsphere.com 188.138.104.206 / loft7600.serverprofi24.eu 188.138.104.207 / loft7601.dedicatedpanel.com 188.138.104.208 / loft7602.serverprofi24.com 188.138.104.211 / loft7605.serverloft.eu 188.138.104.215 / loft7609.serverprofi24.eu 188.138.104.221 / loft7615.serverprofi24.com 188.138.104.224 / loft7618.serverprofi24.com 188.138.104.226 / senolkural.com 188.138.118.109 / loft7926.serverprofi24.com 188.138.118.180 / loft7992.dedicatedpanel.com 188.138.56.70 / loft6061.serverloft.de 188.138.81.40 / loft7036.serverloft.de 188.138.96.228 / loft7327.serverprofi24.com 217.118.24.100 / loft2288.serverloft.de 217.118.24.124 / loft2287.dedicatedpanel.com 217.118.24.185 / loft2393.serverloft.de
ただ、私のサイトにアクセスがあった 188.138.9.42 はリストにないので、これら以外のIPアドレスもあるかもしれない。 使用しているドメインを調べると serverprofi24.de の他に、serverloft.com、serverprofi24.com、serverloft.de などいくつかあった。
2017年5月、spbot という新たなボットを発見した。 spbot は、サイトのバックリンクの数やリンク元URLを調べられるウェブサービス OpenLinkProfiler.org のボットのようだ。
他人のサイトのバックリックを調べてみるとサテライトサイトらしきものが見つかったりして、「この人こんなことやっているのか」という発見があったりする。 ただ、検索回数に制限があり、何度も調べるにはサイトへの登録が必要となる。 OpenLinkProfiler.org は SEOprofiler(www.seoprofiler.com)というSEOサービスを提供している会社が運営しているようだ。
spbot のIPアドレスやユーザーエージェントは以下のようになっている。
ホスト名はない。
robots.txt の記述例
User-agent: spbot Disallow: /
spbot は一応 robots.txt を確認していた。 spbot のサイトには、spbot で使われているIPアドレスの一覧もあり、以下のアドレスが使われている。
45.55.*.* 95.85.*.* 104.131.*.* 104.132.*.* 104.236.*.* 107.170.*.* 159.203.*.* 162.243.*.* 178.62.*.* 188.226.*.* 192.241.*.* 192.81.*.* 198.199.*.* 198.211.*.* 208.68.*.*
IPアドレスの割り当て国を調べてみると 95.85.*.* と 178.62.*.* が欧州連合(EU)、188.226.*.* がロシア(RU)で、それ以外は全てアメリカ(US)だった。
2017年6月、TurnitinBot という名のボットを見つけた。 調べてみると、これはアメリカのiParadigms社によるTurnitinというサービスのボットだった。
Turnitin は、学生が提出したレポートや論文に盗用や剽窃がないかチェックするサービスで、過去のレポートや論文のほか、インターネット上の文章もインデックス化して盗用をチェックしている。 それ以外にもいくつか機能があり、レポートを評価するためのツールとなっている。 学生がインターネット上の情報をコピペしてレポートを提出するという話を耳にするが、そういう行為は日本だけでなく海外でも問題視されているのだろう。
サイト運営者として盗用は困るが、ボットでサーバーに負荷がかかるのも困るので、このボットのアクセスを拒否することにした。 TurnitinBot のホスト名やユーザーエージェントは以下のようになっていた。
robots.txt の記述例
User-agent: TurnitinBot Disallow: /
Turnitin は1997年から始まった古くからあるサービスのようだが、今まで知らなかった。 日本で Turnitin について書いているサイトはいくつかあるが、あまり多くはないので、日本での知名度は低いようだ。
2015年7月、約1年ぶりに Apache のログを見たところ your-server.de というドメインが大量に見つかった。 これは BLEXBot というボットで、多い日は1日3000件以上のアクセスがあった。
robots.txt の記述例
User-agent: BLEXBot Disallow: /
アクセス頻度はそれほどでもないが、Steeler というボットも見つけた。 これは東京大学が運用しているボットだった。
robots.txt の記述例
User-agent: Steeler Disallow: /