AhrefsBot(softlayer.com)、MJ12bot(serverregal.de)などを robots.txt で排除する

更新:

ウェブサイトを巡回しているボットは、Google や Bing などメジャーなもの以外にもたくさんあり、場合によってはサイトに無駄な負荷を掛けかねないスパムのようなボットも見られる。 私は不要なボットはなるべくアクセスしないように robots.txt で拒否している。 Google のように集客力があれば良いが、サイトのアクセスに寄与しないボットはデメリットしかない。

ただ、行儀の良いボットなら robots.txt の記述を守ってくれるが、残念なことにそうでないボットも多い。 その場合は .htaccess にIPアドレスやホスト名を書いて塞ぐしかない。

複数のボットのアクセスを禁止するには、単に1行空けて複数書けば良い。

User-agent: dotbot
Disallow: /

User-agent: Yandex
Disallow: /

User-agent: AhrefsBot
Disallow: /

User-agent: MJ12bot
Disallow: /

アルファベットは大文字・小文字どちらでも良いが、もし不安ならボットの公式サイト通りに記述すると良い。

以下、私のサイトで見つけたボットの一覧。

AhrefsBot(softlayer.com)

2014年6月、久しぶりに Apache のログを自作のプログラムで集計したところ softlayer.com というドメインが大量に見つかった。 どうやらボットのようだ。

  • ホスト名
    37.58.100.92-static.reverse.softlayer.com など
  • ユーザーエージェント
    Mozilla/5.0 (compatible; AhrefsBot/5.0; +http://ahrefs.com/robot/)

ユーザーエージェントに書かれている URL にアクセスするとボットの説明が書いてある。 ウェブサイトへのアクセスを拒否するには robots.txt に以下を追加する。

User-agent: AhrefsBot
Disallow: /

MJ12bot(serverregal.de)

Apache のログには serverregal.de、fastwebserver.de、superkabel.de も多く見つかった。 これらもボットで、すべて Majestic-12 によるものだった。 ユーザーエージェントもすべて同じだった。

  • ホスト名
    www4.serverregal.de
    f077.fuchsia.fastwebserver.de
    91-64-154-147-dynip.superkabel.de
    など
  • ユーザーエージェント
    Mozilla/5.0 (compatible; MJ12bot/v1.4.5; http://www.majestic12.co.uk/bot.php?+)

robots.txt の記述例

User-agent: MJ12bot
Disallow: /

SemrushBot(semrush.com)

2016年1月、Apache のログを見たら 192.243.55.134 や 192.243.55.135 など、192 で始まるIPアドレスからのアクセスを見つけた。 ローカルエリアのアドレスのようなこのIPアドレスはドミニカ国のもののようだ。 ログに書かれたユーザーエージェントを見ると SemrushBot というボットだった。

  • IPアドレス
    192.243.55.134 や 192.243.55.135 など
    192.243.55.xxx はドミニカ国のIPアドレス。
  • ユーザーエージェント
    Mozilla/5.0 (compatible; SemrushBot/1~bl; +http://www.semrush.com/bot.html)

robots.txt の記述例

User-agent: SemrushBot
Disallow: /

アクセス数は1日3000件ほどで Google や Bing のボットと比べると少ないが、無駄なアクセスを減らしたいのでアクセスを禁止した。 SEMrush は SEO/SEM 関連のサイトのようだ。

Wotbox

Wotbox というボットを見つけた。 アクセス数はそれほどでもなかったが、少しでもサーバの負荷を減らしたいのでアクセスを禁止することにした。 Wotbox は以下のようなユーザーエージェントを使っている。 Apache のログを見ると、一応 robots.txt を確認しているようだ。

  • ユーザーエージェント
    Wotbox/2.01 (+http://www.wotbox.com/bot/)

robots.txt の記述例

User-agent: wotbox
Disallow: /

Linguee Bot

2017年4月、検索エンジンのようなウェブサービスのボットを久しぶりに見つけた。 Linguee Bot という名前のボットで、ホスト名は atlantic464.serverprofi24.de となっている。 Linguee はドイツにある翻訳・辞書ツールのサービスのようだ。

  • ホスト名
    atlantic464.serverprofi24.de
  • IPアドレス
    188.138.9.42
  • ユーザーエージェント
    Linguee Bot (http://www.linguee.com/bot; bot@linguee.com)

robots.txt の記述例

User-agent: Linguee
Disallow: /

アクセスログを見る限り、一応 robots.txt を見ていた。 Linguee のサイトには使用しているIPアドレスのリストがあり、以下のようなものがある。

62.75.182.85 / loft7096.serverloft.com
62.75.254.22 / server627525422.internet-server.dk
62.75.254.61 / loft8414.serverprofi24.com
85.25.176.105 / loft2143.serverloft.de
85.25.236.75 / server8.hamsphere.com
188.138.104.206 / loft7600.serverprofi24.eu
188.138.104.207 / loft7601.dedicatedpanel.com
188.138.104.208 / loft7602.serverprofi24.com
188.138.104.211 / loft7605.serverloft.eu
188.138.104.215 / loft7609.serverprofi24.eu
188.138.104.221 / loft7615.serverprofi24.com
188.138.104.224 / loft7618.serverprofi24.com
188.138.104.226 / senolkural.com
188.138.118.109 / loft7926.serverprofi24.com
188.138.118.180 / loft7992.dedicatedpanel.com
188.138.56.70 / loft6061.serverloft.de
188.138.81.40 / loft7036.serverloft.de
188.138.96.228 / loft7327.serverprofi24.com
217.118.24.100 / loft2288.serverloft.de
217.118.24.124 / loft2287.dedicatedpanel.com
217.118.24.185 / loft2393.serverloft.de

ただ、私のサイトにアクセスがあった 188.138.9.42 はリストにないので、これら以外のIPアドレスもあるかもしれない。 使用しているドメインを調べると serverprofi24.de の他に、serverloft.com、serverprofi24.com、serverloft.de などいくつかあった。

spbot

2017年5月、spbot という新たなボットを発見した。 spbot は、サイトのバックリンクの数やリンク元URLを調べられるウェブサービス OpenLinkProfiler.org のボットのようだ。

他人のサイトのバックリックを調べてみるとサテライトサイトらしきものが見つかったりして、「この人こんなことやっているのか」という発見があったりする。 ただ、検索回数に制限があり、何度も調べるにはサイトへの登録が必要となる。 OpenLinkProfiler.org は SEOprofiler(www.seoprofiler.com)というSEOサービスを提供している会社が運営しているようだ。

spbot のIPアドレスやユーザーエージェントは以下のようになっている。

  • IPアドレス
    45.55.239.97
  • ユーザーエージェント
    Mozilla/5.0 (compatible; spbot/5.0.3; +http://OpenLinkProfiler.org/bot )

ホスト名はない。

robots.txt の記述例

User-agent: spbot
Disallow: /

spbot は一応 robots.txt を確認していた。 spbot のサイトには、spbot で使われているIPアドレスの一覧もあり、以下のアドレスが使われている。

45.55.*.*
95.85.*.*
104.131.*.*
104.132.*.*
104.236.*.*
107.170.*.*
159.203.*.*
162.243.*.*
178.62.*.*
188.226.*.*
192.241.*.*
192.81.*.*
198.199.*.*
198.211.*.*
208.68.*.*

IPアドレスの割り当て国を調べてみると 95.85.*.* と 178.62.*.* が欧州連合(EU)、188.226.*.* がロシア(RU)で、それ以外は全てアメリカ(US)だった。

TurnitinBot

2017年6月、TurnitinBot という名のボットを見つけた。 調べてみると、これはアメリカのiParadigms社によるTurnitinというサービスのボットだった。

Turnitin は、学生が提出したレポートや論文に盗用や剽窃がないかチェックするサービスで、過去のレポートや論文のほか、インターネット上の文章もインデックス化して盗用をチェックしている。 それ以外にもいくつか機能があり、レポートを評価するためのツールとなっている。 学生がインターネット上の情報をコピペしてレポートを提出するという話を耳にするが、そういう行為は日本だけでなく海外でも問題視されているのだろう。

サイト運営者として盗用は困るが、ボットでサーバーに負荷がかかるのも困るので、このボットのアクセスを拒否することにした。 TurnitinBot のホスト名やユーザーエージェントは以下のようになっていた。

  • ホスト名
    199-47-87-141.ip87.iparadigms.net
  • ユーザーエージェント
    TurnitinBot (https://turnitin.com/robot/crawlerinfo.html)

robots.txt の記述例

User-agent: TurnitinBot
Disallow: /

Turnitin は1997年から始まった古くからあるサービスのようだが、今まで知らなかった。 日本で Turnitin について書いているサイトはいくつかあるが、あまり多くはないので、日本での知名度は低いようだ。

BLEXBot(your-server.de)

2015年7月、約1年ぶりに Apache のログを見たところ your-server.de というドメインが大量に見つかった。 これは BLEXBot というボットで、多い日は1日3000件以上のアクセスがあった。

  • ホスト名
    static.88.36.243.136.clients.your-server.de など
  • ユーザーエージェント
    Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)

robots.txt の記述例

User-agent: BLEXBot
Disallow: /

Steeler

アクセス頻度はそれほどでもないが、Steeler というボットも見つけた。 これは東京大学が運用しているボットだった。

  • ホスト名またはIPアドレス
    157.82.156.247 など
    crawl247.tkl.iis.u-tokyo.ac.jp など
  • ユーザーエージェント
    Mozilla/5.0 (compatible; Steeler/3.5; http://www.tkl.iis.u-tokyo.ac.jp/~crawler/)

robots.txt の記述例

User-agent: Steeler
Disallow: /
このエントリーをはてなブックマークに追加