サーバーのアクセスログに特定のIPアドレスから大量のアクセスがあり、調べてみるとユーザーエージェントに Amazonbot と書かれていた。 以下のようなユーザーエージェントが使われている。
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
私が確認したIPアドレスは以下のとおり。
他にもあると思われる。
Amazonを装った偽のボットかと思いIPアドレスを逆引きしてみると 3-224-220-101.crawl.amazonbot.amazon のようにドメイン(ホスト)名が crawl.amazonbot.amazon となっており本物だった。 ユーザーエージェントに記されているURL Amazonbot(アマゾン) にアクセスしてみると説明がある。
AmazonbotはAlexa(音声サービス)などAmazonのサービスを改善するために使用されているウェブクローラーとのこと。 今まで私のサイトでは目立ったアクセスがなく、その存在に気付かなかった。
また説明によると robots.txt が有効で、記述例もある。 このボットのアクセスをすべて拒否・禁止する場合、以下のように記述する。
User-agent: Amazonbot Disallow: /
アマゾンのボットには、Amazonbot のほかに AmazonAdBot というボットもある。 ユーザーエージェントは以下のとおり。
Mozilla/5.0 (compatible; AmazonAdBot/1.0; +https://adbot.amazon.com)
私が確認したIPアドレスは以下のとおり。
ユーザーエージェントにあるURL Amazon AdBot FAQs にアクセスすると解説がある。 AmazonAdBotは、アマゾンの様々な広告サービスで使用されるクローラーで、アマゾンまたは広告主パートナーが広告を配信する可能性のあるウェブサイトのみクロールすると書かれている。
robots.txt が有効で、アクセスを拒否する場合は以下のように記述する。
User-agent: AmazonAdBot Disallow: /
Crawl-Delayでアクセスする間隔も指定できる。
User-agent: AmazonAdBot Crawl-Delay: 5
なお、IPアドレスの範囲は変更される可能性があるため公開していないと書かれている。
また、公式サイトの解説によるとホスト名は amazonadbot.com が使われているようだが、私が確認したIPアドレスを逆引きしてみると amazonaws.com だった。 偽物のボットだったのか、仕様が変更されたのかは不明。