CCBot

更新:2021-12-21

今回発見したボットはCCBot。

ユーザーエージェントは以下の通り。

CCBot/2.0 (https://commoncrawl.org/faq/)

私が確認したIPアドレスは3.238.232.88で、ホスト名がec2-3-238-232-88.compute-1.amazonaws.comだった。 アマゾン(AWS)を使用しているようである。

ユーザーエージェントに書かれているURLにアクセスしてみると、ボットについての説明が記載されている。 一応robots.txtに対応している。 もしCCBotの全アクセスを拒否・禁止する場合は、robots.txtに以下のように記述する。

User-agent: CCBot
Disallow: /

CC というのは Common Crawl の略で、非営利団体のようである。 調査や分析を目的としてウェブサイトの情報を収集している。 要するに、いわゆるビッグデータを、様々な人が利用できるように情報を収集し、公開しているようである。

参考:CCBot | Frequently Asked Questions


このエントリーをはてなブックマークに追加