SEO、AI関連などのボット・ユーザーエージェント一覧
GoogleやBing以外にも多くのボットが存在し、SEO(検索エンジン最適化)関連サービスのボットも多い。 最近はAIのボットも増えている。
SEO / 検索エンジン最適化(Wikipedia)、 生成AI(Wikipedia)
サーバーのアクセスログを見ると、ユーザーよりボットの方がアクセスが多いことも珍しくない。 サイトに無駄に負荷をかけているだけのスパムのようなボットも見られる。 それらのアクセスを拒否するには robots.txt に記述すれば良いが、中には robots.txt を無視するボットも存在する。 そのような場合、.htaccess にIPアドレスやホスト名でアクセスを拒否することになる。 Googleのように集客力があれば良いが、サイトのアクセスアップに貢献しないボットはサーバーに負荷をかけるだけの存在といっても過言ではない。
ここでは私が運営しているサイトのアクセスログで見かけた Google、Bing などメジャーな検索エンジン以外のボットを紹介する。 IPアドレス、ホスト名、ユーザーエージェントは一例であり、変更されることもある。 詳しくはボットの公式サイトを参照。
基本的に各ボットの説明は、ユーザーエージェントに含まれているURLに掲載されている。 ただし悪質なボットはURLが書かれていない。
IPアドレスとホスト名は一例であり、実際には複数ある。
よく見かけるボット
DotBot、AhrefsBot、MJ12bot は昔から存在し、今もよく見かける。 サイトによるがアクセス頻度高め。 SEO(検索エンジン最適化)関連サービスのボットが多い。
DotBot
- ユーザーエージェント
- Mozilla/5.0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)
- IPアドレス
- 216.244.66.249
- ホスト名
- なし。
AhrefsBot
かつては softlayer.com というドメインが使われていた。
- ユーザーエージェント
- Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)
- IPアドレス
- 51.222.253.1、51.222.253.18
- ホスト名
- proxy-ca000-ext2.a.ahrefs.com
MJ12bot
- ユーザーエージェント
- Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)
- IPアドレス
- 193.70.81.99
- ホスト名
- ns3036170.ip-193-70-81.eu
BLEXBot
- ユーザーエージェント
- Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)
- IPアドレス
- 157.90.209.76
- ホスト名
- ninja-crawler84.webmeup.com
SemrushBot
- ユーザーエージェント
- Mozilla/5.0 (compatible; SemrushBot; +http://www.semrush.com/bot.html)
- IPアドレス
- 85.208.98.18
- ホスト名
- bot.semrush.com
AI関連
2024年くらいから生成AI関連のボットをよく目にするようになった。
GPTBot
ChatGPT、 OpenAI 関連のボット。 いくつか種類がある。
GPTBot
- ユーザーエージェント
- Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
- Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)
- IPアドレス
- 52.230.152.66
- ホスト名
- なし。
ChatGPT-User
- ユーザーエージェント
- Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
- IPアドレス
- 40.84.221.208、52.156.77.145
- ホスト名
- なし。
OAI-SearchBot
- ユーザーエージェント
- Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot
- IPアドレス
- 20.42.10.181
- ホスト名
- なし。
ClaudeBot
Anthropic社のClaude(クロード)のボット。
- ユーザーエージェント
- Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)
- IPアドレス
- 3.147.7.185、18.191.85.98
- ホスト名
- ec2-3-147-7-185.us-east-2.compute.amazonaws.com
PerplexityBot
Perplexityのボット。 https://www.perplexity.ai/
- ユーザーエージェント
- Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
- IPアドレス
- 公式サイトに掲載されているリスト以外にもある模様。
そこそこ見かけるボット
各ボットのユーザーエージェント、IPアドレス、ホスト名などについて記す。 robots.txt の記述を無視するボットもある。
- CCBot
- CCBot/2.0 (https://commoncrawl.org/faq/)
- 3.238.232.88
- ec2-3-238-232-88.compute-1.amazonaws.com
- CC というのは Common Crawl の略で、非営利団体のようである。 調査や分析を目的としてサイトの情報を収集している。 いわゆるビッグデータを様々な人が利用できるように情報を収集し、公開しているようである。
- DataForSeoBot
- Mozilla/5.0 (compatible; DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot)
- 136.243.220.208/29、136.243.228.176/29、136.243.228.192/29
- crawling-gateway-136-243-228-198.dataforseo.com など
- SEOのためにサイトのデータを収集し、ウェブマスターなどにその情報を提供している。 robots.txt に対応しているが、私のサイトでは記述を無視したことがある。
- Applebot
- Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
- 17.241.75.70
- 17-241-75-70.applebot.apple.com
- Barkrowler
- Mozilla/5.0 (compatible; Barkrowler/0.9; +https://babbar.tech/crawler)
- 217.113.194.179
- c179.babbar.eu
- robots.txt を無視したことがある。
- SeekportBot
- Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)
- 65.21.35.237
- crawl1-229.oi.tb.007ac9.net
- ドイツのseekportという検索エンジンのボットのようだ。
- serpstatbot
- serpstatbot/2.1 (advanced backlink tracking bot; https://serpstatbot.com/; abuse@serpstatbot.com)
- 88.99.244.56
- static.56.244.99.88.clients.your-server.de
- Serpstatは、SEOツールなどを提供している会社。
- SEOkicks
- Mozilla/5.0 (compatible; SEOkicks; +https://www.seokicks.de/robot.html)
- 65.108.72.208
- www.seokicks.de
- 主にサイトのリンクデータを収集しており、バックリンク(被リンク)などをチェックできるSEOツールを提供しているようである。
- Adsbot
- Mozilla/5.0 (compatible; Adsbot/3.1; +https://seostar.co/robot/)
- 216.18.204.215
- ip-216-18-204-215.seostar.co
- SEOおよびそれを利用したマーケティングなどを行っているようである。
- FemtosearchBot
- Mozilla/5.0 (compatible; FemtosearchBot/1.0; http://femtosearch.com)
- 38.126.157.40
- Femtosearch はプライバシーに配慮した新しい検索エンジンで、現在開発中とのこと。
- netEstate NE Crawler
- netEstate NE Crawler (+http://www.website-datenbank.de/)
- 81.209.177.145
- bardolino.netestate.de
- netEstate GmbH はドイツにある企業で、検索エンジンなどの開発、運営をしている。
- AwarioBot
- Mozilla/5.0 (compatible; AwarioBot/1.0; +https://awario.com/bots.html)
- 65.21.113.244
- pot37.webmeup.com
- Domains Project
- Mozilla/5.0 (compatible; Domains Project/1.3.7; +https://domainsproject.org)
- 99.255.100.228
- pool-99-255-100-228.cpe.net.cable.rogers.com
- ImagesiftBot
- Mozilla/5.0 (compatible; ImagesiftBot; +imagesift.com)
- 64.124.8.105、74.80.208.101
- 64.124.8.105.available.above.net、74-80-208-101.ic2net.net
ウェブサービス、SNS関連
ウェブサービス、SNSなどのボット。
Amazon
Amazonのボットは複数あり、比較的アクセスが多い。 アマゾンボットについて
- Amazonbot
- Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
- 3.224.220.101、23.22.35.162、52.70.240.171
- 3-224-220-101.crawl.amazonbot.amazon
- Alexa(音声サービス)などAmazonのサービスを改善するために使用されているクローラー。
- Amzn-SearchBot
- Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Amzn-SearchBot/0.1) Chrome/119.0.6045.214 Safari/537.36
- ec2-52-45-194-99.compute-1.amazonaws.com
- Amzn-User
- Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Amzn-User/0.1) Chrome/119.0.6045.214 Safari/537.36
- AmazonAdBot
- Mozilla/5.0 (compatible; AmazonAdBot/1.0; +https://adbot.amazon.com)
- 3.232.202.93、54.82.159.71
- amazonadbot.com、amazonaws.com
- アマゾンの様々な広告サービスで使用されるクローラーで、アマゾンまたは広告主パートナーが広告を配信する可能性のあるサイトのみクロールする。
その他
- Bytespider
- Mozilla/5.0 (compatible; Bytespider; https://zhanzhang.toutiao.com/) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.0.0 Safari/537.36
- Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; spider-feedback@bytedance.com)
- 110.249.201.63、47.128.42.102
- bytespider-110-249-201-63.crawl.bytedance.com、ec2-47-128-42-102.ap-southeast-1.compute.amazonaws.com
- 公式サイトは中国語なので分かりにくいが、 ユーザーエージェント、 robots.txt に解説がある。
- TikTokSpider
- Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; TikTokSpider; ttspider-feedback@tiktok.com)
- Linespider
- Mozilla/5.0 (compatible; Linespider/1.1; +https://lin.ee/4dwXkTH)
- Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Linespider/1.1; +https://lin.ee/4dwXkTH) Chrome/W.X.Y.Z Safari/537.36
- 147.92.153.9
- crawl.147-92-153-9.search.line-apps.com
- LINEサービス内で多様な検索結果を提供するためにLINEが運営するクローラー。
- petalbot
- Mozilla/5.0 (compatible;PetalBot;+https://webmaster.petalsearch.com/site/petalbot)
- Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)
- 114.119.144.41
- petalbot-114-119-144-41.petalsearch.com
- 中国の通信機器メーカーHuawei(ファーウェイ)が運営しているPetal Searchという検索エンジンで使われているボット。
日本のボット
日本の企業、団体、研究機関などが運用しているボット。
- SBIntuitionsBot
- SB Intuitions Corp.(ソフトバンクグループ)
- Mozilla/5.0 (compatible; SBIntuitionsBot/0.1; +https://www.sbintuitions.co.jp/bot/)
- 221.110.152.2
- softbank221110152002.bbtec.net
- 収集したデータをAI開発および情報解析に使用している。
- ICC-Crawler
- NICTユニバーサルコミュニケーション研究所
- ICC-Crawler/2.0 (Mozilla-compatible; ; http://ucri.nict.go.jp/en/icccrawler.html)
- 202.180.34.186、61.86.246.72
- gw.ucri.jgn-x.jp またはホスト名なし。
- 研究目的でサイト(ページ)の情報を収集しているようである。 具体的には「ウェブアーカイブの構築」、及び「多言語翻訳や情報分析等の高度情報処理技術の研究開発用データの収集」と記されている。
- Cotoyogi
- データサイエンス共同利用基盤施設
- Mozilla/5.0 (compatible; Cotoyogi/4.0; +https://ds.rois.ac.jp/center8/crawler/)
- IP範囲:157.1.136.4 - 157.1.136.11
- ホスト名なし。
- 日本語データ資源収集のために運用しているWebクローラ(ロボット)。
- Steeler
- 東京大学・喜連川研究室
- Mozilla/5.0 (compatible; Steeler/3.5; http://www.tkl.iis.u-tokyo.ac.jp/~crawler/)
- IP範囲:157.82.156.129 - 157.82.156.254
- ホスト名:crawl247.tkl.iis.u-tokyo.ac.jp
- Web上に公開された文書を可能な範囲で収集し、様々な社会現象の分析に活用することを目的としている。
その他のボット
マイナーなボット、たまにしか見かけないボット、サービスが終了したボットなど。
- Linguee Bot
- Linguee Bot (http://www.linguee.com/bot; bot@linguee.com)
- 188.138.9.42
- atlantic464.serverprofi24.de
- spbot
- Mozilla/5.0 (compatible; spbot/5.0.3; +http://OpenLinkProfiler.org/bot )
- 45.55.239.97
- TurnitinBot
- TurnitinBot (https://turnitin.com/robot/crawlerinfo.html)
- 199-47-87-141.ip87.iparadigms.net
- WireReaderBot
- Mozilla/5.0 (compatible; WireReaderBot/1.0; +https://wirereader.app)
- proxy1.nyc.99systems.net
- TerraCotta
- TerraCotta https://github.com/CeramicTeam/CeramicTerracotta
- ec2-3-83-76-234.compute-1.amazonaws.com
- SERankingBacklinksBot
- Mozilla/5.0 (compatible; SERankingBacklinksBot/1.0; +https://seranking.com/backlinks-crawler)
- discovery-crawler26.blex.seranking.com
- Brightbot
- Brightbot 1.0
- 82.97.199.64
- IbouBot
- Mozilla/5.0 (compatible; IbouBot/1.0; +bot@ibou.io; +https://ibou.io/iboubot.html)
- c132.ibou.io
- ShapBot
- Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ShapBot/0.1.0
- 230.55.236.23.bc.googleusercontent.com
終了
- Wotbox
- Wotbox/2.01 (+http://www.wotbox.com/bot/)