Google や Microsoft など検索エンジンを運営している会社は、インターネット上のウェブサイトの情報を収集してサーバーに保存している。 これはプログラムを使って自動的に行っている。 そのようなプログラムはロボットのほか、ボット、クローラー、スパイダーなどと呼ばれている。 ボットは定期的にサイトを巡回して情報を更新している。 巡回頻度はサイトの更新頻度などにより異なる。
ボットがサイトにアクセスすると、そのユーザーエージェントがアクセス解析や Apache などウェブサーバーのログに残る。 昔のボットは基本的にJavaScriptを無視するため、それを使ったアクセス解析はボットのユーザーエージェントを取得できない場合があったが、のちにJavaScriptを実行するボットも増えてきた。
ボットのユーザーエージェントは変更される場合がある。 2018年7月現在、私が運営しているサイトで見かけたものを以下に記す。
ユーザーエージェントは以下の通り。 IPアドレスは 66.249.79.91 など 66.249.*.* が多い。 ホスト名は crawl-66-249-79-91.googlebot.com などとなっている。 ARIN によると 66.249.64.0 ~ 66.249.95.255(66.249.64.0/19)は Google が所有している。
最新のボットのユーザーエージェントの文字列や、robots.txt で使用するトークンは、Google のサイト Google クローラ に一覧と説明がある。 モバイル用はユーザーエージェントに Android や iPhone などの文字列が入るようなので、サイト側でそれらの文字列で判別している場合は、一応モバイル用のページを見てくれていると思われる。
広告関連では以下のようなものがある。 モバイル用は Android や iPhone など文字列が入るようだ。 Mediapartners-Google のIPアドレスは 72.14.199.155 などが見られ、ARIN によると 72.14.192.0 ~ 72.14.255.255(72.14.192.0/18)は Google が所有している。 ホスト名は rate-limited-proxy-72-14-199-155.google.com などとなっている。
Microsoft の Bing(旧MSN)のユーザーエージェントは以下の通り。
IPアドレスは 207.46.13.189 など使われていて、ARIN によると 207.46.0.0 ~ 207.46.255.255(207.46.0.0/16)は Microsoft が所有している。 また、40.74.0.0 ~ 40.125.127.255(40.112.0.0/13、40.120.0.0/14、40.124.0.0/16、40.125.0.0/17、40.74.0.0/15、40.76.0.0/14、40.80.0.0/12、40.96.0.0/12)などもある。 ホスト名は msnbot-207-46-13-189.search.msn.com などとなっている。
最新のボットのユーザーエージェントは、Bing のサイト Which Crawlers Does Bing Use? - Bing Webmaster Tools に一覧と説明がある。 Google と同様、モバイル用は Android や iPhone など文字列が入っている。
以下は、昔見かけた古いユーザーエージェント。 記録として残す。 ただし、現在も使われているものは省く。
携帯電話、いわゆるガラケー用のユーザーエージェントがあった。
ホスト名は msnbot-65-55-109-161.search.msn.com など。
ホスト名は b3091102.crawl.yahoo.net など。 説明はヤフーのサイト Yahoo!検索ヘルプ - ウェブページにアクセスするシステムのユーザーエージェントについて にある。 Yahoo! Japan の検索エンジンはのちに Google のシステムを使うようになった。
Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp) Y!J-BSC/1.0 (http://help.yahoo.co.jp/help/jp/blog-search/) Y!J-BRO/YFSJ crawler (compatible; Mozilla 4.0; MSIE 5.5; http://help.yahoo.co.jp/help/jp/search/indexing/indexing-15.html; YahooFeedSeekerJp/2.0) Y!J-BRO/YFSJ crawler (compatible; Mozilla 4.0; MSIE 5.5; http://help.yahoo.co.jp/help/jp/search/indexing/indexing-15.html; YahooFeedSeekerJp/2.0; users 0; views 28) YahooFeedSeeker/2.0 (compatible; Mozilla 4.0; MSIE 5.5; http://publisher.yahoo.com/rssguide) DoCoMo/2.0/SO502i (compatible; Y!J-SRD/1.0; http://help.yahoo.co.jp/help/jp/search/indexing/indexing-27.html) J-PHONE/2.0/J-SH03 (compatible; Y!J-SRD/1.0; http://help.yahoo.co.jp/help/jp/search/indexing/indexing-27.html) KDDI-CA23 UP.Browser/6.2.0.5 (compatible; Y!J-SRD/1.0; http://help.yahoo.co.jp/help/jp/search/indexing/indexing-27.html) Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)
ホスト名は baiduspider-119-63-198-13.crawl.baidu.jp など。 日本法人の検索エンジンサービスは終了した。
Baiduspider+(+http://www.baidu.jp/spider/) BaiduImagespider(+http://www.baidu.jp/spider/) DoCoMo/2.0 P05A(c100;TB;W24H15) (compatible; BaiduMobaider/1.0;+http://www.baidu.jp/spider/)