検索エンジンのロボットとユーザーエージェント

更新:

Google や Microsoft など検索エンジンを運営している会社は、インターネット上のウェブサイトの情報を収集してサーバーに保存している。 これはプログラムを使って自動的に行っている。 そのようなプログラムはロボットのほか、ボット、クローラー、スパイダーなどと呼ばれている。 ボットは定期的にサイトを巡回して情報を更新している。 巡回頻度はサイトの更新頻度などにより異なる。

ボットがサイトにアクセスすると、そのユーザーエージェントがアクセス解析や Apache などウェブサーバーのログに残る。 昔のボットは基本的にJavaScriptを無視するため、それを使ったアクセス解析はボットのユーザーエージェントを取得できない場合があったが、のちにJavaScriptを実行するボットも増えてきた。

ボットのユーザーエージェントは変更される場合がある。 2018年7月現在、私が運営しているサイトで見かけたものを以下に記す。

Google

ユーザーエージェントは以下の通り。 IPアドレスは 66.249.79.91 など 66.249.*.* が多い。 ホスト名は crawl-66-249-79-91.googlebot.com などとなっている。 ARIN によると 66.249.64.0 ~ 66.249.95.255(66.249.64.0/19)は Google が所有している。

  • 昔からあるタイプ
    Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • 主にCSSなどにアクセスがあるが、そうでない場合もある
    Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Safari/537.36
  • モバイル用
    Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • 画像用
    Googlebot-Image/1.0

最新のボットのユーザーエージェントの文字列や、robots.txt で使用するトークンは、Google のサイト Google クローラ に一覧と説明がある。 モバイル用はユーザーエージェントに Android や iPhone などの文字列が入るようなので、サイト側でそれらの文字列で判別している場合は、一応モバイル用のページを見てくれていると思われる。

広告関連では以下のようなものがある。 モバイル用は Android や iPhone など文字列が入るようだ。 Mediapartners-Google のIPアドレスは 72.14.199.155 などが見られ、ARIN によると 72.14.192.0 ~ 72.14.255.255(72.14.192.0/18)は Google が所有している。 ホスト名は rate-limited-proxy-72-14-199-155.google.com などとなっている。

  • AdSense 用
    Mediapartners-Google
  • AdSense モバイル用
    (各種モバイル端末)(compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Bing

Microsoft の Bing(旧MSN)のユーザーエージェントは以下の通り。

  • 標準的なタイプ
    Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
  • ページのスナップショット用
    Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534+ (KHTML, like Gecko) BingPreview/1.0b
  • モバイル用
    Mozilla/5.0 (iPhone; CPU iPhone OS 7_0 like Mac OS X) AppleWebKit/537.51.1 (KHTML, like Gecko) Version/7.0 Mobile/11A465 Safari/9537.53 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)

IPアドレスは 207.46.13.189 など使われていて、ARIN によると 207.46.0.0 ~ 207.46.255.255(207.46.0.0/16)は Microsoft が所有している。 また、40.74.0.0 ~ 40.125.127.255(40.112.0.0/13、40.120.0.0/14、40.124.0.0/16、40.125.0.0/17、40.74.0.0/15、40.76.0.0/14、40.80.0.0/12、40.96.0.0/12)などもある。 ホスト名は msnbot-207-46-13-189.search.msn.com などとなっている。

最新のボットのユーザーエージェントは、Bing のサイト Which Crawlers Does Bing Use? - Bing Webmaster Tools に一覧と説明がある。 Google と同様、モバイル用は Android や iPhone など文字列が入っている。

昔のユーザーエージェント

以下は、昔見かけた古いユーザーエージェント。 記録として残す。 ただし、現在も使われているものは省く。

Google

携帯電話、いわゆるガラケー用のユーザーエージェントがあった。

  • DoCoMo/2.0 N905i(c100;TB;W24H16) (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)
  • SAMSUNG-SGH-E250/1.0 Profile/MIDP-2.0 Configuration/CLDC-1.1 UP.Browser/6.2.3.3.c.1.101 (GUI) MMP/2.0 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)
  • DoCoMo/1.0/N505i/c20/TB/W20H10 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

MSN(Bing)

ホスト名は msnbot-65-55-109-161.search.msn.com など。

  • msnbot/2.0b (+http://search.msn.com/msnbot.htm)
  • msnbot/1.0 (+http://search.msn.com/msnbot.htm)
  • msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)
  • msnbot-media/1.0 (+http://search.msn.com/msnbot.htm)

Yahoo!

ホスト名は b3091102.crawl.yahoo.net など。 説明はヤフーのサイト Yahoo!検索ヘルプ - ウェブページにアクセスするシステムのユーザーエージェントについて にある。 Yahoo! Japan の検索エンジンはのちに Google のシステムを使うようになった。

Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)
Y!J-BSC/1.0 (http://help.yahoo.co.jp/help/jp/blog-search/)
Y!J-BRO/YFSJ crawler (compatible; Mozilla 4.0; MSIE 5.5; http://help.yahoo.co.jp/help/jp/search/indexing/indexing-15.html; YahooFeedSeekerJp/2.0)
Y!J-BRO/YFSJ crawler (compatible; Mozilla 4.0; MSIE 5.5; http://help.yahoo.co.jp/help/jp/search/indexing/indexing-15.html; YahooFeedSeekerJp/2.0; users 0; views 28)
YahooFeedSeeker/2.0 (compatible; Mozilla 4.0; MSIE 5.5; http://publisher.yahoo.com/rssguide)
DoCoMo/2.0/SO502i (compatible; Y!J-SRD/1.0; http://help.yahoo.co.jp/help/jp/search/indexing/indexing-27.html)
J-PHONE/2.0/J-SH03 (compatible; Y!J-SRD/1.0; http://help.yahoo.co.jp/help/jp/search/indexing/indexing-27.html)
KDDI-CA23 UP.Browser/6.2.0.5 (compatible; Y!J-SRD/1.0; http://help.yahoo.co.jp/help/jp/search/indexing/indexing-27.html)
Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)

Baidu Japan

ホスト名は baiduspider-119-63-198-13.crawl.baidu.jp など。 日本法人の検索エンジンサービスは終了した。

Baiduspider+(+http://www.baidu.jp/spider/)
BaiduImagespider(+http://www.baidu.jp/spider/)
DoCoMo/2.0 P05A(c100;TB;W24H15) (compatible; BaiduMobaider/1.0;+http://www.baidu.jp/spider/)
このエントリーをはてなブックマークに追加