このエントリーをはてなブックマークに追加

検索エンジンのボットとユーザーエージェント

更新:

GoogleやBingなどの検索エンジンは、インターネット上のウェブサイトの情報を収集してサーバーに保存している。 これはプログラムを使って自動的に行っている。 そのようなプログラムはボットのほか、ロボット、クローラー、スパイダーなどと呼ばれている。 ボットは定期的にサイトを巡回(クロール)して情報を更新している。 クロール頻度はサイトの更新頻度、重要度などにより異なる。

ボットがサイトにアクセスすると、そのIPアドレスやユーザーエージェントがサーバーのアクセスログに残る。 アクセスログを見ると多くのボットが存在することが分かる。

ここでは主な検索サービスのボットについて紹介する。 IPアドレス、ホスト名、ユーザーエージェントは一例であり、変更されることもある。 詳しくはボットの公式サイトを参照。 まともなボットならユーザーエージェントにボットに関するURLが記載されている。

検索エンジン以外のボットについては その他のボット一覧 をご覧ください。

主要検索エンジン

Googlebot

検索エンジンGoogleのボット。 ユーザーエージェントはモバイルファーストに移行してから「Android」などが記述されているモバイル用が多く使われている。

ユーザーエージェント

  • PCなど通常版
    Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • モバイル版
    Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.6422.175 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • 画像用
    Googlebot-Image/1.0
  • AdSense用
    Mediapartners-Google
  • AdSenseモバイル用
    任意の文字列+(compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

IPアドレス

66.249.79.204 など 66.249. で始まるIPアドレスが多い。 AdSense(広告)関連は 72.14.199.155 など 72.14. で始まるIPアドレスが多い。 IPアドレスのリストは googlebot.jsongoog.json にJSON形式で公開されている。

ホスト名

検索用などは crawl-66-249-79-204.googlebot.com など。 AdSense関連は rate-limited-proxy-72-14-199-231.google.com など。 それ以外では 145.134.141.34.bc.googleusercontent.com などもある。

参考

携帯電話(ガラケー)全盛期には以下のようなユーザーエージェントも使われていた。

  • DoCoMo/2.0 N905i(c100;TB;W24H16) (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)
  • SAMSUNG-SGH-E250/1.0 Profile/MIDP-2.0 Configuration/CLDC-1.1 UP.Browser/6.2.3.3.c.1.101 (GUI) MMP/2.0 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)
  • DoCoMo/1.0/N505i/c20/TB/W20H10 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Bingbot

Microsoftが運営している検索エンジンBingのボット。

ユーザーエージェント

  • 通常版
    Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/116.0.1938.76 Safari/537.36
  • モバイル版
    Mozilla/5.0 (iPhone; CPU iPhone OS 7_0 like Mac OS X) AppleWebKit/537.51.1 (KHTML, like Gecko) Version/7.0 Mobile/11A465 Safari/9537.53 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)

IPアドレス

20.15.133.186、40.77.167.5 など様々。 IPアドレスのリストは bingbot.json にJSON形式で公開されている。

ホスト名

msnbot-20-15-133-186.search.msn.com など。

以下は古いユーザーエージェント。

  • Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
  • msnbot/2.0b (+http://search.msn.com/msnbot.htm)
  • msnbot/1.0 (+http://search.msn.com/msnbot.htm)
  • msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)
  • msnbot-media/1.0 (+http://search.msn.com/msnbot.htm)

その他のボット

Yahoo!

米国Yahoo!のボット。

ユーザーエージェント

  • Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)

IPアドレス

72.30.14.20 など。

ホスト名

b110.crawl.yahoo.net など。

Yahoo! Japan

Yahoo! Japanのボット。 現在、ヤフーの検索の中身はGoogleだが、今も検索サービスでの利用や研究、開発などの目的でボットが巡回している。

ユーザーエージェント

  • Y!J-BRW/1.0 (https://support.yahoo-net.jp/PccSearch/s/article/H000007955)
  • Mozilla/5.0 (compatible; Y!J-WSC/1.0; +https://yahoo.jp/3BSZgF)

IPアドレス

182.22.28.87、182.22.30.99 など。

ホスト名

proxy-182.22.28.87.yahoo.co.jp、crawl.182-22-30-99.yahoo-net.jp など。

以下はヤフーが自前の検索エンジンを使用していた時代のユーザーエージェント。

  • Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)
  • Y!J-BSC/1.0 (http://help.yahoo.co.jp/help/jp/blog-search/)
  • Y!J-BRO/YFSJ crawler (compatible; Mozilla 4.0; MSIE 5.5; http://help.yahoo.co.jp/help/jp/search/indexing/indexing-15.html; YahooFeedSeekerJp/2.0)
  • YahooFeedSeeker/2.0 (compatible; Mozilla 4.0; MSIE 5.5; http://publisher.yahoo.com/rssguide)
  • DoCoMo/2.0/SO502i (compatible; Y!J-SRD/1.0; http://help.yahoo.co.jp/help/jp/search/indexing/indexing-27.html)
  • J-PHONE/2.0/J-SH03 (compatible; Y!J-SRD/1.0; http://help.yahoo.co.jp/help/jp/search/indexing/indexing-27.html)
  • KDDI-CA23 UP.Browser/6.2.0.5 (compatible; Y!J-SRD/1.0; http://help.yahoo.co.jp/help/jp/search/indexing/indexing-27.html)
  • Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)

DuckDuckBot

検索エンジンDuckDuckGoのボット。 GoogleやBingほどではないが、ごく稀にDuckDuckGoからサイトにアクセスしている人を見かける。

ユーザーエージェント

  • DuckDuckBot/1.1; (+http://duckduckgo.com/duckduckbot.html)
  • DuckDuckBot-Https/1.1; (+https://duckduckgo.com/duckduckbot)

IPアドレス

20.191.45.212、40.88.21.235 など。 公式サイトにIPアドレスの一覧がある。 たまに変更されることがある。

ホスト名

ホスト名なし。 逆引きできない。 以前は duckduckbot.duckduckgo.com、compute-1.amazonaws.com などがあった。

以前はユーザーエージェントが「Mozilla/5.0 (compatible;」で始まっていた。

Baiduspider

中国の検索エンジンBaidu(バイドゥ、百度)のボット。 日本のサービス(Baidu Japan)は終了したが中国では継続中。 ユーザーエージェントにあるURLにアクセスすると中国語で説明が書いてある。

ユーザーエージェント

  • Baiduspider
  • Baiduspider ( http://www.baidu.com/search/spider.htm)

かつて存在したBaidu Japanでは、以下のようなユーザーエージェントが使われていた。 ユーザーエージェントにあるURLにアクセスしても現在は404 Not Foundとなっている。

  • Baiduspider+(+http://www.baidu.jp/spider/)
  • BaiduImagespider(+http://www.baidu.jp/spider/)
  • DoCoMo/2.0 P05A(c100;TB;W24H15) (compatible; BaiduMobaider/1.0;+http://www.baidu.jp/spider/)

ホスト名は baiduspider-119-63-198-13.crawl.baidu.jp など。

YandexBot

ロシアの検索エンジンYandexのボット。

ユーザーエージェント

  • Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

IPアドレス

95.108.213.85、213.180.203.20 など。 IPアドレスはよく変更されるため公開されていない。

ホスト名

95-108-213-85.spider.yandex.com、213-180-203-20.spider.yandex.com など。


このエントリーをはてなブックマークに追加