クローラーとは、意味や検索エンジンの仕組みをわかりやすく解説

2022.04.2
コラム

クローラーとは、意味や検索エンジンの仕組みをわかりやすく解説

投稿日：2022年4月2日 | 最終更新日：2023年6月13日

SEO対策を行う上で基礎知識となるのが「クローラー」。通称「ロボット/ボット」「スパイダー」とも呼ばれる検索エンジン巡回プログラムです。

Google等検索エンジンで自社サイトが検索されるためには、検索エンジンのプログラムであるクローラーに認識してもらわなければなりません。今回は、これからSEOを勉強してみたい人に向けて、クローラーがどのようなものか、検索エンジンでどのような役割を持っているか、クローラーに適したサイト作りについて解説していきます。

クローラー（Crawler）とは？

クローラーとは、検索エンジンの巡回プログラムです。英語の「crawl(這いまわる)」から由来しており、クローラーが自動でWebサイトを巡回し情報を集めます。クローラーがインターネット上のサイトを巡回（クローリング）していくことで、検索データベースが作成されていきます。

検索エンジンの仕組み

クローラーが集めた情報は、どのような仕組みで検索エンジンへと反映されているのでしょうか？検索エンジンは以下のような仕組み・流れになっています。

クローラーの情報を元にデータベース化（インデックス化）
データベース化されたページの内容からランク付け
ランク化された情報を検索結果として表示

クローラーがインターネット上で収集した情報を解析し、独自のアルゴリズムによって検索キーワード（検索クエリ）ごとにランク付けします。そのランク付けが検索結果の順位に繁栄されます。

クローラーの役割

クローラーの役割は、検索エンジンのための情報収集。インターネット上をクローリングし、必要な情報を収集・解析・登録していきます。それでは、クローラーの種類やインターネット上で何をチェックしているのかを解説していきましょう。

クローラーとSEOの関係について

SEOとは、検索エンジンで自社サイトを上位表示させるための施策のこと。その検索エンジンのデータベースに、サイトのデータを収集・登録するのがクローラーの役割です。

どれだけ自社サイトにSEO対策を施しても、クローラーに情報を拾ってもらわなければ検索エンジンで表示されません。このため、クローラーが周遊しやすいサイト構成や施策も重要となります。

クローラーの種類について

クローラーは常に世界中のインターネット空間を巡回し、情報を集積しています。日本で最大のシェアを誇る検索エンジンはgoogleであるため、そのクローラーである「Googlebot」を意識したクローラー対策に注力することになります。

クローラーは検索エンジンごとに異なり、下記のように様々な種類のものがあります。

Google：Googlebot(パソコン用)、Googlebot-Image(画像用)、Googlebot-Mobile(モバイルサイト・スマートフォン用)
Yahoo!：Yahoo! Slurp
Baidu（中国大手の百度）：Baiduspider
Bing（マイクロソフト社）：Bingbot
Naver（韓国大手）：Yetibot

クローラーの対象ファイル

クローラーがチェックする情報は、インターネット上のファイルです。人間が閲覧できる情報（文書・画像・動画ファイル）をクローリングしています。具体的には下記のファイル形式が挙げられます。

HTML
CSS
画像
動画
JacaScript
Flash
テキスト
PDF
地理データ
音声

クロール最適化のポイントを解説

いくらSEOを徹底しても、クローラーにサイト情報を正しくピックアップしてもらわなければ、検索結果に表示されません。また、クローラーに十分評価されなければ、狙ったキーワードで正しく検索してもらうこともできません。

まずは、クローラーに自社サイトで更新した情報・新しく作成したページを、速く正確にキャッチしてもらうべし。そのために必要なのがクローリングの「最適化」です。ここからは、クローリングの最適化について解説します。

クローラビリティを意識する

IT業界で情報のアクセスのしやすさを「アクセシビリティ」と呼ぶように、クローラーがサイトを巡回しやすくする工夫を「クローラビリティ」と呼びます。

小規模サイトではそれほど意識する必要はありませんが、1000ページ以上の大規模サイトの場合はクローラビリティは必須。クローラーが効率良く巡回できるサイトを構造にしなければ、新しく作成したページが検索されないこともあります。

クローラビリティのために有効な手段は以下です。

重要なコンテンツは上位階層に(トップページから2クリックでアクセスできるように)
画像ではなくテキストリンクを設置する
ページ表示速度を改善（速く表示されるように）
Javascriptを最適化
同じジャンルの情報をまとめ、1つのディレクトリにまとめる

クロールリクエストの実施

手っ取り早いクローリングが、検索エンジン側にクローリングをリクエストすること。Googleの場合は、このリクエストが可能です。

リクエストにはGoogle提供の無料ツール「Google Search Console」を使います。「Google Search Console」の機能の1つである「URL検査」で、Googleにリクエストをかけましょう。

リクエストは、新しいサイトを作った、新しいページを公開したなど、早めにクローラーにキャッチしてほしい情報がある場合に有効です。

XMLサイトマップの作成&送信

XMLサイトマップとは、自社サイトの設計図のようなもの。このサイトマップをサーバに設置しておきます。これによって、クローラーが手早くサイト構成を理解し、効率よく情報を収集してもらいやすくなります。

XMLサイトマップは、前述のGoogle無料ツール「Google Search Console」の「サイトマップ」から送信できます。

robots.txtの設置

robots.txtはクローラーの動きを制御するためのもの。まだ制作中のサイトや内容が薄いページは、クローラーが低評価をしがちです。サイトの中には、「クローラーに情報収集してほしくない」というページもあることでしょう。robots.txt（ロボットテキスト）の設置はそのための対策です。

robots.txtには、巡回してほしいページのURLを記載します。一番上のディレクトリに設置することで、クローラーに指示・制御が可能です。

内部リンクの最適化

内部リンクとは文字通り、同じサイト内のリンクです。関連するコンテンツをリンクで紹介することで内容を深め、クローラーも巡回しやすくなります。

内部リンクはサイト内の全てのページに設置しましょう。記事メディアのポイントは、関連記事の内部リンクです。内部リンクでサイト内を網羅するためにも、関連記事を増やしましょう。

URLの見直し

同じ内容でも、URLに「www.」がついているページとついていないページが重複している場合があります。この場合、Googleの評価が下がってしまい、検索順位にも悪影響です。

「site：〇〇〇(自社サイトのドメイン)」で自社サイト内をGoogle検索し、重複がないかを確認しましょう。重複が発見された場合は、Googleのツール「Google Search Console」で対応します。

「Google Search Console」の「サイトの設定」→「使用するドメイン」から、「www.」を使うか使わないかを選択できます。重複したサイトでは、アクセスさせたいURLに301リダイレクトを設定します。

パンくずリストの調整

パンくずリストとは、サイトの上部に設置されているナビゲーションリンク。自分がサイト内の階層のどの位置を見ているのかを把握できます。

パンくずリストがあると認識しやすいのは、ユーザーだけではありません。クローラーもサイト内を認識できるため、サイト内をより広く回遊してもらえます。

リンク切れページの修正

サイトの規模が大きくなるほど発生しやすいのがリンク切れ（404エラー）。リンク切れはクローラーの回遊を妨げるだけでなく、リンク切れが多いことで閲覧するユーザーの離脱（閲覧を辞めてしまう）にも繋がります。

クローラビリティだけでなく、ユーザビリティの面でも悪いサイトになってしまうため、リンク切れは見つけ次第修正する必要があります。リンク切れは「Google Search Console」でチェック可能です。

まとめ

クローラーはインターネットサイトの情報を収集するロボットプログラムで、検索エンジンの表示順位に関わっています。クローラーにチェックしてもらいやすくするためには、クローラビリティが重要です。Googleの無料ツール「Google Search Console」を併用し、クローラーが見やすいサイト構造にする必要があります。

このクロール最適化も、1回やって終わりではありません。新しいページや修正があれば、随時リクエストし、内部リンクの充実化、リンク切れのチェックなど、継続することでサイトの品質を維持していきましょう。