Robots.txtファイルの作成方法:2025年版ステップバイステップガイド



小さなSEOツールを使ってRobots.txtを適切に設定する方法

正直、robots.txtファイルの作成は一見簡単そうに思えます。しかし、実際には最初のうちは何度も問題に遭遇しました。これは、検索エンジンがコンテンツをクロールする方法を制御するという、小さなファイルでありながら大きな違いを生み出すことができるファイルの1つなのです。このファイルを間違えると、ページがインデックスに登録されなかったり、最悪の場合、サーバーがボット攻撃に見舞われたりする可能性があります。そこで、複雑なコーディングをせずにファイルを作成する方法を見つけましたが、このツールのUIは、注意深く見ていないと少し分かりにくいかもしれません。

ステップ1:Small SEO Tools Robots Generatorを起動する

まず、ブラウザを開きます。普段使っているブラウザなら何でも構いません。Chrome、Firefox、Edge など何でも構いません。私と同じなら、もうタブを 1000 個も開いているでしょうから、これはその 1 つにすぎません。Small SEO Tools の Robots.txt Generatorにアクセスしてください。正直に言うと、ちょっと埋もれてしまったりします。サイト上のすべてが前面に出ているわけではなく、メニューを探したり、他のツールのページをスクロールして探さなければならないこともありました。重要なのは?Robots.txt Generatorへのリンクを見つけることです。私の古い ASUS ラップトップでは、SEO Tools の下に隠れていましたが、別のマシンではチュートリアルの下にありました。頻繁にアクセスする予定なら、ブックマークを付けておくことをお勧めします。

ステップ2: 設定を試す – デフォルトまたはカスタム

そこにアクセスしたら、オプションが表示されます。デフォルト設定をそのまま使用するか(これは魅力的ですが)、細かい設定にこだわってカスタマイズするかを選択できます。私は通常crawl delay、 を設定することを検討します。信じられないかもしれませんが、検索エンジンが積極的にクロールするとサーバーに過負荷をかける可能性があるためです。遅い共有ホストでは、 あたりに設定しています10 seconds。ただし、正直なところ、ホスティングの設定によって異なります。ログにスパムの急増が見られる場合、この値を調整すると非常に効果的です。 秒を試して5効果がありましたが、不必要にすべてを遅くしたくない場合は、10かそれ以上の値から始めて、後でサーバーの応答に基づいて調整することをお勧めします。

ステップ3: サイトマップのURLを入力する

この部分は予想以上につまずきました。サイトマップのURLを正確に入力する必要があります( のような形式)https://yourdomain.com/sitemap.xml。これを含めることで、検索エンジンがページをより速く、より完全に検出しやすくなります。入力ミスがないか必ず確認してください。私はここでURLを何度か間違えたことがあり、特にスラッシュの抜けやドメインのスペルミスが目立ちます。サイトが大きいためにサイトマップのインデックスがある場合は、それも含めてください。WordPressやShopifyなどのCMSを使用している場合は、サイトマップが別の場所にある可能性があるので、まずそちらを確認してください。

ステップ4:ターゲットとする検索エンジン(またはボット)を選択する

ここからが面白いところです。Google、Bing、Yahoo!、DuckDuckGo、Google Images、そしてBaiduのようなあまり一般的ではない検索エンジンのチェックボックスがあります。デフォルトでは通常GoogleとBingが含まれています。本当にすべてをターゲットにする必要があるのでしょうか?それはオーディエンスによって異なります。少なくとも、まだサイトをクロールしてほしくない検索エンジンがあれば、チェックを外してください。これらの設定は、ボットがアクセスできる範囲を制御するものであることに注意してください。つまり、今Bingをブロックすると、クロールは停止します。最終的に完全な可視性を確保したいのであれば、すべてをブロックするのは避けてください。

ステップ5: ファイルを生成してアップロードする

「作成」または「生成」ボタン(ボタン名が表示されているもの)をクリックすると、小さなrobots.txtテキストファイルが生成されます。このファイルをウェブサイトのルートディレクトリにアップロードする必要があります。最初の頃、​​私はここで何度も失敗していました。間違ったフォルダにアップロードしてしまうのです。通常、アップロード先はホストによって異なりますが、/public_html/または のようなルートフォルダ/www/です。もしわからない場合は、https://yourdomain.com/robots.txtアップロード後にブラウザで にアクセスしてみてください。コンテンツが表示されれば問題ありません。404エラーが表示される場合は、別の場所にアップロードしたことになります。これはよくある間違いで、特にホストに複数のフォルダがある場合やカスタム設定を使用している場合によく起こります。

簡単なヒント:

ファイルがウェブサイトのルートフォルダにアップロードされていることを必ず確認してください。誤ってサブフォルダ内にアップロードしてしまうと、誰にも見られなくなってしまう可能性があります。また、サイトのキャッシュやCDNを使用している場合は、それらをクリアしてください。古いバージョンが残っている場合があり、新しいrobots.txtがすぐに表示されないことがあります。

最終アドバイスとまとめ

このプロセス全体は最初は難しそうに思えるかもしれませんが、一度コツをつかめば、ファイルが適切な場所に配置され、正しいルールが適用されていることを確認するだけです。正しく設定することで、検索エンジンのクロールエラー、クロールバジェットの無駄、サーバーの過負荷を防ぐことができます。ほとんどの小規模サイトでは、や のようなrobots.txtシンプルなディレクティブで十分です。ここで設定したルールは、GoogleやBingがサイトをどのように認識するかに影響するため、厳密に正確に保つことが重要です。User-agent: *Disallow:Allow:


Small SEO Tools を使ったファイルの生成は、robots.txtブロックしたい内容と許可したい内容さえ分かれば、かなり手軽です。特に特定のページを非公開にしたり、重複コンテンツの問題を防いだりする場合、その効果は驚くほどです。設定後は、必ず実際にアクセスしてhttps://yourdomain.com/robots.txtコンテンツを確認しています。また、Google Search Console または Bing Webmaster Tools 経由で robots.txt を送信することを検討し、クロールエラーやブロックされた URL に注意してください。何か問題があれば、これらのツールで対処できます。

これがお役に立てば幸いです。私もこれを理解するのにかなり長い時間がかかりました。時間をかけて、アップロード先を再確認し、必要に応じて継続的な調整として扱ってください。信じてください、これを正しく行う価値はあります。頑張ってください。そして、アップロード後は必ず全てをテストしてください。ホスティングやCDNが古いバージョンをキャッシュしている可能性があり、安心しきれていない可能性があります。



この記事は役に立ちましたか?