sitemap_gen.pyはイマイチだった

  • 投稿日:
  • by
  • カテゴリ:

設定ファイルのコメントがシンプルすぎる。

サンプルもないし。

特定ディレクトリを除外したいので、config.xmlに

<filter action="drop" type="wildcard" pattern="/ccccc/*" />

と書いても反応しない。いろいろ試しているうちに面倒になってグーグル先生に聞いた。

# その前にpyスクリプトも眺めたけど、これって・・・

 

Google Sitemap Generator 1.4 を可能な限り簡単に解説したい#gen.py%E5%A4%89%E6%9B%B4

    • ここからが少し面倒。 要はサイトマップに登録してほしくないファイルをフィルターしてあげる
    • ただし、ちょっとコツがいる

まさに「コツがいる」。

これって記述順に依存するのは仕方がない気もするけど、

「とりあえず除外リストに書いたつもり」

で結果を確認しないで、クロールされて困っちゃう場合も多いんじゃないかなぁ。

ドキュメントにはrobots.txtで除外されていれば、そちらが優先になってクロールされない、とかいう気休めが書いてあるけど。

 

「どこからもリンクされてない(あえて公開していない)スクリプトを晒しまくるツール」に成り下がってる気がする。