Webクローラ

  • 投稿日:
  • by
  • カテゴリ:

C#らくだなぁ。

WebBrowserコントロールで、簡単なWebクローラを書いてみた、まずはイメージ保存を試してみた。

サムネイルじゃなくて、イメージ。

DrawToBitmap()はだめぽいとかかれているページもあったけど、手元環境では問題なし。なので数行でかけた。

 

201102130006 201102130004  

ちょっと描画がおかしいところあるなぁ。

 

HTMLの内容もDocumentStreamからベタで保存できた。簡単な巡回キューも動いたので、あとちょっと。

だけどそれだと、Jvascriptで挿入されたDOM要素とかが保存されないんだよなぁ。

まじめにDOMをパースして文字列化するのが欲しい実装。

 

そうでなければ、wgetとかでいいし。

「IEでどう見えているページか」というのは重要な気がする。

 

いまどきなら、ケータイ端末でどう見えるかも。

でもそんなクローラはなかなか作りにくそうね。