サンプルコードをコピペして動かないのは訓練には良いですが。
翻訳の場合は、仕方がないんですかね。
Microsoft C#での HTML 構文解析
http://japan.internet.com/developer/20051115/25.html
↑にスパイダーの大御所?によるHTMLパーサのサンプルがあるんですが、以下の問題点がありました。
- 改行文字などのエスケープ文字が消えてる
- 2重引用符が全角になってる
↓こちらを見れば消えてる文字は確認できます。
Parsing HTML in Microsoft C#
http://www.developer.com/net/csharp/article.php/10918_2230091_2/Parsing-HTML-in-Microsoft-C.htm
これ、同じコードは同じなんですかねぇ。微妙に違うぽいんですが。diffとって確認するのはめんどくさいです。
まぁとにかく動いたので、まぁいいや。
動作例:
Enter a URL address:http://d.hatena.ne.jp/syasuda/
Scanning hyperlinks at: http://d.hatena.ne.jp/syasuda/
Found link: ./
Found link: /help
Found link: /syasuda/?of=5
Found link: /css/base.css?2010010401
Found link: /css/headerstyle_br.css
Found link: http://d.hatena.ne.jp/syasuda/rss
Found link: http://d.hatena.ne.jp/syasuda/rss2
Found link: http://d.hatena.ne.jp/syasuda/foaf
Found link: http://d.hatena.ne.jp/syasuda/opensearch/diary.xml
Found link: http://d.hatena.ne.jp/syasuda/opensearch/archive.xml
Found link: http://d.hatena.ne.jp/images/br_favicon.ico
Found link: http://d.hatena.ne.jp/syasuda/mobile
Found link: /microsummary/entry_title.xml
Found link: /syasuda/
・・・
コメント