プログラムリストの誤字は困るなぁ

  • 投稿日:
  • by
  • カテゴリ:



サンプルコードをコピペして動かないのは訓練には良いですが。


翻訳の場合は、仕方がないんですかね。


Microsoft C#での HTML 構文解析


http://japan.internet.com/developer/20051115/25.html


↑にスパイダーの大御所?によるHTMLパーサのサンプルがあるんですが、以下の問題点がありました。



  • 改行文字などのエスケープ文字が消えてる

  • 2重引用符が全角になってる


↓こちらを見れば消えてる文字は確認できます。


Parsing HTML in Microsoft C#


http://www.developer.com/net/csharp/article.php/10918_2230091_2/Parsing-HTML-in-Microsoft-C.htm


これ、同じコードは同じなんですかねぇ。微妙に違うぽいんですが。diffとって確認するのはめんどくさいです。


まぁとにかく動いたので、まぁいいや。


動作例:



Enter a URL address:http://d.hatena.ne.jp/syasuda/


Scanning hyperlinks at: http://d.hatena.ne.jp/syasuda/


Found link: ./


Found link: /help


Found link: /syasuda/?of=5


Found link: /css/base.css?2010010401


Found link: /css/headerstyle_br.css


Found link: http://d.hatena.ne.jp/syasuda/rss


Found link: http://d.hatena.ne.jp/syasuda/rss2


Found link: http://d.hatena.ne.jp/syasuda/foaf


Found link: http://d.hatena.ne.jp/syasuda/opensearch/diary.xml


Found link: http://d.hatena.ne.jp/syasuda/opensearch/archive.xml


Found link: http://d.hatena.ne.jp/images/br_favicon.ico


Found link: http://d.hatena.ne.jp/syasuda/mobile


Found link: /microsummary/entry_title.xml


Found link: /syasuda/


・・・