プログラムリストの誤字は困るなぁ

サンプルコードをコピペして動かないのは訓練には良いですが。

翻訳の場合は、仕方がないんですかね。

Microsoft C＃での HTML 構文解析

http://japan.internet.com/developer/20051115/25.html

↑にスパイダーの大御所？によるHTMLパーサのサンプルがあるんですが、以下の問題点がありました。

改行文字などのエスケープ文字が消えてる

2重引用符が全角になってる

↓こちらを見れば消えてる文字は確認できます。

Parsing HTML in Microsoft C#

http://www.developer.com/net/csharp/article.php/10918_2230091_2/Parsing-HTML-in-Microsoft-C.htm

これ、同じコードは同じなんですかねぇ。微妙に違うぽいんですが。diffとって確認するのはめんどくさいです。

まぁとにかく動いたので、まぁいいや。

動作例：

Enter a URL address:http://d.hatena.ne.jp/syasuda/

Scanning hyperlinks at: http://d.hatena.ne.jp/syasuda/

Found link: ./

Found link: /help

Found link: /syasuda/?of=5

Found link: /css/base.css?2010010401

Found link: /css/headerstyle_br.css

Found link: http://d.hatena.ne.jp/syasuda/rss

Found link: http://d.hatena.ne.jp/syasuda/rss2

Found link: http://d.hatena.ne.jp/syasuda/foaf

Found link: http://d.hatena.ne.jp/syasuda/opensearch/diary.xml

Found link: http://d.hatena.ne.jp/syasuda/opensearch/archive.xml

Found link: http://d.hatena.ne.jp/images/br_favicon.ico

Found link: http://d.hatena.ne.jp/syasuda/mobile

Found link: /microsummary/entry_title.xml

Found link: /syasuda/

・・・

IGINブルネイ/syasudaの日記(MT版)

プログラムリストの誤字は困るなぁ

コメント