html2regexpはHTML要素を抽出する正規表現を自動生成するツールです。 抽出対象のHTML要素を指定したHTMLファイルを入力すると、それらのHTML要素のみを全て抽出する正規表現を出力します。
次のHTMLファイルをhtml2regexpに入力します。 このとき、タグの末尾の"h2r"により、抽出対象のHTML要素を指定します。
<ul> <li><a href="hoge" class="h" h2r>hoge</a></li> <li><a href="huga" class="h" h2r>huga</a></li> </ul> <div> <a href="f">f</a> </div>html2regexpは、このHTMLファイルから次の正規表現を生成します。 なお、このとき"h2r"は正規表現には含まれません。
(<(\w*?)\s*([^>]*?" class="h"[^>]*?)>(.*?)<\/\2>)この正規表現を実際に使うには multiline option, ignore case option, utf-8 option を指定する必要があります。
<div class="1"><div class="2">hoge</div></div>から、<div class="2">hoge</div>要素は抽出できますが、 <div class="1"><div class="2">hoge</div></div>要素は抽出できません。
$ tar xvzf libstree-0.4.2-y.tar.gz $ cd libstree-0.4.2-y $ ./configure $ make $ sudo make install
$ tar xvzf liblaika-0.0.1.tar.gz $ cd liblaika-0.0.1 $ ./configure $ make $ sudo make install
$ cd liblaika-0.0.1 $ cd ruby $ ruby extconf.rb $ make $ sudo make install
$ tar xvzf html2regexp-0.1.1 $ cd html2regexp-0.1.1 $ sudo ruby setup.rb