OSTRACISM CO.

ScalaとOCamlとF#とPythonと...

HTMLパーサ

 OCamlで使えるHTMLパーサとして、Ocamlnetを試す。きちんと機能すれば便利なんだろうが、機能しない。簡単で単純なHTMLならイケるんだろうが、テレビ王国のHTMLを食わせたら大部分スッポ抜ける。他にめぼしいパーサも無さそうだし、事実上OCamlでHTMLパースはできないってことか(自分で頑張るってのは別として)。OCamlを使おうという気分が結構萎える。

 Pythonでも標準のライブラリではHTMLは使いにくい。現在はJavaのライブラリnu.validator.htmlparserを使ってHTMLをXMLに変換してからminidomに食わせている。nu.validator.htmlparserはテレビ王国も適切に扱える優秀なHTMLパーサ。


2015.02.02


 tvp_Oではしかたがないので自分で書く。


2015.04.02


「インデックス」へ戻る


OSTRACISM CO.

OSTRA / Takeshi Yoneki