OCamlで使えるHTMLパーサとして、Ocamlnetを試す。きちんと機能すれば便利なんだろうが、機能しない。簡単で単純なHTMLならイケるんだろうが、テレビ王国のHTMLを食わせたら大部分スッポ抜ける。他にめぼしいパーサも無さそうだし、事実上OCamlでHTMLパースはできないってことか(自分で頑張るってのは別として)。OCamlを使おうという気分が結構萎える。
Pythonでも標準のライブラリではHTMLは使いにくい。現在はJavaのライブラリnu.validator.htmlparserを使ってHTMLをXMLに変換してからminidomに食わせている。nu.validator.htmlparserはテレビ王国も適切に扱える優秀なHTMLパーサ。
2015.02.02
tvp_Oではしかたがないので自分で書く。
2015.04.02
OSTRACISM CO.
OSTRA / Takeshi Yoneki