1.概要 |
2006-04-16 |
|
2.過去データでの処理 |
2006-04-16 |
|
1.概要
POST/LXのメールデータ(1年分の1ファイル)をテキストデータとして保管し、テキストエディタで読んだり、キーワード検索できるようにしたい。その場合のデータ変換を簡単にしたいなあという発想です。
POST/LXのファイル内では、日本語はエンコードされたままなので、そのままではエディタでは読めないですね。
データはこんな感じですもんね。
Delivery-Agent: @(#)$Id: local.c,v 1.79 2003/09/18 11:07:03 at |
過去には、POST/LXで一通一通エクスポートしてましたが、100通〜200通を越えると、ちょっと泣きたい位面倒です。
2.過去データでの処理
過去数年間のデータは、以前に仕方なくエクスポートしたデータがありますので、まずそれを処理することから始めました。
過去のデータのフォーマットは次のようなテキストファイルになっています。(エクスポートした後、手でセパレータを入れたりしてある。)
フォーマット1 |
フォーマット2 |
|
From: FFFFFFFFF |
--------mail-------- |
フォーマット2ではセパレータとして”--------mail--------”を入れましたが、段々面倒になって後の年のは入れてません。これを全て同じフォーマットに直す処理をCで作成しました。もちろん、上のままでもエディタで読むには問題ありませんが、やはりメール1通1行で表題表示をするためです。このメール読みソフトとしては、ニフティのログ読みで有名な「NIFP」を使用しました。(スクリプトを自作するために、フォーマットを合わせる必要があるわけです。
欲しい出力フォーマット |
|
width="320"> |
--------mail-------- |
上のフォーマット2と似ていますが、ヘッダは必ず |
|
NIFPでの表示 → |
FFFFFFFFFF DDDDDDDDD SSSSSSSSSSSSSSSSS |
以上のように、フォーマット1及びフォーマット2(1ファイルの中に混じっていても良い)を入力して、欲しい出力フォーマットを作成するソフト「POSTCHK」と、NIFPのスクリプトを作成しました。
なお、「POSTCHK」は Daniel HertrichさんのPOST2MBXをかなりの部分参考にしています。
http://www.daniel-hertrich.de/
NIFPのスクリプト(下欄) |
;1.30 スクリプト仕様の版数です。必ず必要ですので,削除しないでください。 |
注意事項:まだ、問題があります。下記のフォーマットがある場合、予め手直ししないとメールが分離されてしまいます。
メールフォーマット |
||
--------mail-------- |
> |
左のフォーマットがあった場合、上半分と下半分が分離されてしまいます。 |