[HOME]

POST/LXデータ to テキストデータ


1.概要

   

2006-04-16

2.過去データでの処理

2006-04-16

3.2006年のデータ用検討


1.概要
POST/LXのメールデータ(1年分の1ファイル)をテキストデータとして保管し、テキストエディタで読んだり、キーワード検索できるようにしたい。その場合のデータ変換を簡単にしたいなあという発想です。
POST/LXのファイル内では、日本語はエンコードされたままなので、そのままではエディタでは読めないですね。
データはこんな感じですもんね。

Delivery-Agent: @(#)$Id: local.c,v 1.79 2003/09/18 11:07:03 at

$B44;vLr!"$46lO+MM$G$7$?!#(Bmasa $B$G$9!#(B
$B3Z$7$$%*%U2q$G$7$?!#<!2s$b!"@'Hs;22C$7$?$$$H;W$$$^$9!#(B

過去には、POST/LXで一通一通エクスポートしてましたが、100通〜200通を越えると、ちょっと泣きたい位面倒です。


2.過去データでの処理
過去数年間のデータは、以前に仕方なくエクスポートしたデータがありますので、まずそれを処理することから始めました。
過去のデータのフォーマットは次のようなテキストファイルになっています。(エクスポートした後、手でセパレータを入れたりしてある。)

フォーマット1

  

フォーマット2

From: FFFFFFFFF
Date: DDDDDDDD
To: TTTTTTTTTT
Subject: SSSSSSSSSS


本文

--------mail--------
From: FFFFFFFFF
Date: DDDDDDDD
To: TTTTTTTTTT
Subject: SSSSSSSSSS


本文

フォーマット2ではセパレータとして”--------mail--------”を入れましたが、段々面倒になって後の年のは入れてません。これを全て同じフォーマットに直す処理をCで作成しました。もちろん、上のままでもエディタで読むには問題ありませんが、やはりメール1通1行で表題表示をするためです。このメール読みソフトとしては、ニフティのログ読みで有名な「NIFP」を使用しました。(スクリプトを自作するために、フォーマットを合わせる必要があるわけです。

欲しい出力フォーマット     

 

width="320">

--------mail--------
From: FFFFFFFFF
Date: DDDDDDDD
Subject: SSSSSSSSSS
To: TTTTTTTTTT

本文

上のフォーマット2と似ていますが、ヘッダは必ず
From:
Date:
Subject:
の順番で、連続した3行でないといけない。

NIFPでの表示  →
右のように、送信者、日付、題名 が
1行に表示される。

FFFFFFFFFF  DDDDDDDDD  SSSSSSSSSSSSSSSSS

以上のように、フォーマット1びフォーマット2(1ファイルの中に混じっていても良い)を入力して、欲しい出力フォーマットを作成するソフト「POSTCHK」と、NIFPのスクリプトを作成しました。
なお、「POSTCHK」は Daniel HertrichさんのPOST2MBXをかなりの部分参考にしています。
      http://www.daniel-hertrich.de/

POSTCHK 1.01

NIFPのスクリプト(下欄)

;1.30 スクリプト仕様の版数です。必ず必要ですので,削除しないでください。

;
; 簡易メールスクリプト for NIFP
; writen by MASA
;F:a:\ktx\nifp\nifpdia.cfg

;最新版********* WWW/LX出力用
T:80,1
C:----{*6}mail----{*6}\nFrom:{?}{*14}{*60}\nDate:{?}{*16}{*30}\nSubject:{?}{*40}
S:T={&4 &7 &A}



注意事項:まだ、問題があります。下記のフォーマットがある場合、予め手直ししないとメールが分離されてしまいます。

メールフォーマット     

--------mail--------
From: FFFFFFFFF
Date: DDDDDDDD
Subject: SSSSSSSSSS

本文1

---original message------
From: FFFFFFFFF
Date: DDDDDDDD
Subject: SSSSSSSSSS

送った本文

> 

左のフォーマットがあった場合、上半分と下半分が分離されてしまいます。
必ずセパレータ(--------mail--------)があることを前提に作ればいいのですが、そうでないファイルもあったことから、この仕様になってます。
とりあえずは下のヘッダ部分には、先頭に”>”を手で追加してから処理しました。
2006年のデータ用に簡単な方法を考えています。




3.2006年のデータ用検討
。。