ここでは、JIS X 0213を利用して日本語・アイヌ語・エスペラントの混在 する文書を処理する例を示します。
ここでは、Macintoshで作成したJIS X 0213のHTML文書を、 Linuxで受信し、StarSuite 8 Beta Writerで表示、PDFに変換して配布します。 最後にWindowsマシンで印刷します。
ここで使用するHTML文書は、ミソサ ザイのお話です。このHTML文書は、JIS X 0213のシフトJIS符号化を使っ て、日本語・アイヌ語・エスペラントの三つの言語で書かれています。
このHTML文書の作成には、Macintoshが使われています。 今回、この文書を公開されている方から、この文書の利用許可を頂きました。
このHTML文書を私はLinuxマシンで受信しました。
HTML文書は、テキストブラウザのLynxを使って、プレーンテキストに 整形することができます。コマンドラインから以下のようにして、 misosazai.txtに整形したプレーンテキストを出力します。
$ lynx -dump AT33_cakcak.htm > misosazai.txt
元のAT33_cakcak.htm はシフトJISで符号化されていますが、 misosazai.txt はこの時点でEUCになっています。
このようにしてできたJIS X 0213のプレーンテキストは、txt2sxwを使って、 ワープロソフト OpenOffice.org/StarSuite Writerのsxw形式に変換できます。 コマンドラインから以下のようにしてワープロ文書に変換します。ここでは フォントにXANO明朝U32を利用しています。
$ txt2sxw.rb -f XANO-mincho-U32 misosazai.txt misosazai.sxw
こうしてできたmisosazai.sxwをStarSuite 8 Beta Writerで開くと 下の画像のようになります。(OpenOffice.org Writerでも同様です)
このように、日本語・アイヌ語・エスペラントの三つの言語が混在した文 書が正しく表示されています。アイヌ語に特有の小書きの片仮名や、エスペラ ントで用いられる字上符つきのラテン文字に注目してください。
StarSuite/OpenOffice.orgの機能を使って、この文書をPDF形式にエクスポー トすることができます。PDFは文書の配布形式としてよく広まっているので、 この機能を使うことでJIS X 0213の文字を使った多言語文書を広く配布できます。
「PDFとしてエクスポート」機能によって、PDF文書が作成できます。 作成したPDF文書を私は、Windowsマシンに持っていってプリンタで 印刷しました。
一連の作業はこれでおしまいです。
以上の作業を通して、JIS X 0213で符号化した文書が、HTML、プレーンテ キスト、ワープロ文書、PDFという各種の形式に変換されていきました。 その過程で、文書は Macintosh、Linux、Windowsという各種プラットフォームを渡り歩いて います。これによって、JIS X 0213で符号化したテキストが自在に活用でき ることが示されました。