JIS X 0213を利用した多言語文書の処理の例

ここでは、JIS X 0213を利用して日本語・アイヌ語・エスペラントの混在 する文書を処理する例を示します。

概要

ここでは、Macintoshで作成したJIS X 0213のHTML文書を、 Linuxで受信し、StarSuite 8 Beta Writerで表示、PDFに変換して配布します。 最後にWindowsマシンで印刷します。

原文――HTML文書

ここで使用するHTML文書は、ミソサ ザイのお話です。このHTML文書は、JIS X 0213のシフトJIS符号化を使っ て、日本語・アイヌ語・エスペラントの三つの言語で書かれています。

このHTML文書の作成には、Macintoshが使われています。 今回、この文書を公開されている方から、この文書の利用許可を頂きました。

プレーンテキストに変換

このHTML文書を私はLinuxマシンで受信しました。

HTML文書は、テキストブラウザのLynxを使って、プレーンテキストに 整形することができます。コマンドラインから以下のようにして、 misosazai.txtに整形したプレーンテキストを出力します。

$ lynx -dump AT33_cakcak.htm > misosazai.txt

元のAT33_cakcak.htm はシフトJISで符号化されていますが、 misosazai.txt はこの時点でEUCになっています。

OpenOffice.org/StarSuite Writer形式に変換

このようにしてできたJIS X 0213のプレーンテキストは、txt2sxwを使って、 ワープロソフト OpenOffice.org/StarSuite Writerのsxw形式に変換できます。 コマンドラインから以下のようにしてワープロ文書に変換します。ここでは フォントにXANO明朝U32を利用しています。

$ txt2sxw.rb -f XANO-mincho-U32 misosazai.txt misosazai.sxw

こうしてできたmisosazai.sxwをStarSuite 8 Beta Writerで開くと 下の画像のようになります。(OpenOffice.org Writerでも同様です)

[多言語混在のワープロ文書の画像]

このように、日本語・アイヌ語・エスペラントの三つの言語が混在した文 書が正しく表示されています。アイヌ語に特有の小書きの片仮名や、エスペラ ントで用いられる字上符つきのラテン文字に注目してください。

PDFの作成

StarSuite/OpenOffice.orgの機能を使って、この文書をPDF形式にエクスポー トすることができます。PDFは文書の配布形式としてよく広まっているので、 この機能を使うことでJIS X 0213の文字を使った多言語文書を広く配布できます。

「PDFとしてエクスポート」機能によって、PDF文書が作成できます。 作成したPDF文書を私は、Windowsマシンに持っていってプリンタで 印刷しました。

一連の作業はこれでおしまいです。

まとめ

以上の作業を通して、JIS X 0213で符号化した文書が、HTML、プレーンテ キスト、ワープロ文書、PDFという各種の形式に変換されていきました。 その過程で、文書は Macintosh、Linux、Windowsという各種プラットフォームを渡り歩いて います。これによって、JIS X 0213で符号化したテキストが自在に活用でき ることが示されました。


2005年7月
Yano K.