様々な言語・環境の、漢字コード体系(エンコード)の表現(指定方法)。
言語 | ASCII | JIS | SJIS | EUC | UTF8 | UTF16 | Unicode | 備考 | 更新日 |
---|---|---|---|---|---|---|---|---|---|
java(コンパイルオプション・ファイル) | US-ASCII |
ISO-2022-JP |
MS932 |
EUC-JP |
UTF-8 |
UTF-16 |
→Javaで使える名称一覧 | 2007-02-13 | |
C# VB.NET |
Encoding. |
Encoding. |
Encoding. |
Encoding. |
Encoding. |
Encoding. |
System.Text.Encoding | 2007-03-15 | |
HTML(charset) | us-ascii |
ISO-2022-JP |
Shift_JIS
x-sjis(Netscape拡張) |
EUC-JP
x-euc-jp |
utf-8 |
unicode |
大文字でも小文字でもどちらでも可 | ||
XML(encoding) | ISO-2022-JP |
Shift_JIS |
euc-jp |
UTF-8 |
省略時はUTF-8 | ||||
コマンドプロンプト | us |
jp |
2006-07-24 | ||||||
VC++コードページ | 0000 |
03a4 (十進数に直すと932) |
04b0 |
2006-09-09 | |||||
UNIX(LANG) | ja_JP.PCK |
ja |
ja_JP.UTF-8 |
||||||
iconv | jis |
SJIS |
eucJP |
UTF-8 |
man iconv_ja | ||||
Oracle(NLS_LANG) | Japanese_Japan. |
Japanese_Japan. |
Japanese_Japan. |
Japanese_Japan. |
2008-12-25 | ||||
PostgreSQL (PGCLIENTENCODING) (\encoding) |
SQL_ASCII |
SJIS |
EUC_JP |
UNICODE |
Unicodeは、21ビットで1文字を表す文字コード体系。[2007-05-03]
(Unicodeは、地球上の全世界の文字を1つの体系で表そうと試みているらしい。当初は16ビットとしていたが、足りなくなったので21ビットになったそうだ。16ビットを超える分は補助文字と呼ぶ)
プログラミング言語の中では、文字列はUnicodeの配列で表せばよい。
しかしこれをそのままファイルに出力しようとすると、無駄が多い。
例えば「ABCあ」という文字列は、Unicodeでは(十六進数で)0041,0042,0043,3042。半角アルファベットを詰めることが出来れば、全体として短くできる。
そういった“Unicodeの具体的な保持方法”の決め事が、UTF-8やUTF-16・UTF-32等のエンコーディング(符号化方式)。
方式 | 概要 | 「ABCあ」の符号化例 | |
---|---|---|---|
UTF-32 | 全てを4バイトで表す。一番単純だが一番冗長。 | 00000041 00000042 00000043 00003042 | 16Byte |
UTF-16 | 基本の文字を2バイト、補助文字を4バイトで表す。 | 0041 0042 0043 3042 | 8Byte |
UTF-8 | 半角アルファベット(ASCII体系)は1バイト、その他を2/3/4バイトで表す。 | 41 42 43 E38182 | 6Byte |