S-JIS[2006-05-14/2008-12-25]

エンコーディング

様々な言語・環境の、漢字コード体系（エンコード）の表現（指定方法）。

言語	ASCII	JIS	SJIS	EUC	UTF8	UTF16	Unicode	備考	更新日
java（コンパイルオプション・ファイル）	`US-ASCII`	`ISO-2022-JP`	`MS932 Shift_JIS Windows-31J`	`EUC-JP`	`UTF-8`	`UTF-16`		→Javaで使える名称一覧	2007-02-13
C# VB.NET	`Encoding. ASCII`	`Encoding. GetEncoding("iso-2022-jp")`	`Encoding. GetEncoding("shift_jis") Encoding. GetEncoding(932)`	`Encoding. GetEncoding("EUC-JP")`	`Encoding. UTF8`	`Encoding. Unicode`		System.Text.Encoding	2007-03-15
HTML（charset）	`us-ascii`	`ISO-2022-JP`	`Shift_JIS` `x-sjis（Netscape拡張）`	`EUC-JP` `x-euc-jp`	`utf-8`		`unicode`	大文字でも小文字でもどちらでも可
XML（encoding）		`ISO-2022-JP`	`Shift_JIS`	`euc-jp`	`UTF-8`			省略時はUTF-8
コマンドプロンプト	`us chcp 437`		`jp chcp 932`						2006-07-24
VC++コードページ	`0000`		`03a4`（十進数に直すと932）				`04b0`		2006-09-09
UNIX（LANG）			`ja_JP.PCK`	`ja`	`ja_JP.UTF-8`
iconv		`jis`	`SJIS`	`eucJP`	`UTF-8 UTF-8-Java`			man iconv_ja
Oracle（NLS_LANG）	`Japanese_Japan. US7ASCII`		`Japanese_Japan. JA16SJIS JA16SJISTILDE`	`Japanese_Japan. JA16EUC JA16EUCTILDE`	`Japanese_Japan. UTF8`				2008-12-25
PostgreSQL （PGCLIENTENCODING）（\encoding）	`SQL_ASCII`		`SJIS`	`EUC_JP`	`UNICODE`

備忘

ASCII：American Standard Code for Information Interchange [2006-07-24]
UTF：UCS/Unicode Transformation Format [2007-05-03]
Windows-31J（MS932）は機種依存文字（「①」等）を含むが、Shift_JISは含まない。[2006-07-24]
→Javaでの出力例 [2007-02-13]

UnicodeとUTFの関係

Unicodeは、21ビットで1文字を表す文字コード体系。[2007-05-03]
（Unicodeは、地球上の全世界の文字を1つの体系で表そうと試みているらしい。当初は16ビットとしていたが、足りなくなったので21ビットになったそうだ。16ビットを超える分は補助文字と呼ぶ）

プログラミング言語の中では、文字列はUnicodeの配列で表せばよい。
しかしこれをそのままファイルに出力しようとすると、無駄が多い。
例えば「ABCあ」という文字列は、Unicodeでは（十六進数で）0041,0042,0043,3042。半角アルファベットを詰めることが出来れば、全体として短くできる。
そういった“Unicodeの具体的な保持方法”の決め事が、UTF-8やUTF-16・UTF-32等のエンコーディング（符号化方式）。

方式	概要	「ABCあ」の符号化例
UTF-32	全てを4バイトで表す。一番単純だが一番冗長。	00000041 00000042 00000043 00003042	16Byte
UTF-16	基本の文字を2バイト、補助文字を4バイトで表す。	0041 0042 0043 3042	8Byte
UTF-8	半角アルファベット（ASCII体系）は1バイト、その他を2/3/4バイトで表す。	41 42 43 E38182	6Byte

参考

Sunの「サポートされているエンコーディング」 … Java (2006-07-24)
@ITの「Eclipseで文字符号化の理解を深める」 … Java (2006-07-24)
@ITの「Encodingクラスで扱えるエンコーディング名」 … C# (2006-07-24)
ITアーキテクトの「文字列操作の変革」 … Javaだが、UNICODEの符号化方法について詳しい (2007-05-03)
Wikipediaの「Unicode」 … (2007-05-03)

プログラム言語比較へ戻る / 技術メモへ戻る

メールの送信先：ひしだま