S-JIS[2006-05-14/2008-12-25]

エンコーディング

様々な言語・環境の、漢字コード体系(エンコード)の表現(指定方法)。

言語 ASCII JIS SJIS EUC UTF8 UTF16 Unicode 備考 更新日
javaコンパイルオプションファイル US-ASCII ISO-2022-JP MS932
Shift_JIS
Windows-31J
EUC-JP UTF-8 UTF-16   Javaで使える名称一覧 2007-02-13
C#
VB.NET
Encoding.
ASCII
Encoding.
GetEncoding("iso-2022-jp")
Encoding.
GetEncoding("shift_jis")
Encoding.
GetEncoding(932)
Encoding.
GetEncoding("EUC-JP")
Encoding.
UTF8
Encoding.
Unicode
  System.Text.Encoding 2007-03-15
HTML(charset) us-ascii ISO-2022-JP Shift_JIS
x-sjis(Netscape拡張)
EUC-JP
x-euc-jp
utf-8   unicode 大文字でも小文字でもどちらでも可  
XML(encoding)   ISO-2022-JP Shift_JIS euc-jp UTF-8     省略時はUTF-8  
コマンドプロンプト us
chcp 437
  jp
chcp 932
          2006-07-24
VC++コードページ 0000   03a4(十進数に直すと932)       04b0   2006-09-09
UNIXLANG     ja_JP.PCK ja ja_JP.UTF-8        
iconv   jis SJIS eucJP UTF-8
UTF-8-Java
    man iconv_ja  
OracleNLS_LANG Japanese_Japan.
US7ASCII
  Japanese_Japan.
JA16SJIS
JA16SJISTILDE
Japanese_Japan.
JA16EUC
JA16EUCTILDE
Japanese_Japan.
UTF8
      2008-12-25
PostgreSQL
PGCLIENTENCODING
\encoding
SQL_ASCII   SJIS EUC_JP UNICODE        

備忘


UnicodeとUTFの関係

Unicodeは、21ビットで1文字を表す文字コード体系。[2007-05-03]
(Unicodeは、地球上の全世界の文字を1つの体系で表そうと試みているらしい。当初は16ビットとしていたが、足りなくなったので21ビットになったそうだ。16ビットを超える分は補助文字と呼ぶ)

プログラミング言語の中では、文字列はUnicodeの配列で表せばよい。
しかしこれをそのままファイルに出力しようとすると、無駄が多い。
例えば「ABCあ」という文字列は、Unicodeでは(十六進数で)0041,0042,0043,3042。半角アルファベットを詰めることが出来れば、全体として短くできる。
そういった“Unicodeの具体的な保持方法”の決め事が、UTF-8やUTF-16・UTF-32等のエンコーディング(符号化方式)

方式 概要 「ABCあ」の符号化例
UTF-32 全てを4バイトで表す。一番単純だが一番冗長。 00000041 00000042 00000043 00003042 16Byte
UTF-16 基本の文字を2バイト、補助文字を4バイトで表す。 0041 0042 0043 3042 8Byte
UTF-8 半角アルファベット(ASCII体系)は1バイト、その他を2/3/4バイトで表す。 41 42 43 E38182 6Byte

参考


プログラム言語比較へ戻る / 技術メモへ戻る
メールの送信先:ひしだま