利用上の注意

HTML4.0 で使える文字実体参照の表の利用上の注意

出典

HTML4.0 で使える文字実体参照の一覧」は、HTML4.0仕様書中の "Character entity references in HTML 4.0" を私が勝手にまとめたものです。JIS X 0201 カナ部分の文字の名称は、"Unicode 2.1 charts" の "Halfwidth and Fullwidth Forms" に拠っています。

表の見方

表の左側「数値文字参照」の欄には、文字番号と実際の数値文字参照による文字表記(「&#文字番号;」の形)を記しています。その右、「文字実体参照」の欄にも、同様に実体名と文字実体参照による文字表記(「&実体名;」の形)を記しています。右側の備考欄には、文字の説明を記しています。これは仕様書の中にある実体宣言の註釈文をそのまま引用したものです。よって英語です。

数値文字参照

表の左側には「数値文字参照」の文字番号と、対応する文字が表示されています。番号は十進数です。書式は「&#文字番号;」で、たとえば文字番号 169 の文字を参照するには © と書きます。

なお、HTML4.0 では 16進数での文字参照もできます。「&#x16進文字番号;」のように、数値の頭に x をつける形で参照します。たとえば 蛯 は「蛯」という漢字を参照します。

注意

この数値は、HTML4.0 のレパートリ(ISO10646 で定義されている文字集合にほぼ等しい)の中の文字番号なのですが、これは Unicode とほぼ等価になっていますので、Unicode のコード番号だと考えてしまって構いません。また、この表に載っていない文字でも、Unicode にあるものならすべて参照できます。たとえば、蟹 は漢字の「蟹」を参照します。

数値文字参照が符号化方式に依存しないことに注意してください。Shift_JIS でも ISO-2022-JP でも BIG5 でも ISO-8859-7 でも UTF-8 でも、© は常に Copyright 記号を示します。もっとも、お馬鹿なブラウザは HTML4.0 のレパートリではなく、他の符号化方式に当てはめて変な文字を表示することがあります。

文字実体参照

文字実体参照は、文字に名前を付けることで文字参照をより使いやすくしたものです。& の代わりに & と名前で指定することが出来ます。後者の方がより直感的で覚えやすいでしょう。

表は、HTML4.0 で使える文字実体参照を全て網羅しています。XML には '(アポストロフィ、あるいは単引用符)を参照する ' という実体がありますが、これは HTML4.0 にはありません。

注意

HTML の SGML 宣言では NAMECASE ENTITY NO ですから、実体名の大文字小文字は区別されます。&auml; と &Auml; は別の文字を参照しますし、&LT; は "<" を指すものではありません。HTML4.0 では &LT; は未定義ですから、そのまま &LT; と表示されるでしょう。これを &lt; と同一視して "<" を表示してはいけないのですが、実際のブラウザの対応がどうなっているのかは謎です。

また、&ampontan; のように書くと ampontan という名前の実体を参照することになります。これもそのまま &ampontan; と表示されるべきもので、&ontan; としてはいけないのですが、やはり実際の対応は謎です。yuuさんによる検証が参考になるかもしれません。

見えない文字、文字化け

ブラウザは全ての文字を表示できるとは限りません。表示できない文字は空白、ドット、豆腐、疑問符などに置き換えられている場合があります。特に &#255; 以降の文字は HTML2.0 や HTML3.2 では使えなかったもので、HTML4.0 に対応していないブラウザには認識できない可能性が大です。

もっとも、もともと見えない文字もありますのでご注意を。たとえば文字番号 106、&nbsp; で示される文字は「改行禁止スペース」ですから、空白が表示されます。また、コード番号 8207 、&rlm; で表される文字は、書字方向を「右から左」にするための制御文字で、空白さえも表示されません。


HTML4.0 で使える文字実体参照の一覧

ばけらのHTMLリファレンス

HTML鳩丸倶楽部

水無月ばけら, MINAZUKI Bakera
E-mail: bakera@star.email.ne.jp