用語について

この文書の最新版は「鳩丸ぐろっさり」に移転しています。以下の文章は古くなっているかも知れません。

鳩丸倶楽部で使う用語

鳩丸で使われているいくつかの用語について、ここで定義しておきます。

なるべく「正しい」用語を心がけますが、変な使い方をしているモノもあるかも知れません。

数字・記号

1バイトカナ

半角カタカナの俗称です。Shift_JIS や JIS X 0208 では半角カナ が 1オクテットで表現されるためにこの名があるようですが、EUC-JP や UTF-8 や UTF-16 では半角カタカナは1バイトではありません。

A

Another HTML-lint

k16 さんが提供している文法チェッカ Another HTML-lint。チェック機能はかなり強力で、大小さまざまなエラーが検出できますし、「結果の解説」もかなり役立ちます。

ASCII Space

ASCII文字の 32 番目の文字。16進数で言うと 0x20 。いわゆる半角空白。

ASCII文字

US-ASCII のことです。その名の通り ASCII で定められているのですが、ISO646 でも同じものが定められています。たとえば、ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz !"#$%&'()*+,-./0123456789:;<=>?@[]^_{|} などの文字は ASCII 文字です。

B

base64

base64 は、8bit のバイナリデータなどを 7bit で安全に送るための符号化方式です。8bit のバイナリデータを 6bit ずつに区切って、それを A-Z, a-z, 0-9, /, + の 64種の文字に置き換えます。末尾に半端が出たときは = で埋めます。従って、あらゆるデータを英数字と /+= で表現することが出来ます。任意の場所に改行を入れることも出来るので、一行の文字数に制限があるような環境でも利用可能です。

この符号化は、8bit のデータをメールで送付する際に最もよく利用されます。

BMP
  1. Basic Multilingual Plane の略。日本語にすると「基本多言語面」で、UCS-4 の最初の面(0群0面)のことを指します。Unicode 2.0 とほぼ等価です。

  2. BitMaP の略で「ビットマップ」と読みます。Windows でよく使われる画像形式ですが、無圧縮でサイズが大きいため WWW で公開するのには向きません。しかし、たとえば黒一色のビットマップを LHA で圧縮すると劇的に小さくなるので、それを……あわわわわ。

BOM

Byte Order Mark の略です。Zero Width No Break Space を参照。

C

CERN

ヨーロッパ素粒子物理学研究所。CERN は Conseil européen pour la Recherche Nucléaire の略です。WWW はここで発祥しました。

http://www.cern.ch

CGI

Common Gateway Interface の略です。外部からの要求に対してサーバーの中でプログラムを動作させて、その結果を返すという仕組みに関する共通のインターフェイスです……ってナンノコッチャ。

CSS

Cascading StyleSheet の略。現在、レベル1とレベル2が正式仕様として存在しています。

ちなみに、鳩丸で使用しているスタイルシートも CSS2 です。

D

DHTML

Dynamic HTML の略です。概ね、HTML に CSS などのスタイル言語、JavaScript などのスクリプト言語を組み合わせることで、動きのあるページを実現することを言います。WAI のアクセシビリティガイドラインには DHTML の定義があって、以下のように書かれています。

DHTML is the marketing term applied to a mixture of standards including HTML, style sheets, the Document Object Model [DOM1] and scripting. However, there is no W3C specification that formally defines DHTML. Most guidelines may be applicable to applications using DHTML, however the following guidelines focus on issues related to scripting and style sheets:

たとえば、ある要素に onclick="this.style.background='lime'" などと指定すると、それをクリックしたときに背景色が緑に変わるという動作を期待できるかもしれません。同じようにして、特定のボタンをクリックすると、要素の内容が表示されたり隠れたりする、などということも出来ます。このように、ユーザの操作やその他の状況に応じて文書の内容や見た目が変化するような物を総称して DHTML と呼びます。

DOM

Document Object Model の略で、HTML や XML の各要素をオブジェクトとして扱う仕様を定めたものです。いわゆる DHTML などで HTML の要素をオブジェクトとして扱う方法を示唆しているわけですが、現在 Dynamic HTML として通用しているもの全てを網羅しているわけではありません。

現在、DOM Level1 が W3C の Recommendation になっていて、以下で参照できます。

http://www.w3.org/TR/1998/REC-DOM-Level-1-19981001

Level2 も作業中です。

DTD

Document Type Definition の略で、文書型定義とも呼ばれます。どんな要素にどんな属性が使えてどこに書けるのかと言った文法を定義しているもの。これがないと、どういう文法で HTML を書いて良いのかぜんぜん分かりません。

E

EUC-JP

EUC は Extended Unix Code の略で、その名の通り、Unix 上で使われる文字符号化方式です。日本語を扱える EUC が EUC-JP で、「日本語EUC」と呼ばれます。

EUC-JP は ISO 2022 の機構を利用した 8ビットの符号化方式で、半角カタカナも利用可能です。日本語の文字にも メタ文字 に相当するビット列を含まないので、Perl スクリプトなどで扱いやすいというメリットがあります。

なお、俗に「EUCコード」などと呼ばれることがあるようです。EUC の C が何の略なのか知らないのでしょうか。

F

FTP

File Transfer Protocol の略で、インターネット上でファイルを転送する際に用いられるプロトコルの一つです。

G

GIF

Graphic Interchange Format の略。CompuServe で生まれた画像フォーマットです。可逆圧縮で、256色まで使用可能です。LZW という圧縮アルゴリズムで圧縮されているためファイルサイズはかなり小さく、また、GIF89a には透過やアニメーションの機能もあります。

但し、LZW圧縮アルゴリズムの特許UNISYS 社が押さえているため、GIF を作成するソフトウェアの作者は、UNISYS に上納金を納めなくてはなりません。そのため、フリーの GIF 作成ソフトは殆どありません。

将来的には、PNG に取って代わられる運命かも。

H

HTML

HyperText Markup Language の略。ただし、鳩丸で HTML と呼ぶのは、HTML の仕様に沿って書かれたものに限定しています。どの HTML仕様に準拠しているか不明なものは、正式な HTML とは認めません。この辺りはかなり厳格です。

なお、「えいちてぃーえむえる」は発音しにくいので、私は強引に「はとまる」と発音したりしています。たぶん、私だけでしょう。それがこのサイトの名前の由来ともなっているわけですが。

HTML文書

HTML の文法に従って記述された 文書インスタンスをファイルとして保存したものを指します。

HTTP

HyperText Transfer Protocol の略で、「ハイパーテキスト転送プロトコル」と訳されます。主に HTML を転送するためのプロトコルですが、HTML に限らず何でも転送できます。SMTP と違って 8bit の転送が保証されていますから、画像やプログラムなどのバイナリデータも転送可能です。

現在、HTTP のバージョンは 1.1 で、HTTP/1.1 と呼ばれます。HTTP/1.1 は RFC2616 で規定されています。

HTTP応答ヘッダ

HTTP の response header のことです。詳細は RFC2616 を見てください。厳密に言うとステータスコード("200 OK" など)の部分は HTTP 要求ヘッダには含まれないのですが、私はステータスコードもひっくるめて「応答ヘッダ」と呼ぶことがあります。

HTTP要求ヘッダ

HTTP の request header のことです。詳細は RFC2616 を見てください。

I

i18n

「国際化」というような意味の internationalization という単語がありますが、20文字からなる単語をタイピングするのは大変ですので、先頭の i と 末尾の n 以外の 18 文字を略して i18n と書いたりします。読むときは「いんたなしょなりぜーしょん」と発音すれば良いでしょう。

IANA

Internet Assigned Numbers Authority の略。文字セットや MIMEタイプの登録管理を行っているところです。「あいあな」と発音するようです。

IE

Microsoft社の Internet Explorer のこと。後ろにバージョンナンバーをつけて IE4.01 とか IE5 とか呼びます。

ISO

ISO は International Organization for Standardization の略で、国際標準化機構と訳されます。読んで字のごとく、国際標準を取り決めるための国際機関です。ISO の重要な規格をいくつか掲げておきます。

ISO646

文字集合の規格です。いわゆる ASCII文字について定めています。

ISO2022

エスケープシーケンスで複数の文字セットを切り替えて扱う方法について定めた規格です。JIS X 0202 はこれの邦訳です。

ISO8879

SGMLの規格です。JIS X 4151 はこれの邦訳です。

ただし、HTML4.0 や XML が採用しているのは ISO 8879:1986 そのものではなく、いくつかの拡張機能を先取りしています。ISO/IEC JTC1/SC34 N0029 などを見てください。

ISO10646

膨大な数の文字を含む文字集合の規格です。これの基本多言語面は Unicode2.1 とほぼ等価と言われています。

ISO-2022-JP

JIS X 0208 の文字を含む日本語を7ビットの符号で表現する文字符号化方式です、RFC1468 で規定されています。ISO 2022 のエスケープシーケンスの機構を利用しているためにこの名がありますが、この符号化方式自体は ISO の規格ではありません。特徴は、7ビットの符号化であること、そして半角カタカナを表現することが出来ないことです。

インターネットメールやネットニュースで日本語の文字を扱う際は、この文字符号化方式を使うのが一般的です。

俗に「JISコード」などと呼ばれるようですが、何故そう呼ばれるのかは不明です。

ISO-2022-JP-2

ISO-2022-JP を拡張して日本語以外の文字も使えるようにしたものですが、あまり使われていません。

ISO-8859-1

US-ASCIIにウムラウトつき文字などを加えた文字集合を表現する 8bit の文字符号化方式です。WWW は CERN で生まれたものですから、当初から US-ASCII ではなく ISO-8859-1 が使われていました。

ISP

Internet Service Provider の略です。インターネットサーヴィスを提供する者、たとえば、インターネットへのダイヤルアップ接続サーヴィスを提供している者のことです。

俗に「プロバイダ」と称される事が多いようですが、「インターネットサーヴィス」を提供するという点が肝要なのに、肝心のその部分を略してしまっては何を Provide するものなのかさっぱり分からなくなる、というような理由で、この略を嫌っている人も多いようです。

況や「プロバ」をや。

J

JIS

JIS マークでおなじみの(?) Japanese Industrial Standard 、すなわち日本工業規格です。

JIS X 0201

文字集合。US-ASCII に類似した JIS Roman の部分とカタカナの部分があります。このカタカナがいわゆる半角カタカナです。

JIS X 0208

文字集合。漢字や平仮名など多数の文字を含みます。何度か改訂されており、新JIS,旧JIS などと呼び分けられています。

JISハンドブック

JIS の規格をまとめた本。えらく高いのですが……。

JPEG

画像フォーマットの一つで、JPEG は Joint Photographic Experts Group の略です。フルカラーが扱えますので写真などに向いています。不可逆圧縮ですので、圧縮率を上げると元に戻らないという欠点があります。

L

LZW

GIF などに使われている圧縮展開アルゴリズムです。米UNISYS社特許を持っていて、これを利用するソフトウェアの作者はロイヤリティの支払いを要求されます。

M

Microsoft

ご存じ、世界一のソフトウェア会社です。何故か嫌われることが多いようです。

N

NN

Netscape Communications社の Netscape Navigator のことです。後ろにバージョンナンバーをつけて NN2 とか NN4.5 とか呼びます。NN4 はメーラーなどもひっくるめて NetscapeCommunicator という製品名で出回っていますが、その中のブラウザ部分はやはり NN と呼びます。

P

Perl

主に Unix 上で用いられるスクリプト言語です。正規表現による文字列の検索、置換などを得意とします。CGI のプログラムの多くは、この言語で記述されています。

PNG

PNG は Portable Network Graphics の略で、文字通りポータブルでネットワークなグラフィック(ナンノコッチャ?)です。「ぴんぐ」と発音します。

要するに画像フォーマットの一つなのですが、W3C が仕様を定めています。詳しくは "PNG (Portable Network Graphics) Specification" を参照してください。

可逆圧縮、フルカラーやグレースケールも扱える、ガンマ値を埋め込める、優れた拡張性、などなど非常に優れた特長を持ちますが、なんと言っても UNISYS 社に上納金を納める必要がないというのが最大の特長です。欠点は、アニメーションしない、古いブラウザでは表示できない、といったところでしょうか。

R

RFC

Request for Comments の略です。訳すと「コメント求む」と言ったところで、インターネットに関するいろいろな仕様を提案している文書です。その名が示すとおり提案に過ぎないはずなのですが、事実上の標準となっています。鳩丸で良く引き合いに出されるものをいくつか上げておきます。

RFC1468

RFC1468 "Japanese Character Encoding for Internet Messages" …… ISO-2022-JP の仕様について書かれています。

RFC1738

RFC1738 "Uniform Resource Locators (URL)" …… URL の書式について書かれています。

RFC1766

RFC1766 "Tags for the Identification of Languages" …… lang="ja" などという指定に使う言語コードについて書かれています。

RFC1866

RFC1866 "Hypertext Markup Language - 2.0" …… HTML2.0 の仕様書です。

RFC2070

RFC2070 "Internationalization of the Hypertext Markup Language" …… HTML2.0 の国際化版です。この HTML の典型的な文書型宣言は

<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML i18n//EN">

であり、また RFC には

SGML Declaration for HyperText Markup Language version 2.x (HTML 2.x = HTML 2.0 + i18n).

という記述がありますので、この HTML は HTMLi18n とも HTML2.x とも呼ばれます。

RFC2396

RFC2396 "Uniform Resource Identifiers (URI): Generic Syntax" …… URI の書式について書かれています。

RFC2616

RFC2616 "Hypertext Transfer Protocol -- HTTP/1.1" …… HTTP/1.1 の仕様書です。

S

SGML

Standard Generalized Markup Language の略で、大雑把に言うとマークアップ言語の国際規格です。ISO(国際標準化機構)の ISO 8879:1986 というやつで規定されています。JIS(日本工業規格)の JIS X 4151-1992 という規格はそれの日本語訳で、私は SGML に関してはこの JIS 規格を参照しています。

で、HTML というのはこの SGML の一種なのです。

SGML宣言

SGMLがどんな文字を利用するのか、タグの省略を許すのか、といった基本的な部分を定義したもの。詳しくはSGML宣言の読み方 を参照してくださいといいたいところですが、あまり詳しくありません。

Shift_JIS

JIS X 0201 の未定義部分にムリヤリ JIS X 0208 の漢字を押し込んで作った文字集合・文字符号化方式です。JIS X 0201 の文字は 1オクテットで、それ以外の文字は 2オクテットで表現します。もともと Microsoft が作ったものなので、「MS漢字」という別名があります。当然、日本語 Windows ではこの文字符号化方式が多用されていますが、最近では Unicode の処理系も増えてきたようです。

なお、「ムリヤリ押し込んだ」漢字の中には \ や @ のように、perl などの処理系でメタ文字に相当するビット列を含むものがあるため、たとえば「print "表示";」などとすると見事に文字化けする事があります。

Microsoft が作ったものとは言え、今や IANA にもしっかり登録されています。

SMTP

Simple Mail Transfer Protocol の略で、インターネットメールを転送する際に用いられるプロトコルです。このプロトコルは 7bit の転送しか保証していませんので、非ASCII の文字を送ると 8bit目が欠落して文字化けすることがあります。インターネットメールで生の Shift_JIS や EUC が使えない、と言われるのはこのためです。

これを拡張して 8bit コードを扱えるようにしたのが ESMTP です。

StrictDTD

非推奨な要素とフレームを含まない、厳格な HTML4.01 の DTD。単に HTML4.01 と言ったらこれを指します。

T

tilde

文字の上につくニョロっとした記号です。ティルド、チルダなどと発音されるようです。俗に「ニョロ」「チルダー」などと呼ばれることもあります。US-ASCII には 0x7E の位置にこの文字がありますが、JIS X 0201 や Shift_JIS にはこの文字はありません。代わりにあるのは overline(上線)です。

ですから、JIS キーボードのキートップに tilde が刻印されていないのは当然のことです。SHIFTを押しながら「へ」のキーで tilde が入力できるという解説を見かけることがありますが、その動作で入力されるのは overline であるはずです。

ただし、JIS 規格では、overline を tilde のような字形で表示しても良いことになっています。ですから tilde のように見える環境が多いのですが、それでも文字の名称は tilde ではなく、あくまで overline です。

typo

「タイポ」と発音します。Minor Typographic Error のことで、要するに打ち間違いによる誤字脱字の類です。

U

UA

User Agent の略。ユーザーエージェントを参照。

UCS

Universal Character Set の略です。UCS は世界中のあらゆる文字を網羅することを目指した文字集合で、ISO10646 で規定されています。

全ての文字を4オクテットで表現しようとする UCS-4 と、2オクテットで表現しようと言う UCS-2 とがあります。UCS-2 は UCS-4 の BMPの部分だけを含む文字集合で、Unicode2.0 とほぼ等価です。もっとも、現在のところ、UCS-4 の BMP 以外の部分は定義されていないのですが……。

HTML4 では、UCS-4 の文字全てを使えます……と言いますか、使えることを目指しています。現在の所は SGML 的な制限で UTF-16 で表現可能な文字しか使えないことになっていますが、将来的には UCS-4 の全ての文字を網羅することを目指しているようです。

UI

User Interface の略。

UNISYS

GIF の圧縮アルゴリズムの特許を持っている企業です。http://www.unisys.com/ を参照してください。

US-ASCII

ASCIIを参照。

UTF

UCS Transformation Format の略です。UTF は UCS-4 の文字集合を表現するための文字符号化方式ですが、その方法に応じて UTF-1, UTF-7, UTF-8, UTF-16 などがあります。UTF-8 と UTF-16 が良く使われます。

V

valid

文法的に適正なこと、特に HTMLXML などの文書インスタンスDTD に適合していることを言います。DTD のない XML 文書は valid にはなりませんが、well-formed にはなり得ます。

日本語では「妥当」などと訳されるようです。

W

W3C

The World Wide Web Consortium の略。HTML の推奨仕様などを定めている団体で、HTML4.0 の仕様も W3C によって定められています。http://www.w3.org/ を参照。

well-formed

文書インスタンスが整形されていることです。また、整形されている文書インスタンスのことを指すこともあります。主として XML の用語です。

ここで言う「整形されている」とは、要素の入れ子関係、開始タグと終了タグの対応関係などが XML の仕様に従っている事を言います。DTD に適合しているか否かは問いません。

また、DTD がない(validでない) XML 文書を特に well-formed と呼ぶことがあります。

日本語では「整形式」などと訳されるようです。

WWW

World Wide Web の略です。WWW で「ワールドワイドウェブ」と発音されますが、単に「ウェブ」と発音されることも多いようです。「だぶだぶだぶ」とか「ううう」とか発音されることもあるようです。

World Wide Web を直訳すると「世界規模蜘蛛の巣」です。ハイパーリンクを通じてインターネット上の他のリソースを簡単に参照できる仕組み、それによって多くの文書が相互にリンクしあい、蜘蛛の巣のようにリンクが張り巡らされているというわけです。

相互に張られたハイパーリンクこそが WWW の特徴であり、リンク無くしては WWW は WWW たり得ません。ですから、リンク禁止宣言は WWW に対する挑戦です。迂闊に「このサイトへのリンクを禁止します」などと書くと、多くの人から顰蹙を買うということは覚えておいた方が良いでしょう。

WWWブラウザ

HTML文書を読み込み、解釈し、画面、スピーカなどを通じてユーザーに伝えるソフトウェアです。ブラウザは視覚系ブラウザと非視覚系ブラウザに大別され、視覚系の中でも画像系と非画像系に分類されます。視覚系非画像ブラウザとは、文章を画面表示して画像を表示しない Lynx などを指します。

特に、音声で情報を伝えるものを「音声ブラウザ」と呼ぶことにしています。

X

XHTML, XHTML1.0

XHTML は eXtensible HyperText Markup Language の略で、HTML4.0 を XML の仕様に沿って定義し直したものです。SGMLアプリケーションでありかつ XML アプリケーションでもあります。現在、XHTML1.0 の仕様が制定されています。

XML

XML は Extensible Markup Language の略で、拡張可能なマークアップ言語という程度の意味です。SGML 応用系なのですが、DTD の存在しない文書を許容していたり、かなり異色です。W3C によって XML1.0 の仕様が定められています。

XSL

eXtensible Style Language, 拡張可能なスタイル言語。主に XML のためのスタイル言語で、まだ仕様の策定中ですが、XSLのドラフト文書が読めます。

Z

Zero Width No Break Space

UCS-4 の FEFF の文字は "Zero Width No Break Space" です。幅なし、改行もない空白文字ですから、見えませんし、改行もされません。画面表示には何の影響もありません。

この文字は、UCS-2, UCS-4, UTF-16 などのバイトオーダーがリトルエンディアンなのかビッグエンディアンなのかを判別するために使われます。FFFE という文字は存在しないので、先頭の2オクテットが FFFE なら、リトルエンディアンだと分かります。

この用途から、この文字はまた "Byte Order Mark" とも呼ばれます。

アスキーアート

ASCII文字を並べて描かれた文字や図形のこと。

内田さんの邦訳

上記仕様書の邦訳の試みはいくつかなされているようですが、私が参照しているのは内田明さんによる「初号訳」です。出来る限り最新版を参照するよう心がけていますが、かなり頻繁に改訂されるので、引用文などが古くなってしまっている可能性もあります。そういうものを発見されたら、遠慮なくお知らせ下さい。

なお、現在ではこの邦訳は内田さん一人ではなく、内田さんを中心とした邦訳委員による作業となっていて、「委員会訳」と称されています。鳩丸の一部には「内田さんの邦訳」という表現が残っていますが、それはその文章が書かれた当時に「内田さんの邦訳」を参照したということです。

音声ブラウザ

音声で情報を伝えるWWWブラウザのことです。音声ブラウザと言うのは変だと思われるかも知れませんが、とりあえずこだわらないでください。

browse とは本来、牛などが草や新芽などを食べることです。牛などは、一ヶ所で草を食べ尽くすと、新たな草を求めて他の場所へぶらぶらと移動します。草を求めてぶらつくところから転じて、字を追ってぶらつく、つまり「ざっと目を通す」などという意味が派生したわけです。視覚/非視覚を問わず情報を求めてぶらつくことを browse と呼ぶのも、あながち間違ってはいないと思います。

オクテット

データ量の単位です。1 オクテットは 8 ビットに相当します。

機種依存文字

パソコンメーカーが独自に定義したような文字です。ある特定の機種でしか表示できない文字──と定義すると、アメリカで出回っている機種では日本語の文字など表示できない場合が多いと思われますので、ASCII文字以外はことごとく機種依存文字になってしまいます。

そこで鳩丸では、JIS や ISO などの規格によって定められていない文字を「機種依存文字」と呼ぶことにしています。新JISで定められた文字は機種依存文字には含めません。

空白文字空白類文字

HTML において、ASCII spaceと同様に扱われる文字です。HTML4.0 では、ASCII space (0x20) の他に、ASCII tab (0x09) ASCII form feed (0x0C) 、そして、Zero-width space (U+200B) が空白文字として扱われます。ちなみに、Zero-width space というのはタイ語で使われるのだそうです。

HTML においては、空白類文字は特殊な扱いを受けます。データとして記すと、語の区切りとしての意味を持ちます。

空要素

empty element の訳語です。内容モデルが EMPTY であるような要素。IMG, BR などです。私は「くうようそ」と発音していますが、ひょっとしたら「からようそ」の方が一般的なのかも。

空要素タグ

空要素を表すタグです。「空タグ」などと呼んでしまうと別のモノになります。なお、これは主に XML で使う用語です。XML では空要素タグの書式が他のタグと違っていますので、特に区別して空要素タグと呼ぶことが多いようです。

コンテント・ネゴシエーション

内容交渉というような意味です。たとえば、サーバに対して Accept-Language: ja という要求が来れば日本語版の、Accept-Language: en という要求があれば英語版のデータを送る、というように、ユーザエージェントの要求内容によって異なる内容を送ったりすることを指します。

内田さんの「Asahiネットだからできるリソースの多次元的表現について」に詳しく解説されています。

サイト, Webサイト
  1. ある特定の WWW サーバを指します。IE4,5 の「セキュリティ」ダイアログの中で使われている「サイト」はこの意味です。

  2. 相互に密接な関連を持ち、一つの内容を構成する一連のリソース群を指します。鳩丸で使われるのはこの意味です。たとえば、http://www.ne.jp/asahi/minazuki/bakera/html/ で始まる URI で示されるおおよそ 150 のリソースが「HTML鳩丸倶楽部」と称する一つのサイトを構成しています。

  3. ある特定のリソースを指します。

サロゲート

UTF-16 では、UCS-4BMP 以外の文字を参照するために、文字二つ分をペアとして使うことがあります。Shift_JIS などと違って、それ自体は無意味な文字同士を組み合わせますし、組み合わせの前半に使われる文字は前半にだけ、後半に使われる文字は後半にだけ使われますから、別の文字と誤認されることはありません。

この、別の文字を表現するために定義されている、それ自体意味を持たない文字を「サロゲート」と呼びます。

UCS-4 では、55296〜57343 の文字が「サロゲート」として定義されています。これによって 1024 × 1024 = 1056768 の文字が表現できることになります。

仕様書

仕様書は仕様書ですが、特に断りなく単に「仕様書」と言う場合、W3CHTML 4.01 Specification のことを指します。私が参照しているのは 1999年 12月 24日の版です。

スタイルシート

HTML4.01仕様書14章には、スタイルシートはCSSとは限らないと明記してあります。にもかかわらず、多くの人がスタイルシート=CSS と思っているようです。というわけで、私もスタイルシートという言葉を CSS の意味で使うことがあります。ご了承下さい。

XSL や DSSSL や JavascriptStyleSheet などというスタイル言語もあるようです。

全角半角

全角・半角というと普通は写植の際の文字幅を示しますが、HTML では文字をどのようなフォントで表現するかは基本的に自由です。文字幅は文字その物とは関係なく、あくまでフォントの問題ですから、全角半角などという概念は HTML とはあまり関係ありません。

ところが、Unicode には同じ字形なのに違う文字番号が割り当てられている文字があり、その片方には "Halfwidth-Katakana-letter-" とか "Fullwidth-" とかいう名前が付けられていたりします。具体的には、U+FF00 から U+FFEF までの文字が "Halfwidth and Fullwidth Form" と題されて分類されています。

そこで鳩丸では、これらの範囲にある文字を「半角カタカナ」「全角アルファベット」などと呼ぶことにしています。これらの表現が文字の幅とは関係ない事に注意してください。

全角英数

JIS X 0208 で定義されている英数字・記号で、ASCII文字ではないが ASCII 文字に似た字形を持つもの。Unicode においては U+FF01 から U+FF5E にあります。私の場合、「英数字」と言うと記号は含みませんが、「全角英数」には記号も含むので注意してください。

参考:全角

属性

attribute の訳語です。ある要素の特定の性質を表すために、要素の開始タグに属性と属性値を書き込む事があります。

これをオプションと呼んでいる人もいますが、私はその呼び方には反対です。何故なら、属性は必ずしもオプションというわけではなく、属性の指定が必須とされている要素もあるからです。

属性値

属性のとる値です。

タグ開始タグ終了タグ

それぞれ tag, start tag, end tag のことです。

開始タグは要素の開始を明示するマークで、原則として <(STAGO) で始まり >(TAGC) で終わります。終了タグは要素の終了を明示するマークで、原則として </(ETAGO) で始まり >(TAGC) で終わります。両者をあわせてタグと呼びます。

中には、これをコマンドと呼んでいるものすごい本もあります。

ディフォルト

→「デフォルト」を参照。

デフォルト

何も設定を行わなかったときに採用される設定値、既定値のことです。default は「怠け、怠慢」と言うような意味で、債務不履行という意味もあります。

鳩丸では慣習的に(?)デフォルトと表記していますが、default の発音はむしろ「ディフォルト」に近く、最近は「ディフォルト」と表記する例も散見されます。

独自拡張

ブラウザメーカーが、標準化団体等の意向を無視あるいは先取りして独自に採用した要素や属性を「独自拡張」と呼びます。中にはブラウザメーカーが勝手に提唱して勝手に採用したものもありますし、HTML の仕様として提案されていたものを先取り実装したが結局その仕様は採用されなかった、というものあります。後者は別に「独自」ではないのですが、ここでは便宜上、いずれも「独自拡張」と呼ぶことにしています。

独自拡張要素には、たとえば NOBR, WBR, EMBED, NOEMBED, BGSOUND, BLINK, MARQUEE などがあります。汎用性がなく嫌われることが多いのですが、CENTER や FRAMESET などのように、もともと独自拡張だったものが HTML に取り入れられた例もあります。

匿名ブロック匿名ブロックボックス

Anonymous block box のことです。詳しくは CSS2. 9.2.1 Anonymous block boxes を参照してください。

たとえば、

<DIV>
テキストその1。
<P>テキストその2。</P>
</DIV>

……というマーク付けがあったとしますと、DIV 直下にある「テキストその1」の部分が匿名ブロックとなります。

一般に、匿名ブロックが出来るようなマーク付けはあまり好まれません。たとえば、上記の例に p{ line-height: 1.5 } などというスタイルを適用すると、DIV 内の行間がちぐはぐになってしまいます。

トップページ

ある一連のリソース群の中で、特に起点となるようなリソースを指します。多くの場合は導入部に当たるリソース、目次や表紙のようなリソースを指しますが、管理者が「リンク集がトップページです」と主張するならそれはそれで良いでしょう。

中身

要素の中身です。たとえば <p>……</p> というマーク付けにおいて …… の部分を「P要素の中身」と呼びます。原文は content で、 JIS X 4192 では「内容」と訳されていますので、一般には「内容」と呼ばれる事が多いようですが、私はあえて「中身」と呼ぶことにしています。

なかには、これを「要素」と呼んでいるわけのわからない本もあります。

二大ブラウザ

IENN の両者を併せて「二大ブラウザ」と呼ぶことにしています。なお、この「二大」は、単にシェアが大きいという意味であって、優れているという意味ではありません。もちろん優れていないという意味でもありませんが。

鳩丸

「HTML鳩丸倶楽部」の略称もしくは愛称。URI が "http://www.ne.jp/asahi/minazuki/bakera/html/" で始まるリソースの総称です。

ハンドル

ここで言うハンドルとはステアリングホイールの事ではなく、ネット上で使うあだ名のようなものです。多くの場合、メールを送ったり、掲示板やニュースグループに記事を投稿する際には、本名ではなくハンドルを名乗ります。

handle を辞書で引くと、《俗》(市民帯ラジオで)通信用のあだ名 などと出ています(Progressive English-Japanese Dictionary, Second edition © Shogakukan 1987.プログレッシブ英和中辞典 第2版 ©小学館 1987.)

参考:ハンドルネーム

半角カタカナ

Unicode.org や IANA のドキュメントで "Halfwidth Katakana" と呼ばれているもののことで、「半角カナ」とも呼ばれます。JIS X 0201のカタカナ部分、もしくは、Unicode において U+FF61 から U+FF9F の範囲にある文字のことを指します。カタカナを表現するのですが、濁点や半濁点を一文字として表現するのが特徴です。

参考:半角

非推奨

deprecated の訳語です。この言葉は HTML4.01 Spec. 4.1 で定義されています。

A deprecated element or attribute is one that has been outdated by newer constructs. Deprecated elements are defined in the reference manual in appropriate locations, but are clearly marked as deprecated. Deprecated elements may become obsolete in future versions of HTML.

User agents should continue to support deprecated elements for reasons of backward compatibility.

Definitions of elements and attributes clearly indicate which are deprecated.

This specification includes examples that illustrate how to avoid using deprecated elements. In most cases these depend on user agent support for style sheets. In general, authors should use style sheets to achieve stylistic and formatting effects rather than HTML presentational attributes. HTML presentational attributes have been deprecated when style sheet alternatives exist (see, for example, [CSS1]).

要するに5つくらいありまして、

  1. deprecated な要素や属性はもう古いぞ。

  2. スタイルシートのような新しい仕組みで置き換えられるぞ。

  3. 将来は obsolete されるかも知れないぞ。

  4. 過去の仕様との互換性を保つために、UA は deprecated な要素のサポートも続けろよ。

  5. 見栄えに関するものは非推奨だぞ。

もちろん Strict こそが定説でありまして(ライフスペース風)。……ともかく、これから HTML を書く人は、非推奨のものは使わないようにすべきです。

なお、フレームに関する要素は deprecated とマークされてはいませんが、鳩丸は、Strict にあらざれば人にあらず(!?)という立場ですので、フレーム関係も非推奨扱いにしています。

ビット

データ量の単位です。1bit は on/off あるいは 0 or 1 など二通りの状態を表すことが出来る情報量です。

ブラウザ

WWWブラウザと呼んだ方が正確でしょうが、鳩丸で単にブラウザと呼んだ場合には WWWブラウザを指すものと考えてください。

文書インスタンス

タグなどでマーク付けされた文書のことです。SGML 文書は SGML宣言、DTD 、文書インスタンスの三つからなり、文書インスタンスは本文に当たります。

HTML では、SGML宣言DTD があらかじめ用意されていますので、ユーザーは文書インスタンスを書けば良いことになります。

ページ

ページというと色々な意味がありますが、鳩丸で使われる場合、WWW上で「読む」事の出来るリソースのことを指します。主にテキストを中心に構成されたリソースを指します。もちろん、非視覚環境では、これは聞いたり触ったりする事になります。

ヘッダ

HEAD要素、あるいはその中身を示します。<HEAD> と </HEAD> の間だ、と言えば分かりやすいでしょうか。でも <HEAD> も </HEAD> も省略可能です。

ポインタ

pointするもの、すなわち指し示すものという意味です。マウスやトラックボールなどの操作によって動く矢印や砂時計などは「ポインタ」と呼ばれます。

ホームページ

普通にブラウザを起動したとき最初に表示されるリソース、もしくは、ブラウザの「ホーム」や「ホームページ」ボタンを押したときに表示されるリソースを指します。多くの場合、ブラウザのメーカーのサイトや検索エンジンがホームページとして登録されています。

この意味から転じて、一連のリソース群の起点となるようなリソースを指すこともありますが、鳩丸では、そちらを「トップページ」と呼んで区別することにしています。

メタ文字

文字を表現するための文字という意味で、プログラム言語などで特殊な意味を持つ文字のことを指します。たとえば、\n や \r などと書くことで改行コードや復帰コードを表すことがありますが、この \ がメタ文字に相当します。そして \ を表すためには \\ と書く必要があったりします。このため、\ を含む文字列をプログラムで扱うのに特別な処理が必要になることがあります。

ユーザーエージェント

WWWブラウザの他に、サーチロボット、プロキシサーバー、WWW自動巡回ソフト、リンク先読みソフトなど、HTML や HTTP を利用するプログラム全般を指します。UA と略すこともあります。

ブラウザもユーザーエージェントですから、ブラウザについての話はユーザーエージェント一般に当てはまる場合が多いでしょう。

ユーザースタイルシート

ユーザーが勝手に定義して組み込むスタイルシートのことで、CSS2 Spec. 6.4. に言うところの User を origin とするものを指します。IE4 や IE5 では、インターネットオプションの「ユーザー補助」の項目でユーザースタイルシートの設定が出来ます。

要素

element の訳語です。エレメントとカタカナ書きしている人や、(おそらく勘違いして)タグと呼んでいる人もいます。個人的な趣味から「四大」(しだい)と呼びたい気もしますが、まあ要素で良いでしょう。

リソース

リソース。再帰的な定義をすれば、URI によって同定されるものということになります。HTML 文書もリソースですし、画像ファイルも音声ファイルもリソース、メールアドレスもリソース、書籍も人間もリソースです。

リダイレクト

HTTP の要求に対して 302 Found を返して Location: フィールドで別の URI を指定すること、またそうされることをリダイレクトと呼びます。こうすると、ほとんどの UA は自動的に Location: で示された URI に対して HTTP 要求を出し、そのリソースを表示したりします。ある場所へ行こうとしたら別の場所へ飛ばされる、というイメージです。

また、プログラムなどの出力結果として標準出力に出力されるものを、他の出力(ファイル、プリンタなど)に送ることもリダイレクトと呼びます。

redirect は re(再び) direct(導く) ということで、向け直す、転送する、などの意味があります。

論争

GOO の国語辞典によると、

ろんそう ―さう 【論争】

(名)スル違った意見をもつ人たちが、それぞれ自分の説の正しさを主張して論じあうこと。「税制について―する」

また、Kokugo Dai Jiten Dictionary. Shinsou-ban (Revised edition) © Shogakukan 1988.国語大辞典(新装版)©小学館 1988.によると、

ろん‐そう【論争】

ろんそう(‥サウ)

互いに違った説や意見を主張して言い争うこと。「文学上の論争」

ということで、「説」や「意見」を「主張」し合うという前提が必要らしいです。いずれにしても、論争には「論点」とか「争点」とかが必要なような気がするのですが……。


以上の用語は間違っているかも知れません。勘違いしているかも知れません。また、場合によってはいいかげんな言葉を使っていることがあります。「内容モデルがEMPTYの要素」の代わりに「中身が空っぽの要素」などです。私自身はさほどこだわりがないのですが、気になるという方は、どうぞご指摘下さい。


俗語集

HTML鳩丸倶楽部

水無月ばけら, MINAZUKI Bakera
E-mail: bakera@star.email.ne.jp