ロミオの嘆き

炉辺夜話情報科学編第13夜

モンタギュー家のロミオと言えば,ご存じ「ロミオとジュリエット」.シェークスピアの作品の主役である.片思いに悩むロミオは,お目当てのご婦人ロザラインがキャピュレット家の舞踏会に招かれているのを偶然知り,出掛ける.ところが,そこでキャピュレット家の令嬢ジュリエットに出会った途端,古い恋は雲散霧消.二人は,たちまち恋に落ちる.その時二人が交わした言葉は,ロミオが 90語,ジュリエットが 65語.二人合わせても,たったの 155語である.まっ,一目惚れですね.

そして,二人は密かに結婚する.しかし,その幸福も束の間,成り行きと偶然によって,二人とも,互いの死をはかなみ自害して果てる.

「ロミオとジュリエット」は,ト書きなども入れて,およそ 26,000語で書かれている(「語」の定義などは置いておく.従って,以下すべて概数である).その中で,ロミオとジュリエットの会話の場面は,2,360語で描かれている.主役たちの場面が劇全体の 1割にも満たないのは,物語が「余白」によって支えられていることの証左であろうか.

さて,劇は,二人の出会いから果てるまでの 5日間を描いているが,熱愛の二人の間には,どれ程の言葉が交わされているのだろうか.数えてみると,若干の独白も含むが,ロミオが 1,015語,ジュリエットが 1,257語,といったところである.愛する二人には,言葉は要らぬ,ということだろうか.とは言え,ジュリエットは,ロミオより 2割方多く喋っている.やはり,女はかしましい?

ならば,使用している語彙ではどうだろうか.ここでは,活用形もすべて別の単語と考えておこう.すると,ロミオは 426語,ジュリエットは 464語を使って,互いに自分の思いを語っている.語彙数では 1 割弱の差しかない.間投詞,例えば,“O”の出現率は二人とも 0.008 程度で変わらないことなどを考慮すると,ジュリエットの方が言葉遣いが巧みなようである.

因みに,シェークスピアは 30,000 を越える語彙を作品中に散りばめ,一方,現代日常会話なら 2,000語程度で事足りるそうだ.はて,思いを伝え合うのに 400語余り,というのは,多いのか少ないのか.

ともあれ,仮にロミオとジュリエットの使う語彙が,その 400語余りだけだったとしよう.更に,二人に共通する語彙は 173語に過ぎないが,ここでは,互いの語彙はあらかじめ知っており,しかもどの語を良く使うかということも知っているものとする.また,文法などによる制約は無視することにしよう.すると,ロミオがキャピュレット家の庭園に潜みバルコニーのジュリエットを見上げながら“She speaks.--”と呟いた,その次の瞬間にロミオの耳が聞くはずのジュリエットの言葉は,ジュリエットが使用する 464語の中の一つであり,最も確率の高いのは“I”である.何故なら,ジュリエットの話した言葉 1,257語の内 49回も“I”を使っているのだから.

しかし実を言えば,この推論は外れている.実際,該当する場面はバルコニーの場に 2個所あるが,そこでジュリエットが独白するのは,“Ah me!”と“O Romeo, Romeo!”である.つまり,ロミオが最初に耳にする単語は,“Ah”と“O”という二つの間投詞である.ロミオとの場面に限れば,“Ah”はここ 1個所だけで使われ,出現率は 0.0008,“O”はここを含めて 10回使われており,出現率は 0.0080 しかないのにである.

確率が零でないということは,起こるかも知れぬということ.起こりそうもないことが起こるのが人生,ですね.

ところで,通信理論では,「情報量」を次のように定義する.つまり,通信路の向こうにいる相手が選択し得るカードの全種類は分かっているとして,今相手の手の内にあるカードを推定する状況を考える.何らかの信号を得た時,それによってカードの推定がどの程度改善するだろうか.その改善度を,その信号の情報量という.

推定の不確実さ = (-各カードの推定確率×log2各カードの推定確率) の総和
信号の情報量 = その信号による,推定の不確実さの減少量

例えば,もし相手が 1種類のカードしか選択することができないのなら,どんな信号も,この件に関する限り,新しい情報をもたらすことはない.すなわち,情報量は 0 である.何故なら,相手のカードは,既に分かっているのだから.しかし,もし相手が 2種類のカードから選択可能であり,どちらも同じ確率で選択する可能性があることが分かっているとすれば,相手が選んだカードがどちらであるかを知らせる信号は情報量 1 の情報をもたらす.つまり,

最初の推定の不確実さ

= (-(1/2)×log2(1/2)) + (-(1/2)×log2(1/2)) = 1

信号を得た後の推定の不確実さ

= (-(1)×log2(1)) + (-(0)×log2(0)) = 0 + 0 = 0

信号の情報量

= 最初の推定の不確実さ - 信号を得た後の推定の不確実さ = 1 - 0 = 1

である(ここでは 0×log2(0) = 0 としておく).もう一つ計算例を挙げよう.相手が 4枚のカード A, B, C, D を選択することができ,どのカードも同じように選択すると推定していたとする.この時,信号が来て,相手が A, B のカードを選択することはないということが分かったとしよう.すると,この信号の情報量は,次のように計算できる.

最初の推定の不確実さ

= (-(1/4)×log2(1/4)) + (-(1/4)×log2(1/4))+ (-(1/4)×log2(1/4)) + (-(1/4)×log2(1/4))

 

= (1/2) + (1/2) + (1/2) + (1/2) = 2

信号を得た後の推定の不確実さ

= (-(0)×log2(0)) + (-(0)×log2(0))+ (-(1/2)×log2(1/2)) + (-(1/2)×log2(1/2)) = 1

信号の情報量

= 最初の推定の不確実さ - 信号を得た後の推定の不確実さ = 2 - 1 = 1

である.

この計算から分かるように,もし選択可能な n枚のカードのすべてについて推定確率が同じなら,

推定の不確実さ

= (-(1/n)×log2(1/n)) + … + (-(1/n)×log2(1/n))

 

= log2n

となり,すべてのカードを識別する二進符号化に要するビット数(例えば,1ビットで 2種類,2ビットで 4種類に符号を割り当てることができる)と一致する.

語彙の出現率(上位 10語のみ)と単純情報量
ロミオ ジュリエット
順位 単語出現率単純情報量 単語出現率単純情報量
1 I0.03554.82 I0.03904.68
2 the0.02765.18 and0.02635.25
3 and0.02665.23 the0.02555.30
4 to0.02565.29 thou0.02395.39
5 my0.02175.53 my0.01995.65
6 it0.02075.59 that0.01995.65
7 is0.01975.67 thee0.01915.71
8 that0.01975.67 to0.01835.77
9 love0.01675.90 is0.01755.84
10 me0.01386.18 it0.01755.84

ここでは,英語の特性などを考慮に入れていないので,「単純情報量」と呼ぶことにしよう.(ロミオとジュリエットが話すのは英語であり,当然の事ながら,任意の単語の組み合わせがすべて正しい英文になる訳ではない.実際には,様々な文法的,意味的な制約が存在する.)すると,ロミオとジュリエットの使う語彙の単純情報量は表のようになる.当然の事ながら,出現率が高いほど,その語彙が担う単純情報量は少ない.

この表にはないが,ロミオが一言発した時の平均の単純情報量は 7.85,ジュリエットの場合は 7.83 であり,差はない.また,全会話に伴う単純情報量の総和は,それぞれ,7,968 と 9,838 である.これからしても,ジュリエットの会話の多さは,単なる饒舌,かしましさの故という訳ではなさそうだ.

上の表は上位 10語だけであるが,出現率の高い方から合計していくと,二人とも使用語彙全体の約 1割で全使用単語のおよそ半分を賄っていることが分かる.つまり,400語余りを使っているとは言っても,会話の半分は,その 1割の語彙で交わされているのである.この累積出現率の分布は,二人とも殆ど同じで,下のグラフの様になる.

累積出現率(Romio)

さて,自害した二人は,やはり地獄に堕ちたのだろうか.以下は,シェークスピアの与り知らぬ後日談.

ロミオは,ティボルトとパリスを殺害した罪で,血の池を彷徨い続ける.片や,ジュリエットは,その可憐さによって自害の罪を減じられ,地獄でロミオに会うことを禁じられてはいるものの,安穏に過ごしている.会えぬ事を唯一の不幸として嘆く二人を哀れんだ神は,年に一度,地上での逢瀬を許す.その一夜だけ,互いの両親が建てた純金製の像が動き出し,人気のない夜中にしっかりと抱擁するのである.

さて,400年程後の,その特別な夜のことである.ロミオは自分の純金像に急いでいた.今頃,ジュリエットは純金像に成り代わっていることだろう,と思いながら.同じ頃,ジュリエットは,自分の純金像の側まで来ていた.ところが,そこにホームレスがいたのである.生きた人がいては,純金像に成り代われず,ロミオに会うことも叶わない.ロミオもきっと傍まで来ているに違いないのに.ジリジリしながら待っていても,ホームレスはいっかな動こうとしない.朝までもう間がない.そして,ジュリエットは,思わず呟く,“O loathed toad!”丁度その時,ロミオは像の近くまで急ぎ来ていた.しかし,図らずも,この言葉を聞いたロミオは,踵を返して帰ってしまう.血の池の畔で,ロミオは,今も嘆いている.「ホームレスを『いやらしいヒキガエル』と呼ぶなんて,あのジュリエットが!命を懸けた恋だったのに.初めからそうと知っていれば,地獄に堕ちることもなかったろうに.」

ロミオの「四百年の恋」をも冷ましてしまったジュリエットの言葉は,たったの 3語,単純情報量の合計は 27.57(= 6.97+10.30+10.30 並び順)に過ぎない.ジュリエットは,生前 9,838 ビットの言葉をロミオに囁いていた.その僅か 1/357 の「情報」が,永遠の別れをもたらしたのである.恋するロミオにとっては,この 3語の方が 1,257語よりも,ジュリエットについて,多くを語るのである.

はてさて,情報工学の扱う「情報」とは,この程度のもの...