#339 テキストの限界と可能性(前編)

2012/10/18

<前目次次>


 コンピュータの扱うデータの中でも、テキストデータというものは、コンピュータの歴史の比較的早い時期から連綿と使われてきた。日本語のように、ひらがな、カタカナ、漢字と文字の種類が非常に多い言語であっても、それぞれの文字に特定のビット列を与えて一対一に対応づけがなされることで、早くからコンピュータ上で扱うことが可能になっていたし、UNICODEが普及することにより、その他の非アルファベット文字を利用する言語についても、同様にコンピュータで扱うことが可能になった。

 文字は、人間活動の様々な事象を簡易に記録し共有することができる。古くは粘土板に記録した楔形文字に始まり、やがてパピルスから紙への記録、さらに活版印刷の発明により記録を容易に広範に伝搬させることが可能になった。更に文字がコンピュータで扱えるようになり、ネットワーク技術が発展普及することで、情報の伝搬スピードはかつてないほど高速なものになった。

 情報をコンパクトに伝達するという意味で、テキストは非常に有効な手段である。しかし一方で、情報を正確に伝達する手段としては、いささか心許ない部分があるのも事実である。

 そもそも冒頭に書いたように、コンピュータに記録されたテキストを文字として認識するには、それぞれの文字がどういったビット列(コード)で表現されているかということが相互に了解されていないといけない。こうした規則は、いろいろな歴史的経緯により、複数存在することが多い。殊に日本語の場合は扱う文字数が多いこともあり、JISやシフトJIS、EUCに加え、UNICODE(これにもいくつかの種類がある)やTRONなど、様々な文字コードが存在する。特定の文字コードをもとに書かれたテキストを、別の文字コードを仮定して表示させようとすると、当然ながら正しく表示されない。これがメールやWebページの表示などで見られる「文字化け」という現象である。

 上記の問題をクリアして、正しく表示されたとしても、その内容が読み手に正しく理解されるには、読み手側の知識が前提となる。極端な話、例えばそれがサンスクリット語で書かれていたとしたら、その内容がどんなにすばらしいものであっても、多くの日本人には全く読むことができないであろう。テキストを読むためには、当たり前だが文字が読めなければならないわけである。日本語はそういう意味では、文字に関するハードルは高く、特に漢字がわからなければ、まともな日本語の文章を読むことはできない。だからこそ日本人は、義務教育の過程を通じ多くの漢字を学習しなければならない。

 さらに、文章を理解するには、単語と文法がわかっていなければならない。単語の多くは事物を記号化した名詞であり、それらを主語や目的語として、その関係を示す動詞、さらに名詞を修飾する形容詞や、動詞や文全体を修飾する副詞がある。更にそれらをどういうルールで繋いで文章にするかという文法もわかっている必要がある。こうした語彙と文法の知識がある程度ないと、書かれている内容を正しく理解することはできない。

 もっといえば、そうした単語についての認識は、各人が各人でそれぞれに違っていると考えられる。例えば「トマト」という単語は、赤い色をしたナス科の野菜の一つを示す名詞であるが、「トマト」という文字列から各人が思い浮かべるトマトは、それぞれ異なるものであるに違いない。名詞であってもそうなのだから、まして「みずみずしい」「立派な」などという形容詞は、どんな具合に瑞々しいのか立派なのか、文字の情報だけで書き手と受け手が一致した認識を持つことは、残念ながらほとんど期待できない。結局個人の経験や知識、相場感でいかようにも変わるものである。諺に「百聞は一見にしかず」とあるように、その「みずみずしい立派なトマト」を伝えるには、百の言葉より一枚の画像の方が正確に伝えることができるのかも知れない(続く)。


<前目次次>