揚羽の蝶    Home   Bottom   Back  Next

時代背景の中の技術
1. まえがき

 これまで実用化は不可能と信じられていた技術が,ある日突然世に出ることがある。そして,数十年を経ると一体どこが不可能であったのかと不思議にさえなる。音楽家の芥川也寸志氏は,次のように語っている。「昔は奏けなかった難しいパッセージを今では誰もが易々とひいている」。技術が確立され,かつ普遍化された結果であろう。このような現象は科学技術でも起こりうる。ある時代に極めて困難であり,象徴的に「不可能」という言葉さえ使われた技術が,なぜ時が下がるといともたやすく実現されるのであろうか。大きな原因は時代背景,技術環境の変化であろう。ある技術が実現するには,それを支える他の技術群が「環境」として整っていなければならないのである。環境と特定の技術との相乗効果を本論文では「暗黙のシナジー」と呼ぶ。シナジーは通常それを意識して構成される。しかし,上で述べた環境と当該技術の間には積極的にシナジーを構成しようとする意思は働いていない。これが,「暗黙」と命名した理由である。

もうひとつ技術を評価する重要な概念,「延長性」を提唱する。この概念の理解のために発明を二種に分類する。コンセプトの発明と,実現技術の発明である。前者を発明と呼ぶことができるかどうかは意見が分かれるかもしれない。本論文では,タイムマシンのような,技術的裏づけがないコンセプトではなく,技術者が実現に取り組んだコンセプトだけを扱う。コンセプトは技術としてチャレンジされなければならない。問題は技術の中にはtoy systemと呼ばれるものがあることである。toy systemとは小システムという意味ではない。小さくてもその幼い技術の延長上に実現技術が見えているものがあるが,toy systemはアドホックな手段でコンセプトを普遍的に実現したかにみせる延長性の無い技術である。以下,toy systemを除外して考察を進める。

本論文では,現在の技術を比較的容易に改良して行くことができる技術を「延長性」があると呼ぶ。現在の技術レベルと,期待される技術レベルの間に越えることができないように見える深淵が存在し,現在の技術パラダイムを単純には延長していけない技術を「延長性」が無いと呼ぶ。延長性が無い故に,コンセプトの発明から実現までに非常に時間がかかる技術が存在する。現在も,そのような技術は多数存在している。核融合,MHD発電,燃料電池,知的ロボット,自動翻訳,音声認識,など枚挙にいとまがない[A]。

[A] これらのコンセプトの中には商品化されているものも存在する。特に人工知能関係技術は,常に「それなりに」機能するので,そのようなことが可能である。問題は誰もが使う事ができるほどに技術が成熟し,普及しているかどうかにある。

ある技術がある時期,実現不可能と思われるにはそれなりの理由が存在する。筆者らは人工知能の研究者として,かつて1970,80年代という,そのような時代の真っ只中で直接に技術を研究・開発してきた世代であり,その時代の進展を当事者として目の当たりに見ることができた。そして,当時,不可能と言われた技術に筆者らはそれぞれに異なる立場から関わり,不可能と言われた技術が実現され,世の中に普及していく過程をつぶさに見てきた。本論文では,その経験から不可能と信じられていた技術が実現していくメカニズムを,筆者らが唱える「暗黙のシナジー」,技術の「延長性」の2点から解明する。それにより,現在も不可能として扱われているコンセプトを見直す手段にすることを目的としている。不用意に「不可能」の烙印を押されたコンセプトは実現への努力,投資がなされず,人類にとっても不利益となる。以下,「不可能」の背景と構造,実現された原因を仮名漢字変換を例に論じる。

2.技術の「延長性」の概念

 コンセプトが実現技術[B]として発展していく過程は多種多様である。コンセプトには,誰もが夢みることのできる普遍的なものと,技術を知らないほとんどの人々にとっては考えることさえできないものとがある。空を飛ぶ,水に潜る,月に旅行するなどは,かなり普遍的なコンセプトであろう。例えば,月旅行は我が国では8世紀頃の作と言われる「竹取物語」にまで遡ることができる。それらのコンセプトから,飛行機が生まれ,潜水艦が登場し,アポロ計画が実現された。更に,時代が下れば,アトムのような知的なロボット,自動翻訳などの,誰もがが自然に思いつくコンセプトが出てくる。それにもかかわらず,これらにはコンセプトの発明者がいることになっている。1920年,ロボットと言う語を発明した作家のカレル・チャペック。1949年,機械で翻訳ができると示唆したとされるワレン・ウィーヴァである。

[B] 本論文では,「実現技術」とは試作ではなく,普及した技術を意味する。特に人工知能などのソフトウェアでは「アドホックな方法による試作」が容易に可能であるので,これは重要な概念である。

 普遍的なコンセプトの対極にある例がコンピュータネットとMPUで,これらはコンセプトと実現技術が一体になって出現した。MPUのように一般人に馴染みがない技術,従って,世に待望されることのなかった技術が突然製品の形態で出現した場合,その技術の重要性は理解される機会が少ない。従って,技術史からさえ見過ごされがちであるが,MPUの発明はまさにその例といえる。しかし,「延長性」の概念を論じるにあたって,MPUほど適した例はない。

MPUは,1971年,嶋正利等のIntel4004製品として登場し,それ以来,Mooreの法則に従って18カ月で2倍の集積度という速度で進化し続けている。コンセプトと実現技術とが完全に一体になっている典型例である。なお,当然のことながら,実現技術にはコンセプトが随伴するが,本論文で扱うコンセプトは実現技術に先行する原初コンセプトである。

発明の形態の分類
Home 以上の観点に従って,発明を分類してみると図のようになる。「延長性」とは本論文で筆者らが唱える技術の性質で,現在の状態から単純に将来に延長して行くことができる性質をいう。MPUがその典型である。

一方,ある種の技術は現在の技術レベルから外挿によって将来の性能を推測できないし,延長によって実現技術ともならない。現在の性能がその技術パラダイムにおける上限になっていて,実現技術となるためには抜本的なパラダイム変化が必要である場合,そのような技術は「延長性がない」と呼ぶことにする。

上に述べた様々なコンセプトと「延長性」の関係を考察することは興味深い。この図において,水平面を発明の種類である「コンセプト」,「技術」,及び,延長性の「有」,「無」の4象限に分ける。実線矢印は,コンセプトの初出時に「延長性有」の技術で実用化され,以後継続的に改良が続き,現在に至っていることを示す。破線矢印はコンセプトの初出時点で実現せず,「延長性無」のため,時間をかけて矢印の末端で示された時期に実現技術が現れたことを示す。Xは未実現,△は極めて制限された領域での実現を表す。縦軸は直感的に付した実用度である。この軸の長さで「X」,「△」の意味が鮮明になるだろう。なお,この図では仮名漢字変換を「延長性無」としたが,この見解は7節で再検討する。

発明が「延長性無」であるコンセプト発明として現れた場合,実現技術が現れるまでの間,どのような評価を受けるか,それを分析しておくことは意味があろう。この間が長い場合,「不可能」というレーベルを貼られるだろう。更に,その間にアドホックな技術による未熟な試作品が重なると,「不可能」の印象は一層深まると考えられる。

3.1970年代まで仮名漢字変換が置かれていた時代背景

1980年代前半まで,実現は困難と考えられていたコンセプトに仮名漢字変換がある。仮名漢字変換は,現在,ITが関わるあらゆる日本語入力の場面に登場し,利用されている。本節では,仮名漢字変換が実現困難と信じられていた背景を明らかにする。

1960年代は日本の計算機業界にとっては激動の時代であった。1936年,英国Alan Turingの計算理論,1939年John AtanasoffのABC[1]を経て,1946年John MauchlyとJohn Eckert のENIACで実現を見たディジタルコンピュータ技術は,1948年,米国Claude Shannonの情報理論の力を得て,堰を切ったようにアカデミア,産業界に浸透していった。Remington RandとIBMの覇権争いの後,米国ではIBMと七人の小人たちと呼ばれたUNIVAC,GE,Burroughs,NCR,CDC,Honeywell,RCAの8社が並び立っていた。日本では通商産業省の指導の下,1966年より1972年まで「超高性能電子計算機」大型プロジェクトが組織され,いわゆる「電算機六社」,日本電気,富士通,日立,東芝,三菱,沖電気が参加,米国に追いつくべく超高性能計算機の研究開発を開始した。ハードウェアはこうして米国並み,あるいはそれ以上の性能に達した。しかし,そうして開発された高性能の超大型計算機の上で処理されていた文字データはすべて英字アルファベットかカタカナであった。企業のあらゆる書類--総務,経理,人事,営業,技術管理など--は当然のこととして仮名漢字混じり文で書かれている。それにもかかわらず,それらのデータが計算機処理を受ける場合,ローマ字かカタカナで書かれた。米国生まれの計算機では漢字が入力できなかったからである。

米国のアルファベットで用いる文字数は高々100字程度に過ぎない。ASCIIコードでは128文字である。それに比して日本語では,当時の当用漢字に限っても1850字もの文字があった。日本で用いる字種を規定した最初のJIS C 6226には6802字(1978年制定JIS第1水準の漢字2,965文字,JIS第2水準漢字3,384文字,非漢字453字)が登録されている。この多数の文字を如何にして入力するかが,この時代の問題であった。最も簡単な発想は漢字活字を全て英文キーボードのように並べてしまおうというものである。そのような全文字配列の発想で作られた入力機器は当時,漢字テレタイプとして実用化されていた。全文字配列を実現する機器を作ることは日本人の得意なハードウェア技術をもってすれば困難なことではなく,いく種類もの機器が開発されていた。しかし,この方式では,特別な訓練を経た専門家しか実用レベルで使うことはできない。

次に,卓越した発想から生まれたのが「マルチストロ−ク入力法」である。当時もカタカナタイプライタは存在した。音(おん)のように仮名2文字を漢字一字に一意的に割り当てれば,仮名2文字で漢字が入力できる。その割り当て方に色々考えられ,いくつかの方式が現れた。この方式は,全文字配列法以上に専門家向けであった。漢字2000字を用いるとして,その2000字に一意的に割り振られた読みを記憶しなければ,一字たりとも入力できないのである。

 その他,訓練なく一般人が入力できる方法としてタブレット方式が提案された。タブレットにペンで漢字を書いて文字認識機能で入力しようとするものである。このように各種の方式が提案されていた中,仮名漢字変換方式も,いくつかの研究組織で研究されていた。当時の主な研究状況と研究機関を下記に挙げる。

表 実用化以前の仮名漢字変換の研究状況(1966〜1977)

(1) 栗原俊彦,黒崎悦明,小西彬允:カナ漢字変換について(第1報),昭和41年度電気四学会九州支部連合大会講演論文集,p57,1966
(2) 相沢,江原:”計算機によるカナ漢字変換”,NHK技術研究, Vol.25, No.5, pp.261-298, 1973
(3) 松下,山崎,佐藤:”漢字かな混り文変換システム”, 情報処理,Vol.15, No.1, pp.2-9, 1974
(4) 河田,天野:”カナ漢字変換システム”, 昭和51年度電子通信学会総合全国大会 1134, 1976
(5) 木村,遠藤,小橋:”日本語入力用カナ漢字変換システムの試作”,情報処理 ,Vol.17,No.11, pp.1009-1016, 1976
(6) 天野,河田,武田:”カナ漢字変換機能を備えたワードプロセッサ”,電子通信学会情報部門全国大会講演論文集,1977
(7) 牧野,勝部,木澤:”カナ漢字変換の一方法”,情報処理, Vol.18,  No.7, pp.656-663, 1977

しかし,仮名漢字変換は当時,実現するのは不可能であると論じられていた。仮名漢字変換の研究が大学,公的研究所,民間企業の研究所の各所で行われていた真っ只中である1976年に東京大学の渡辺茂氏の著書「漢字と図形」[2]がNHKブックスから出版され,「漢字の欠点と思われるものに,タイプライターのないことがある。もちろん職業用のものはある。しかし,文字盤を見ないで指先だけで打てるものがない。つまり英文タイプに匹敵する和文タイプがない。ないというより,できる道理がないのである。」と断言された。仮名漢字変換は一顧だにされていないのである。

その「できる道理がない」はずの技術[3,4]は,日本語ワードプロセッサJW-10として(以後,JW-10)1978年に完成し,9月26日の新聞発表を経て,10月3日から東京流通センターで開催されたデータショウで一般公開され,仮名漢字変換による入力と編集の様子が期日中連日デモされた。

Home
1978.9.27電波新聞記事

この記事には,当時の人々の意識を垣間見せる興味深い現象が見られる。「カナ ブンショウ ヲ」とか,「ウラニワニニワトリ」のようなカタカナが用いられていたり,変に区切られていることである。これは恐らく企業のプレスリリースにも原因があろうが,それが文章を書くことを業とする記者に修正されることもなかったのである。勿論,JW-10では入力は平仮名で行われる。如何に当時の人々の意識が「カナタイプ」という言葉に毒されていたかが推測できる。JW-10は発売後,おりしも始まりつつあったオフィスオートメーション(OA)革命の旗手としてその波に乗り順調に出荷数を伸ばし,実業界に浸透していった。

4.仮名漢字変換が不可能と信じられていた状況の分析

しかし,ここに非常に興味深い事態が観察された。「仮名漢字変換は不可能」であり,実用化されないという信念が,実業界では日本語ワープロが毎年出荷量を上げる中,アカデミアを中心として根強く残ったのである。それは,JW-10が発表されてから3年近くも経た1981年7月に開催された情報処理学会の「日本文の入力方式」シンポジウムを見ても明らかである。以下では当時の状況をこのシンポジウムを中心に見ていく。

このシンポジウムは,仮名漢字変換方式に対する否定意見が強いと言う意味で興味深い。JW-10は1990年代中頃でもなお使用されていた[C]ほどに完成度の高い仮名漢字変換技術を搭載していた。

[C] 1994年12月16日NHK総合で放映された「ハイテク時代の匠」で取材,放映された。

ブラザー工業ピコワード:  一文字単位で沢山の同音異字から 目的の字を
選んで入力する。その余りの大変さにすぐ撤退となった。 写真:1984年カタログより
Home それにもかかわらず,「日本文の入力方式」シンポジウムでアカデミアから出された論文には慶応大学高橋氏の下記のような記述が見られる。

いわゆる「かな漢字変換」で字の音訓によって指定する方式
-- 「シンポシウムを開催するにあたって」高橋秀俊 p2 (手書き論文)

これは,明らかに一字単位で入力する70年代初期の表示選択式実験システムを頭に描いていると思われる。電子技術総合研究所(現産業技術総合研究所)が70年代初期にそのような方式を研究していたことがあるし,1980年代にぺんてる(株)やブラザー工業から発売されたこともあるので,それを想定したと思われる。

また東京大学山田氏の下記のような論文も存在した。

入力速度もタブレット式では1分間に30字ぐらいであり,カナ漢字変換方式も1分間に100字も出ると称されることもあるが,ビジネスショーのような晴れの舞台でのデモンストレーションを計ってみてもタブレット型よりかえって遅かったりする。 
-「欧米のタイプライタの歴史と日本文入力の将来」山田尚勇 p22

これは,当時,JW-10の後追い製品として出てきた,高橋氏が指摘したような方式(表示選択方式)の製品を見た結果であろう。

企業が新製品を出す場合,その製品が市場に受け入れられるかどうかのサーベイを企画者,開発者は強いられる。この圧力は非常に強いものであり,トップからの特命で採算を度外視して出す場合以外は,企画者らは,いわゆる「鉛筆を舐め」て,売り上げ予測と開発費の採算あわせをしなければならない。一例を示そう。JW-10は,1979年2月の発売時に価格は630万円であった。企画会議で最初に提示された価格は860万円であったが,これでは高すぎるとして見直されたのである。台数が出ないとの販売企画の弱気が窺える価格である。その後,1980年7月に発売された後継機のJW-10モデル2はほとんど同じシステムでありながら340万円でまで価格が下げられた。工業製品は大量生産によってスケール・メリットが出る。価格はスケール・メリットの多寡の予測で決定される。1年半弱で半値に近い価格になったということは,部品代,人件費が下がったわけではなく,薄利多売ができると販売企画が強気になった証拠なのである。その時期に逆にアカデミアが懐疑的であったのとは対比的である。

一方,技術者側には性能・機能に対する圧力が強い。JW-10製品化の状況を2002年放映のNHK番組のプロジェクトX(第95話)は,副題「運命の最終テスト」として表現したが,この題名はプレッシャの強さをよく表している。生半可な性能・機能では事業に耐えないと判断され,事業部長の製品化への裁可がくだらないのである。

しかし,横並び意識の強い日本の企業では,他社の後追いの場合,判断規範は採算でも,性能でもなく,「我が社は,いつ製品化できるか。一刻も早く商品化せよ」になる。企業トップから技術者に掛けられるこのプレッシャは,どの企業でもパイオニアにかかるプレッシャ以上に強い可能性がある。この為に,高橋氏,山田氏が説くような製品が市場に出回ったのであろう。

さらに,カナ漢字変換方式で作文していてイライラするのは,自分で高いレベルの思考状態に没頭していようとしても,たとえば「コーコツ」は「硬骨」ですか,「恍惚」ですかといった次元の低い質問に悩まされ続けることである。したがって現在のカナ漢字変換のレベルは,自分の文章を書く人が使う道具としては時間と精神エネルギーの浪費となろうから,できるだけ速く手書きしたものを専門のタイピストに打ってもらうほうが理想に近い。 
-「欧米のタイプライタの歴史と日本文入力の将来」山田尚勇 p23

このような状況がなぜ起きたのかは,日立製作所の吹抜氏が明快に論じている。

昭和42年社内で漢字入力の方法が話題に昇った。この第1は表示選択式であった。(中略)なお最近,この「表示選択式」は,完全な「カナ漢字変換式」の限界もあって,これとの差があいまいになり,融合して「カナ漢字変換式」と総称されることが多い。
-「日本語入力方式将来像への模索」吹抜敬彦p131

表示選択式とは,文法分析などの自然言語処理を行わずに,ポインティング・デバイスで指定された範囲の平仮名に相当する漢字を,字又は単語の辞書から表示して人間がその中から意図する漢字を選択するもので,山田氏が上記で説くように「イライラする」のは避けられない。この方式は人工知能の技術が不要である簡易な方式なので,1970年代初期には研究されていた。1980年代に入ると表示選択方式までもが仮名漢字変換を称し始めたので,本来の仮名漢字変換は「自動仮名漢字変換」と称して区別することもあった。

1971年のNHK技研が行った公開に続いて,シャープが1976年展示会に試作時点で参考出品として一般公開したワードプロセッサは文法解析していないので,「仮名漢字変換」と称しておらず「対話型漢字変換」と謳っている。「熟語」と記されている「語」はカタログによれば,高々3100語であった。シャープはワードプロセッサの製品化に当たっては,この方式を用いておらず,全文字配列のキーボードを用いている。その理由はシャープシステムプロダクトの寺川氏の下記論文に詳しい。仮名漢字変換を実現できなかったのである。

1)かな漢字変換を実用段階まで高めるのは,差程容易ではない。

2)現状で,かな漢字変換方式のトータル的な作業速度は,全文字
 配列方式を上まわらない。

3)作業の疲労度は,実感として,かな漢字変換方式の方が厳し
 かった。

4)カナタイピング習熟のむずかしさと,カナタイピスト採用の困難さ
は無視できない。

5)オフィスコンピュータは,100%ちかく何等かの簡易入力装置を
備え,カタカナキーボードのみのモデルは,ほとんど売れていない。

6)欧米で,ワードプロセサが普及したのは,手によるタイピング作
 業を軽減することが目的の一つであったと思われる。日本語
 ワードプロセサを普及させるために,あらためて,習熟のむずか
 しいカナタイピングを導入するのはどんなものか?

7)「書院」は,当面,専門職としての邦文タイピストを対象としていな
 いが,邦文タイピストも一部は使用者となることを予想した場合,
 カナタイピングへの転向には,相当に拒絶反応を示すことが予
 想された。


-「日本語入力方式の模索」寺川和伸 p93

ここには,まさに山田氏が列挙している「表示選択方式の仮名漢字変換」の欠点が描かれている。この論文は自社製品を擁護する余り,2000文字以上を盤面に並べた全文字配列のキーボードを使うワープロに関する論文でありながら,高々英文キーボード程度のカナキーボードの使用に関し,「習熟のむずかしいカナタイピング」と述べるような論理の破綻をきたしているが,これは仮名漢字変換の実現の困難さを露に示す,イソップ童話の「酸っぱいぶどう」の心理であり,仮名漢字変換が早期には実現できそうにないメーカの焦りを如実に示して余りある。それほどに,当時,仮名漢字変換の技術は困難であった。

JW-10では,山田氏の言う「次元の低い質問」は行わない設計になっていた。同音語はいつかは選択しなければならないが,打鍵中には同音語を選ぶ必要はない設計になっていたのである。2006年現在,部品寿命から考えて恐らく稼動しているJW-10は存在しないと思われるが,NHKのプロジェクトX第95話の映像で,入力中,同音語は選択されず,同音語が存在していることを示す点滅が見られる。このように,JW-10ではタイピストは,「高いレベルの思考状態に没頭」していられるように設計されていた。思考の区切りが付いた任意の時点で選択できる「一括選択」モードを実装したのである。

ある市販のカナ漢字変換式のワードプロセッサのソフトウェアを大幅に換骨奪胎して,マルチストロ−ク方式に近付けたものを用いているオーディオ・タイプ(聞き打ち)の専門の方をわずらわして,まず荒ら打ちしてもらった。
-「欧米のタイプライタの歴史と日本文入力の将来」山田尚勇 p27

お忙しい中をわざわざ時間をさいて本稿を準備するにあたっての筆者の試みを快くお引き受けくださり,不慣れなコピー・タイプをしてくださった竜岡博氏に厚く感謝する。
-「欧米のタイプライタの歴史と日本文入力の将来」山田尚勇 p28

山田氏は手書き原稿を竜岡氏に入力してもらったと記している。上記の文中で竜岡氏が使用していた「ある市販のカナ漢字変換式のワードプロセッサ」はJW-10であった。山田氏は仮名漢字変換のワードプロセッサを批判しているのではなく,表示選択型のワードプロセッサを批判しているのである。

私は,1980年,JW-10を購入した竜岡氏の事務所に通い,ヒューマン・インタフェースの研究をしていた。彼と議論しながら,その場でJW-10のプログラムを16進数の機械語で書き換えて,彼専用に使い勝手を向上させていた。竜岡氏自身は速記の考え方を活かし,同音語がない「ん」行に,例えば,「んあ→ございました」などの短縮語を辞書登録していた。マルチストロークと言うより,短縮変換である。換骨奪胎はされておらず,標準装備の機能である。竜岡氏は,元々テープレコーダで録音した音声をヘッドフォンで聞きながらそれをカナタイプで仮名文にし,更に,それを筆耕屋と呼ばれる「人間仮名漢字変換」業に外注して手書きの最終原稿を作っていたのであった。JW−10の発売は彼の業務から筆耕屋外注を削除し,仮名タイプで一挙に最終原稿が印刷形態で得られるようにしたのであった。その後,彼はJW−10を存分に活用して業務を拡大していったのである。

竜岡氏は当時の議論の中で,同音語の一括選択機能を薦めた私に対して,「同音語はその場で選択しなければ却って面倒です」と言い,現在普通に用いられている「逐次選択」モードを使っていた。他人の文章を入力するオーディオ・タイピストは思考しながらタイプする学者とは使い方も異なるのかも知れない。

山田氏はタッチタイプを理想とし,明確に職業タイピスト向けの日本語入力を指向していた。しかし,時代はJW-10が目指した「誰もが使うことができる」方向に進み,大量の企業ユーザ層,および一般ユーザ層が誕生したのであった。仮名漢字変換はOA運動などを通して,企業層から普及し,価格の下落とともに順次一般層に浸透していったのである。

山田氏が実用的でないという印象を仮名漢字変換に持った一つの原因として,追従してきた後追い機種には,寺川氏の説く原因が除去できていない「仮名漢字変換のような」様々な似て非なる形態のものが混在したことが原因であろう。このことが,高価な機械を悉く購入して試験することができず,「ビジネスショーのような晴れの舞台でのデモンストレーションを計ってみ」ざるを得なかったアカデミアサイドの誤解を産む原因であったのではないだろうか。しかし,「実用的でない」とは製品化された後の誤解であり,製品化される以前は誤解ではなく,「実用化は不可能」という信念であった。このような信念が産まれた状況については5節で議論する。

5.仮名漢字変換が不可能であると信じられた技術要因

仮名漢字変換は,今でこそ,卒論程度のテーマになった感があるが,実際にはそのような簡単なものではない。人工知能のテーマは,概ね,まったく不可能というより,「それなりにできる」のであるが,製品にできるほどの性能があることとは,また別の問題である。山田氏の指摘にあるように,同音語問題は未だに完全には解決されていない。JW-10においては,同音語が解決すべき最大の課題として取り組まれた。同音語問題には自然言語処理的に可能な限りの手を尽くした。JW-10が文法解析を行う形態で出てきたのにはそれだけの理由があったのである。後追いで出てきた他社の初期製品が文法解析を行っていないことからも,自然言語処理を知る技術者がほとんど存在していなかった当時の時代背景を推測することができよう。

文法解析の研究はJW-10が最初ではない。九大-NHKと連なる系譜で早くから行われていた。これらは2節でのべた「技術を伴ったコンセプト」である。しかし,彼らの一連の実験により,それでもなお十分に高品質な変換が実現できないことは明白であった。NHKのシステムは相沢氏等の詳しい論文がある[5]。それを読めば単なる実験用のtoy systemではなく実用を狙っていたことが容易に推測できる。このため,JW-10では,従来の文法解析方式だけではなく,2層型の変換方式を創案し,局所意味処理[6]を採用し,それでも尚,発生する同音語に対しては短期学習という方法で使用者の語彙使用傾向を学習するユーザ適応機構をつけたのである。

1970年当時,自然言語処理の研究を行っていた機関は非常に少ない。先の表に挙げた機関が主なものである。東芝は1960年代に既に人工知能の一端である文字認識の研究を行っていたが,自然言語処理の研究は行っていなかったために京都大学長尾研究室の助力を仰いだ。この技術環境の未熟さをまず挙げなければならない。

更に仮名漢字変換が否定されていた原因を筆者らの提案する技術評価の2つの視点,「暗黙のシナジー」と「延長性」によって分析する。「不可能」という烙印は,一つには「延長性」の観点から来たものであろう。JW-10から30年弱の年月を経た今日の仮名漢字変換プログラムの中には明らかにJW-10,あるいは相沢等のシステムより文法解析能力が落ちていると思われるものが存在する。仮名漢字変換の技術には「延長性」が乏しいのである。下記はMS-IME2003の例であるが,いまだに初歩的な非文法的変換が行なわれている。

mission2

MS-IME 2003による仮名漢字変換


計算言語学における文法は,「人工知能分野におけるデルファイ法の的中度の分析」[7]でも論じたように,時間的な外挿で進化を予測できない,文法は研究者の数だけあると言われるように,非常に強く研究者の資質に依存するからである。1970年代に開発された文法の「延長上」に現在の仮名漢字システムは存在していないのである。まして,1970年代当時には,同じ理由から仮名漢字変換は不可能であると信じられていたと思われる。

文法を開発することは,このように非常に難しいのであるが,それだけをもって「不可能」と信じられるほど事情は単純ではない。もう一つの大きな要因は「暗黙のシナジー」である。この概念の説明の準備として,以下では,1970年代の技術環境を論じる。

まず,漢字入力を行う自然言語処理的機器を作るには,大量の漢字入力ができる環境が必要であるという循環論的困難があった。このことをツールの面から見てみると,下の表のような要素が必要になる。

表 仮名漢字変換に必要なツール

ソフトウェア;

 a.辞書
 b.文法
 c.テストデータ
 d.漢字パターン/漢字コード

 これはどのようなことを意味するかといえば,鉄を作る製鉄所を作るには大量の鉄とそれで作られた道具が必要であるということに等しい。大型溶鉱炉なく,大量の鉄を作ることはできない。その場合,タタラ製鉄のような小規模な製法しか使うことができない。このような事情のため,自然言語処理の研究では少数の語彙,文法しかもたない「toy system」で実験を行うことが当時,伝統的になされてきたために,実用性があると考えられなかったのであろう。

a.辞書

 通常の国語辞書には3〜5万語程度収容されている。そのような辞書を,大学,公的研究所,民間企業の研究所でどのようにして開発できるのであろうか。ちなみに,1980年代後半に活動していた官民合作の日本電子化辞書研究所(EDR:1986年〜2002年)では,20万語程度の4種類の単語辞書と約40万語の概念辞書[8],その他を開発するのに,おおむね10年の歳月と100億円程度の経費を投じている[D]。

[D] EDRは株式会社組織であり,研究開発と販売,保守を行ってきたので,厳密に辞書そのものの研究開発に掛けられた時間と経費は不明である。この値はオーダにすぎない。

国文法というものは専門家以外には正確には知られていないので,辞書開発作業は外注に任せられない。研究者自身が行うことになる。3,4万語の辞書をコーディングシートの上で作る作業は非常に根気を必要とし,一般にはアカデミアの研究者向きの作業ではない。指針を示して,外注することも可能であろうが,相当量の経費が掛かる。そのような研究費を確保するのは非常に難しいのである。この時代,アカデミアでの研究は通常,原理的な研究にならざるを得なかっただろう。

 コーディングシート上に辞書ができれば,それを磁気テープなどの外部記憶装置に記録しなければならない。磁気テープは1970年代,最も普及していたほとんど唯一のポータブルなメディアであった。漢字入力機器を作るためには,このように漢字を入力しなければならないという困難があった。既に競合する同業他社が製品を出している場合,横並び意識の強い経営者からの圧力が技術サイドにかかるが,圧力とともに資金も供給されるので,後追いの場合,比較的容易である。しかし,パイオニアにおいては海のものとも山のものともつかない研究に多大な研究費は出にくいという事情が洋の東西を問わず存在する。研究者は少ない通常の研究費のなかからやりくりして経費を捻出する必要がある。

1970年代は,漢字入力ビジネスがあり,マルチストローク入力,漢テレ入力などにより2円/字程度の費用で入力を請け負う企業が存在していた。平均15字/語として,4万語の場合,

 40000 x 15 x 2 = 120万円 の費用がかかる。

b.文法

 文法開発の困難さについては既に述べた。辞書はある程度,機械的作業で開発可能であるが,文法は仮名漢字変換の心臓部である。この性能が悪いと,誤変換,多変換,無変換の3種の現象となる。「多変換」は同音語の出る変換,「無変換」は文法の不備のため変換できず平仮名のまま出力されるという意味の私の造語であって[9],PCのキーボードにある「無変換」とは意味が異なる。無変換は,文法解析部が文法の不備を認識している現象であるが,誤変換は確信的な誤りである。図4はそのような例である。

c.テストデータ

 新聞,雑誌,ビジネス文書を平仮名で分かち書きした文章をテストデータとして大量に用意しなければならない。通常の文書は仮名漢字混じり文であるため,一度,全部平仮名に変換し,しかもわかち書きしてコーディングシートに書き下す必要がある。

新聞,雑誌は比較的容易に準備できるが,ビジネス文書というものは入手が難しい。現に使用中の文書は分けてはもらえないし,機密保持も必要である。社内であってもプレインコピーが高価な時代には大量に入手するには限度がある。書籍として出ているビジネス文書集もあるが,そのような最大公約数的な文書ではなく,議事録,通達など,やはり生きた文書が必要である。このような制約がある研究をアカデミアが実用レベルで行うことは非常に難しかっただろう。

d.漢字パターン/漢字コード

1970年代,低価格な記憶媒体がないため,通常の研究環境で漢字パターンを内蔵している漢字出力機器はなかった。蓄積管のようなモニタに画像を出力していた時代,漢字パターンは何らかの方法で自前で作成しておく必要がある。漢字パターンの作成は専門のデザイナーが行うため,1万円/パターン前後の価格であった。2000字のパターンを作成するには2000万円の費用がかかる。

6.暗黙のシナジー:不可能技術を可能にした「環境」の変化

 ある技術が技術的およびビジネス的に成功するためにはさまざまな要因がある。本節では,それら要因の中でも見逃されがちな「環境」要因について分析を試みる。

1970年代はコンピュータ関連技術にとって時代が変わる端境期にあった。筆者らが実験に用いていたコンピュータは大型計算機であったり,制御システム用のミニコンであったりしていた。そのようなコンピュータは,NEAC2200,GE635,TOSBAC5600,TOSBAC40のようなトランジスターあるいは,小規模IC製の計算機であった。主記憶装置も半自動でしか作ることのできない高価な磁気コアメモリであった。JW-10に先立って行われた研究は,どこにおいてもそのような環境であったろう。

しかし,時代は急激に変わりつつあった。仮名漢字変換ソフトを完成させつつある,まさにその時期に向かって,CPUはMPUとして1チップ化され,低価格化した。半導体技術の勃興は,さらに磁気コアメモリを半導体メモリに置き換えて,低価格化しつつあった。漢字モニタ,漢字プリンタはオフィスコンピュータの開発と軌を一にすることによって開発費の軽減を図ることができる状況にあった。ハードウェアの小型化,低価格化の環境が整いつつあったのである。JW-10のハードウェア開発はそのような環境変化に後押しされてもいた。当時の環境を表に示す。

表 ワードプロセッサ開発時期の環境

 年代        事  項

 1970 Intel世界初の商用1Kbits DRAMを発表
 1971 Intel 世界初のMPU4004を発表($200)
     Wang 1200Wordprocessorを発表
 1973 IBM ウィンチェスター型ハード・ディスクを発表
     XEROX ALTOマシンを開発
 1978 漢字JIS C 6226制定
     Intel 16ビット・MPU8086を発表
 1981 IBM-PC 発売
     (Intel8088 16bit MPU/ 8bitバス 4.77MHz)

MPU,半導体メモリ,ハードディスクなどの動向を見ると,低価格な製品開発への環境はまさに熟していたのである。

以上の状況をこの表に即してみれば,ハードウェアにおける暗黙のシナジーを容易に読み取ることができよう。

ある技術が研究段階から急速に製品に向かうにはこのような環境の成熟が必要である。問題になる特定技術と,それを支える環境との関係を筆者らは,かくして「暗黙のシナジー」と名付けた。シナジーとは複数の技術による相乗効果をさすが,一般には明示的に異分野技術を交流させることによる効果を指す。環境との相乗効果は見逃されがちであり,敢えてそのような概念を提唱する。しかし,ここで注意しなければならないのは,ワードプロセッサにおいてはシナジー効果が現れたのはハードウェアにおいてのみであったことである。勿論,仮名漢字変換はワードプロセッサという形態でハードウェアとの一体化によって成功したものであったので,その点において暗黙のシナジーは意味があるが,特に仮名漢字変換というソフトウェアだけに注目した場合,この効果によって完成されたのではない。以下,7節では仮名漢字変換ソフトウェアに関して論じる。

7.延長性

 未達成の技術が完成され,製品として実現されるには,その技術に延長性があるかどうかが重要である。延長性があるかどうかの判断は当該分野の専門家でなければ非常に難しい。専門家から見た場合,技術は次のように分類される。

 (1)明白に延長性がないもの
 (2)明白に延長性があるもの
 (3)総合的判断に依存するもの

 ここで,「総合的」とは,コア技術だけでなく,その技術を実用化するために必要な「観点の転換」,「ニーズの認識」,「ビジネス的観点」を指す。かな漢字変換はコア技術としては変換率100%を達成したわけではなく,総合的に成功した技術であった。

 よく,「研究は千三つ」であると云われる。1000の研究テーマがあり,その中で成功するのは3つ程度であるという意味である。発見を伴う必要がある研究ではそうである可能性が高い。自然科学のテーマは概ねこの範疇に入ると考えられる。自然の構造は人間の脳が演繹的に思考した結果になっているとは限らないからである。演繹推論法は無謬であるとしても,そもそも公理系が帰納推論により構成されたものであるので,そこに誤りが含まれている可能性がある。古典力学から相対論,量子論に至った道はその典型である。このようなテーマは理論の延長性が希薄であり,(1)に属する。しかしながら,言うまでも無く,この事実と本論文で論じている「技術の延長性」は峻別されなければならない。発見が本質である自然科学の研究では「千三つ」は必然であろう。

発見ではなく発明が本質である研究テーマは情報科学/工学には多い。そのようなテーマにおいて技術の延長性を欠き,かつその技術による実用化が可能でない場合,その研究は意味がないといえるだろう。明らかに延長性が無く,かつ容易にそれと判断できる技術が存在する。かつてのELIZA[10]は言語理解の技術には進化しなかった。極めてアドホックな技術であった。それを揶揄するように現在「人工無能」と呼ばれる類似システムが遊びの精神でいくつも作成されている。

 (2)の典型的な場合は,既に論じたMPUに見ることができる。

以上2つの場合は,判断が明白なので本論文で論じる必要がない。本論文の目的は(3)の場合を見直す方法論を論じることにある。

 仮名漢字変換の技術は(3)に属していた。既に論じたように1970年代から80年代に入ってさえ,この技術は延長性が無いと判断されていたと言えよう。しかし,そのような判断が真に専門的に行なわれたかどうかについては既に論じたように疑問があった。実際には,この技術はアルゴリズム的には「総合的に」辛うじて延長性があったと言えるだろう。JW-10の2層型変換でも,文節を有限状態オートマトンで認識するというアルゴリズムは九州大学からNHKに続く考え方を踏襲しているからである。ただし,文法規則の開発には延長性があるとは言い難い。このことは5節で論じた。

ここで重要な概念は「総合的」である。その内容を以下で議論する。

1)観点の転換;仮名漢字変換は,コア技術の改革だけでなく同音語選択におけるヒューマン・インタフェース技術と融合した技術とした。高機能の編集ソフトと一体化して製品とする観点に転換したのである。

2)ニーズの認識;工学においてはコア技術の性能だけでなく,技術とニーズのトレードオフを考慮する必要がある。現存技術に比して,代替技術がどの点ですぐれていて,どのようにすれば代替可能かを考慮すべきであろう。仮名漢字変換においては,入力に要する時間に関して編集時間も含めて全文字配列方式に勝つことができればニーズがあると考えられた。

3)ビジネス的観点;個人の中の産学協同とも言える。技術が成功するためには,学問的な技術の観点だけではなく,ビジネスの観点が必要である。研究者個人の中に両方の観点があることが望ましい。

たとえば,仮名漢字変換を100%の精度で行なうことは不可能であるから,実用化は不可能というような考え方はビジネスの観点が欠如している。例を挙げよう。「ほしょう」を「保障」,「保証」,「補償」のどの漢字に変換するかは,状況に依存する。人間でさえ,往々にして「保障」と「保証」の誤用は生じる。この変換に拘泥していては実用化はできない。従って,実用と言うビジネス的観点から,どこまでを技術的に解決できるかを見極める必要がある。そのためには,学問的にどこまで高度なことが可能かをも「学」の観点から見極める必要がある。研究者個人の中にビジネス的観点と専門的知識の両方が備わっていることが望ましい。JW-10の場合,個人ではなくチームとしてそれを持つことができた。

8.おわりに

 ここで提案した「延長性」の概念は原理に対して判定されるべきか,現象に対して判定されるべきかの問題が未解決のままである。本来は原理に対して判定されるべきものであると筆者らは考えている。しかし,現実の問題として,原理に対する延長性の有無の判定は専門家にさえ困難である。それが可能であるのなら「技術予測」は容易であり,デルファイ法を用いた大規模で面倒な手続きを採用する必要がない。この事実は,大多数の研究は延長性の有無の研究そのものであると言っても過言ではないことを示していると言えよう。

延長性がないと一般に考えられている不可能技術が実現されるには,抜本的なパラダイムの変革と実用化への強い信念が必要である。仮名漢字変換の場合,5節に示すような,億円単位の研究開発環境と人件費を確実な保証のない,しかも,先人達の成功の声を聞かず,不可能と言われている研究に掛ける決断が必要であった。高度な人工知能の技術も必要であったし,環境を整える管理とのチームワークも必要であった。2人の技術者と1人の管理者で始まったプロジェクトは,実現への強い決意がなかったならば,暗黙のシナジーと総合的な延長性のサポートを受けながらも,toy systemに終わったに違いない。

技術というものは時代の環境に強く拘束される。ある時期不可能に見えた技術がどのような理由で不可能とされたのかの反省が無ければいつまでも不可能のままに捨て置かれる可能性がある。それは努力や研究費が注がれないことを意味する。重要な技術がそのような地位にあれば,人類の大いなる損失につながる。本論文では,まさにそのような地位にいた技術を筆者らの体験から取り上げ「不可能性の構造」を解明した。幾つかの重要な技術を眠らせたままにすることなく,研究者が環境の変化を機敏に察知して技術の目を覚まさせることを考えるためのきっかけを論じた。

参考文献

[1] Blagovest Hristov Sendov: JOHN ATANASOFF--The Electronic Prometheus, 情報処理,Vol.47, No.1, pp1-7, 2006

[2] 渡辺茂: 漢字と図形, NHKブックス, 1976

[3] 河田勉, 天野真家:カナ漢字変換システム,昭和51年度電子通信学会総合全国大会 1134, 1976

[4] 天野真家,河田勉,武田公人: カナ漢字変換機能を備えたワードプロセッサ,電子通信学会情報部門全国大会,p90,1977

[5] 相沢輝昭,江原暉将: 計算機によるカナ漢字変換, NHK 技術研究 Vol.25, No.138, 1973

[6] 天野真家,河田勉: かな漢字変換における局所意味分析, 昭和55年電子通信学会総合全国大会5-217, 1980

[7] 天野真家,稲垣耕作: 人工知能分野におけるデルファイ法の的中度の分析,情報文化学会誌第13巻第1号(掲載予定), 2006

[8] (独)情報通信研究機構: EDR電子化辞書の構造,
http://www2.nict.go.jp/kk/e416/EDR/J_index.html

[9] 天野真家,河田勉,森健一: 仮名漢字自動変換方式による日本語ワード・プロセッサ,
情報処理学会計算言語学研究会20-3, 1979

[10] Joseph Weizenbaum: ELIZA --A Computer Program for the Study of Natural Language Communication between
Man and Machines, CACM9. pp.36-45, 1966



Home    Back    Next    Top