中小企業白書を読む(1999年)

1999年に出版された平成11年版の目玉は、実証研究だそうです。中小企業の現在から未来を予測し、仮説をたて、この仮説を経済統計から、検証する、ということです。検証のためにいろいろな統計手法が使われます。今年の白書には、去年にはなかった統計の処理方法が出ています。たとえば、本文中であちこちの図表に t 値という項目が良く出てきています。付注、付表のページでは、ほとんどの付注に t 値が載せられています。 t 値とはなんでしょう？

少し統計をおさらいします。統計とは、多数のデータから意味を引き出すことです。最近騒がれている、ナレッジマネッジメントということばがあります。統計は、昔からある、その際たるものでしょう。
意味を引き出すためには、意味を持つ構造を仮定しなければなりません。その仮定が、統計モデルです。統計モデルを作って、実際のデータに当てはめてみる。そこでそのモデルに意味があるか、ないか、数学的な手段で検証するのです。

例をあげましょう。中小企業診断士を受けている人ならば、財務管理は御存知でしょう。そのなかで、費用分解の話題があります。固定費と変動費をどのように分けるか、ということです。

総費用をyとします。このyは固定費分aと変動費分b*x（bは比例の定数、xは単価）に分解できるとします。 xとyの組が適当な数あったとして、aとbをどのように求めるか、考えます。中小企業診断士の１次試験のレベルでは、勘定科目法、散布図表法、最小二乗法といった名前をあげられるだけで十分でしょう。ここではそのうち、最小二乗法について詳しく見ていきます。

最小二乗法とは上記の定数aと定数bを決めるにあたって、「実際のyと、a*x+bから決めた推定値のy~の差」の二乗の和が最小になるように、 aとbを決める方法のことです。 aとbを求める公式はここでは省きます。

さて、aとbを求めたとして、そのaとbにどの程度の信頼性があるのか、ということが気になる人はいませんか？この小論の出発点はそこにあります。 aとbがほぼ同じ程度となるであろう、二種類のデータPとQを考えてみます。

             P                               Q
y                              y

^                              ^            
|                     +        |                 +
|                 +            |             +
|             +                |                     +
|         +                    | +  
|     +                        |         +   
| +                            |     +  
|                              |
+-------------------------->x  +-------------------------->x

データPは一直線でばらつきがありません。これなら得られたaとbの値は確実に信用できるでしょう。ところが、データQはばらつきが多く、かろうじて右肩上がりには見えますが、 aの値に確実性があるかどうかわかりません。ひょっとしたら普通の水平直線が、雑音のせいで右肩あがりに見えただけかもしれません。ということは、一直線に上がっていく（下がっていく）というモデルが、誤りなのかもしれません。変化なしというモデルより、変化ありというモデルのほうが複雑です。モデルがその変化に見合うだけの説明力をもっていなければ、わざわざ定数を一個多く持ち出してきたことが割に合いません。

妙な書き方をしましたが、いいたいのはこういうことです。変数y（目的変数）に対してモデルをたてる時、そのモデルを説明するxという変数（説明変数）が、目的変数yに対して影響を与えているのかいないのかを知りたい、ということです。影響の与え方としては、xに比例して増えていくのかどうか、というのがここでの話題です。だから、b * xという項を考えるのが自然です。

前置きが長くなりました。t値について説明します。説明変数xについてのt値とは、（重回帰分析などで）「その変数を採用しても無意味な可能性」を、標準偏差を基準に示した値です。基準をどうとるかについてはいろいろな説があります。統計学上、信頼度の目安である 95% 信頼度（ 5% 有意水準、あるいは 5% 危険率）から、絶対値が 2 以上であることを要求されることが多いようです。たとえば、t 値が -2 ならば、その説明変数を採用しても無意味な可能性が、 5% 弱はあることを示しています。また別の本には、絶対値が√2 以上であることを条件としているものもあります（文献１）。

中小企業白書の統計

ここまで説明したところで、具体的に t 値を説明してある個所を読みます。本文51ページです。

では、付注1を見てみます。労働生産性伸び率と有形固定資産伸び率の関係を調べています。 Y = b + aX という式で、X が有形固定資産伸び率の自然対数、Y が労働生産性伸び率の自然対数です。係数 a についての t 値を次の観点から調べています。

３種類の観点がありますから、組み合わせて計 8 種類の t 値が出てきます。本をそのまま引用してよいか気が引けるのであまり詳しくは書きませんが、ある組み合わせでは t 値が 2.571 を記録しています。しかし、絶対値が 2 以上あるのはこの組み合わせだけです。したがって、「本文で特徴の違いは見出せない」と書いたのでしょう。

規模間の比較はともかく、設備投資の割合が上昇したからといって労働生産性が伸びるわけではない、というのは奇妙な気がします。どこかで労働者がサボっているのでしょうか。うーん。

t 値の絶対値が大きいほど、その変数を採用する意味が強くなる，というのはわかりました。しかし、値がどの程度ならばよいのか、今一つ意味付けがわかりません。

また、変数どうしが内部で関連をもっている場合は、t 値だけで意味を付けようとするのは危険です。詳しくは述べませんが、多重共線性と呼ばれる構造があります。

そこで、次のような仕組みが t 値の大小の判断にとってかわるべきです。その仕組みとは，次の通りです。

この作業を複数のモデルに対して行ない，相互に比較するという作業を繰り返すという仕組みです。

本当は、一つのモデルに対してモデルのあてはまり度を調べる有益な指標があれば、その指標をもとにして数多くの（しかし構造を探る上で有益な）モデルを立て、検証すべきなのです。そのような指標の一つにAICがあります。

AIC とは、統計数理研究所の前所長であった赤池弘次博士が考案された、モデルの相対的なあてはまり度を表す指標です。御本人は An Information Criterion であるということで名付けたようですが、他の研究者は Akaike Information Criterion と呼んでいます。私も、日本人の名をもっと国際的に広げたいと考えていますので、 Akaike の名前で呼んでいます。

AIC そのものについては多くの成書があります。計算の実際については私の javascript のページでもいくつか触れているのでここでは省略します。ともあれ、AIC の考えに慣れてほしいと思っています。

モデル名

中小企業白書に出てきた二つのモデル、LogitモデルとProbitモデルとについて調べてみました。

これらは従属変数が０または１の値をとる場合の回帰モデルです。そのまま通常の回帰分析をすると、予測値が０または１の範囲を飛び出てしまいます。それを避けるために０または１の従属変数に特殊な変換を施して[-∞,+∞]になるようにします。この推定結果に対して逆の変換を施します。そうすれば予測値は見事[0,1]に収まります。この変換にロジスティック関数を用いるのがLogitモデルであり、累積正規分布関数を用いるのがProbitモデルです。

LOGITモデルについては、次のような説明（文献[1]）もありました。

散布図

中小企業白書によく出てくる散布図について、疑問を２つ提示しておきます。

まず、一部の散布図で、あまりにもサンプル数が多いために、集積度の高い範囲が塗りつぶされており、非常に見にくくなっています。こういったデータはある区分毎に２次元の度数分布表を作り、その度数に応じてハッチングを変えたり濃淡を付けたりした図で表現するべきでしょう。度数分布の境界の取り方については、例えば参考文献の2.や3.が参考になるでしょう。

もう一つの疑問は、外れ値（アウトライヤー）への対応です。統計を出す時は、数値の扱いをするものはとくに推定値との差（残差）に注意する必要があります。特に、パラメトリック推定という、分布にある種の確率分布を想定する手法であればなおさらです。数値を出す時、アウトライヤーの存在で、数値がひきずられてしまいます。これに注意しないといけません。これを含めて、統計で陥りやすい問題点を挙げている本に、ダレル・ハフの「統計でウソをつく法」（ブルーバックスで邦訳あり）があります。

さて、わかりやすい例を一点挙げます。 191ページ、第1-5-9図　廃業率と開業率の関係があります。回帰直線とR²が記されています。よく見ると、廃業率が 6.5% もある点があります。ここは兵庫県です。なぜこれほど廃業率が高かったかというと、阪神・淡路大震災があったからです。いくら日本全体の傾向を調べるためとはいえ、この事実を挙げておかないのは不適切ではないでしょうか。そしてもう一つ、なぜか、開業率が 6.8% と異常に高い沖縄県もあります。沖縄では何か催し物でもあったのでしょうか。これは私にはわかりません。この理由がどんなものでしょうか。、催し物の効果か、そうではない内需拡大だか観光立県の試みが成功したのか、それがわかれば、次の対策が打てるかもしれません。

日本の統計だけではありません。外国の統計も同じです。 222ページ、第1-6-17図　米国における業種別開廃業率のグラフです。回帰直線とR²が記されています。どこかおかしいとは思いませんか。一つ、明らかに傾向を逸脱している業種があります。開業率が37.5%あまり、廃業率が9%程度の業種です。この業種一つのためだけに、グラフの右上がりの傾きが小さくなっているのです。統計をとるということは、全体の傾向を知るだけでなく、傾向にあてはまらないものを探すという意味でも重要なのです。それにしても、この業界はどこなのでしょう。コンピュータソフトウェアの業界でしょうか。

創業の障害

p.284に「創業の障害」があります。ここでは開口一番創業の主たる障害が「資金調達」、「人材確保」、「取引先開拓」とあります。ここにもグラフがあり、それぞれの障害について、中小企業創造活動促進法（創造法）の認定を受けたか否かで障害の程度にどれだけの差があるかがわかります。これをみてみると、「資金調達」の面で、創造法の認定を受けている企業が、受けていない企業より障害を認識している割合が多いのです。

これはどういうことなのでしょう。認定されているくらいだから、資金調達の心配がないものとばかり思っていました。では、どういう資格があれば認定されるのか、調べてみました（おいおい、二次の勉強のときに覚えたのではなかったか、という声が聞こえましたが無視します）。

この資格なのですが、研究開発等事業計画を策定し、都道府県知事の認定をうける、とあります。それで、この認定を受けると補助金が出たり低利の融資が受けられたりするのでした。ああそうか、金が欲しいから事業計画を策定して認定を受けるのか、それはそうだ、と妙に納得するのでした。

ちょっと解せないのは、障害要因の一つである、技術開発・研究開発についてです。こちらも、創造法認定企業がそうでない企業よりも障害と考えている企業の割合が多いのです。計画を出すぐらいだから障害とは考えていないのではないかと思うのですが、それが素人のあさはかさのようです。

なお、ここでは単純に比率が多い少ないだけで議論しましたが、本格的にはやはり統計の検定が必要です。つまり、多い少ないといっているのは、本当に意味があるほどのものか、ということです。ここでは省略します。

中小企業白書を読む(1999年)

実証研究と統計

中小企業白書の統計

モデル名

散布図

創業の障害