データの再表現

作成日 : 2002-05-16
最終更新日 :

データの再表現の利点は、関係の単純化、分散の安定化、標準分布への近似などである。

ベキ乗変換

以下の記述は文献 [1] 33ページに基づく。通常ベキ乗変換は、一次変換と組み合わせて使う。 変換前の原データの中央値を M とすると、p 次ベキ乗変換の式は、p が 0 と等しいか否かにより次の通り変わる。

p が 0 でないときは、次の変換を使う。

T p ( x ) = M + xp-Mp pMp-1

p が 0 のときは、次の変換を使う。

T p ( x ) = M + log10x-log10M 0.4343/M

下記は、再表現を JavaScript で実装した例である。

M:
p:
x:
Tp(x):

ロジット変換

以下の記述は文献 [2] 111 ページ以降の記述に基づく。確率 `p in [0, 1]` を線形回帰した場合、`p` の推測値が `[0, 1]` に収まらなくなるなどの不都合がある。 そこで、`p` をロジット変換する。

`p' = log(p/(1-p))`
`p'` について線形回帰すれば、不都合は生じなくなる。

文献

  1. 渡部ほか:探索的データ解析入門朝倉書店
  2. 東京大学教養学部統計学教室(編):自然科学の統計学

まりんきょ学問所統計活用術 > データの再表現


MARUYAMA Satosi