データベース・マーケティングの分野では、大量のデータの中から各種手法を使って隠れた法則を見つけ出す「データマイニング」が注目されています。
本稿では、このデータマイニングの一端に触れていただくため、その手法の一つである「決定木」の適用例を見てみることにします。具体的には、雑誌の購買勧誘のためのダイレクトメール(DM)のレスポンス率(回答率)を向上させた事例をご紹介します。
.
1.分析の概要
まず、データとして、年齢、性別、子供の有無、所得、銀行カードの有無、家族数、職業といった属性情報を含む個人情報データベースが用意されているところからスタートします。次に、この中から、無作為に何人かを抜き出してDMを発送し、レスポンスがあったか否かの結果情報をデータベースに追加します。
属 性 | 属 性 の 内 訳 |
年齢
性別 子供の有無 所得 銀行カードの有無 家族数 職業 |
7段階のグループ
男、女 有、無 8段階のグループ 有、無 6段階のグループ 4つのグループ |
レスポンスの有無 | 有、無 |
2.「決定木」による分析
レスポンス率は、DMの対象をグループ分けして狭く絞ることにより、全体の率よりも高いグループと低いグループとに分けることができます。たとえば、既婚者のグループでは全体より高く、未婚者のグループでは低くなるということが考えられます。高い方の既婚者のグループをさらに別の属性で絞り込むと、より一層高いグループが得られます。
以下においては、最も効率的な絞り込みを自動的に行って、「決定木」という見やすい形で表示してくれる手法の利用事例を、文末の[参考文献]に従ってご紹介します。
分析の結果は、下図のようなツリー状の図として表示されます。その形状から、この図は 「決定木(Decision Tree)」と呼ばれています。
この図の第1階層(一番上の葉)を見ると、分析対象者数、81,040人のうち、DMに対してレスポンスのあった人は1%強であることがわかります。
第2階層は、分析対象を「家族数」でグループ分けした上で、レスポンスのあった人の割合を見たもので、次のようになっています。
1人(独身)のグループ
2〜3人でのグループ 4人以上でのグループ 無回答のグループ |
1.09%
1.52% 1.92% 0.87% |
また、「家族数が2〜3人」のグループ(レスポンス率1.52%) をさらに職業で分けた第3階層を見ると、
事務職のグループ
作業職のグループ |
2.39%
1.42% |
以上から、「家族数が2〜3人」の「事務職」にDMを発送した場合には、無差別に送った場合と比べて、倍以上の効果がある(1.15% → 2.39%)ということがわかります。
このように、「決定木」を使うことによって、どのような属性を持ったグループにDMを送ればよいかが、一目で分かるようになります。
.
3.「決定木」の作り方と適用分野
上記のように、個人の属性を使って対象を絞り込むことにより、レスポンス率の高いグループを抽出することができます。この図では、最初に「家族数」という属性で絞り込みを行い、さらに、絞り込まれた各グループのそれぞれを別の属性で絞り込むといった手順で、全体としての「決定木」が形成されています。
ここで、最初の絞り込みに、「所得」でも「年齢」でもなく、「家族数」を使ったのはなぜなのでしょうか。それは、家族数の違いが、レスポンスの有無と最も強い関連を持っていたからです。レスポンスの有無と最も強い関連を持つ属性を見つけるための方法としては、「エントロピー」という情報理論の概念を使う方法と、「カイ2乗」という統計量を使う方法とがあります。
また、今回は、『DMにレスポンスしてくれた人はどのような属性をもった人か』という分析を行いましたが、同様に、『ある商品を購入した人はどのような属性を持った人か』、『業績の良い企業はどのような属性を持った企業か』などということを、「決定木」は直感的でわかりやすい形で示してくれます。「決定木」は、顧客分析や企業分析をはじめ、あらゆる分野で利用できる、データマイニングに不可欠な手法といえるでしょう。
「SPSS for Windows CHAID Release 6.0」 Jay Magidson/SPSS Inc.