人工知能学会誌を読む(2002年 11 月号)

作成日: 2002-11-03
最終更新日:

テキストデータの数値化

テキストマイニング前処理における注意点ということで、 分析者の視点から著者が注意点を述べている。 まず、対象が日本語であるために文節がわかりにくく、 そのため意味のあるかたまりをどこで区切るかという問題がある。 例えば、名詞の連続を分割するか否かという問題がある。 また、類義語をどの程度考慮するかという問題もある。 さらに、叙述の肯定と否定をどのように取り扱うかについても言及されている。

著者は、自由連想データによるブランドエクイティ(資産価値)測定の研究に従事している。 この解説では実際に使った例である、お茶飲料のブランドについての測定例が載っている。 それぞれのブランドイメージを対象者に自由回答によって収集したデータを、 意味単位で抽出している。 最初に述べられている収集データの注意例は、的確に説明されているとはいいがたいが、 著者のいいたいことはよくわかる。

ところで、この分析は「コレスポンデンス分析」という手法による。 コレスポンデンス分析とは何だろうか。参考文献が2件あるが、それだけではわからない。 早速インターネットで調べる。多変量解析の双対尺度法にあたるらしい。 訳語としては「対応分析」が当てられている。 けっこうマーケティングの分野では使われているようだ。 確か家の中のどこかの教科書にあったはずなので、探してみよう。


まりんきょ学問所コンピュータの部屋人工知能学会誌を読む


MARUYAMA Satosi