「心地よいデータマイニング3 つの掟」と題し、データマイニングの定義にはじまり、ビジネスへの応用、アルゴリズムの解説まで全10回にわたる、データアナリティクスについての連載です。第6回目となる今回は、「マイニングアルゴリズムを簡単に解説 その2」と題し、そのポイントを解説します。
アルゴリズムは数式まで理解や探求をする必要はありませんが、代表的なものについてはその概要を知っておくことは大切です。
詳細まで踏み込んでいくと、解釈できない数式が出てきたりして、アルゴリズムは複雑なものと感じてしまいますが、当コラムで最初から書いているとおり、ビジネスや企業を成長させるためにはアナリティクスはとても重要です。従って、アウトプットされた結果を「このアルゴリズムを使ってマイニングを実行したのでこうなった」という具合に、それらを理解できるレベルの知識は持っていたいものです。そして、そこで初めて各企業とその現場において、マイニングやアナリティクスが身近になり、役に立っていくのではないかと思います。以下の図は、前回
第5回でご紹介しました、3つの分析アプローチ方法です。
図1:3つの分析アプローチ方法 (前回掲載)
今回はこの図の中の「予測」でよく使われる決定木のアルゴリズムについて易しく解説します。
決定木分析とは
ディシジョンツリーとも言われ、マイニングの対象となるデータを属性変数または数値から分類し、これを繰り返し(深堀りしていく)その状態を樹形図で表現するものです。以下のような図を樹形図と呼びます。幹からはじまり、枝が分岐する形になります。内容は、第5回に引き続き、洋菓子店のデータを分析した例にしています。
図2:マカロンを買うお客様分析①
マイニング対象となるデータに対して決定木分析を行い、「マカロンを買ったお客様で、一回の来店でたくさん買い物をしていただいたお客様にはどういった傾向があるのか」を深堀りします。そういう意味では
BIツール(第1回)のドリルダウンと似た部分があります。
この例の場合は、購買データとアンケートデータの両方を活用してマイニングしています。アンケートについては、色や見かけ、ブランドなどを重要視するか否かをお客様に聞いています。
まずはじめは、1回の来店時に購入した金額で分岐するところからはじまります。FaceBookをきっかけとして来店したお客様は、色や見かけ、ブランドといったイメージを気にして来店しています。
この場合はお試し感覚で購入しているのか、購入金額は高くありません。しかし、今後ロイヤルカスタマーに成長する可能性があります。また、味・甘さなど味覚に関する表現はWeb上では口コミなどである程度知りうることはできますが、そこを重要視するお客様は少ないようです。
図3:マカロンを買うお客様分析②
決定木分析のアルゴリズム
決定木分析は自動的に対象データを分類していくものです。まずは、データ全体を最もよく分類できる属性変数(*1)を探して、その分類されたデータの中で最もよく分類できる属性変数を探して…と繰り返していきます。そしてこれ以上分類できないところまで繰り返します。
このアルゴリズムには種類があります。CHAID、C&R Tree、C5.0、QUESTなどが有名です。IBM SPSS Modelerにもこれらのアルゴリズムが採用されていますではどういう理屈で属性変数を見つけ出し、枝 (Tree)を作っていくのでしょうか。
例えばCHAIDの場合は、「カイ2乗統計値」を使って最適な分類・分岐を行います。まずこのアルゴリズムは、「数式」、「カイ2乗分布表」、「自由度」の3つの要素から構成されます。
① 数式
「カイ2乗統計値」を求めるには「カイ2乗検定」という方程式を使用し、データを計算します。数式は以下です。
つまり、「実績値から期待値を引いたものを2乗し、それを期待値で割る。」という数式です。そして対象となる要素の数分のカイ2乗検定値を合計(Σ)したものが、カイ2乗統計値です。
② カイ2乗分布表 (参照するテーブル)(*2)
カイ2乗統計値を以下の表に当てはめ、有意水準値0.05以下であれば分析対象となった要素同士に差異は無いと解釈されます。
図4:カイ2乗分布表
③ 自由度
カイ2乗分布表を参照する場合に縦軸の「自由度」も含めて分析します。自由度は、例えば分析対象の要素が6個ある場合は「5」となります。6個の要素がそれぞれ持つ数値のうち、5個までは変数として決められますが残り1個は合計から自動的に定まるので自由度は「5」。この場合「自由度5のカイ2乗分布」と呼ばれます。つまりは「自由度=分析対象となる要素-1」と覚えるのがよいでしょう。
従って、上記例では自由度5のカイ2乗分布のデータにおいて、カイ2乗検定値が10.0であれば要素間に差異は無い、13.0であれば差異があるということになります。
そしてこれは樹形図の分岐を行うときに使われます。カイ2乗統計値を分布表に照らし合わせながら、「差異があれば分岐、無ければ分岐しない」というステップを自動的に繰り返し、樹形図を形成していきます。つまりデータの内容で関連性の高いと考えられる要因を抽出し、カテゴリー分けしながら、決定されたそれぞれのカテゴリーごとの因果関係を分析していくわけです。
このアルゴリズムはIBM SPSS Modelerにも搭載され、コンピューターの力を使って、簡単な操作で大量のデータを迅速にマイニングすることができます。
今回は決定木分析のアルゴリズムを解説しました。この決定木分析は、視覚的にもわかりやすく、よく使われる手法です。データマイニングのはじめの一歩として、「まずはやってみる」ときのマイニング手法の選択肢としても有効かと思います。
さて、次回は、「マイニングアルゴリズムを簡単に解説 その3」です。何を一緒にお奨めしたらお客様はもっと買い物をしてくれるのか? 都市伝説「紙オムツとビールは一緒に買われる」は、どうすれば発見できるのか? を解説します。お楽しみに。
*1:データが持っている様々な属性(変数)。決定木分析では、ある一つの属性がAであるときは、他の変数がどういう場合か、ということを自動的に分岐させマイニングしていく。
*2:確率分布の一種で、推計統計学で最も広く利用されるものである。ヘルメルト(1.)により発見され、ピアソン(2.)により命名された。