クラスター分析のやり方を解説!データをグループ分けする手法とは?
「販売データを活用して売上を伸ばしたいがやり方がわからない」
「効果的な分析方法について知りたい」
という方は多いのではないでしょうか。
今回は、市場調査や顧客情報の分析などでよく使われるクラスター分析のやり方を解説します。クラスター分析はマーケティング施策の効率化にもつながるため、ぜひ押さえておきたいポイントです。売上を伸ばすための課題点や施策を見つけたい方、分析結果を生かして効率的なマーケティングをしたい方は、ぜひ最後まで記事をご覧ください。
目次
データを似た者同士でグループ分けする「クラスター分析」
「クラスター分析」とは、似たもの同士でデータをグループ分けする分析手法です。たくさんの異なるデータから性質が似たものを集めてグループ分けした分析結果は、情報の関連性を解明することにつながります。
クラスター分析の対象となるデータには、企業・商品のイメージ、顧客の意識や行動などが挙げられます。数値化できるデータではなくアンケートなどで得られる抽象的な意見から分類が行えるため、それぞれの顧客に対する最適なマーケティング施策を考えやすくなるでしょう。
クラスター分析の種類とは?
クラスター分析には「階層クラスター分析」と「非階層クラスター分析」の2種類があります。それぞれについて、特徴を確認していきましょう。
階層クラスター分析
階層クラスター分析とは、全部のデータ間における類似度を出したうえで、最も似ている対象から順にまとめて階層にしていく分析方法です。似ている対象同士をまとめる際に、階層構造を示す樹形図ができます。樹形図によって、視覚的にもわかりやすいデータの解析が可能です。
階層クラスター分析では、類似度の高い対象から階層を作成していくため、あらかじめクラスター数を決めずに分析できる特徴があります。しかし階層クラスター分析は、データ量が多いと計算量も増えて処理が難しくなるため、データが少ない場合に適しています。
非階層クラスター分析
非階層クラスター分析とは、あらかじめクラスター数を決めて決めたクラスター数に分類していく方法です。
ほかのクラスターとの違いとクラスター内の類似性を明確にしつつ徐々に似た性質の要素でクラスターを形成することで、信頼性の高い分析データを得られるのが特徴です。また、あらかじめクラスター数を決めておこなうため計算量は少なく、大きなデータでも扱いやすいメリットがあります。
しかし、非階層クラスター分析は分析前にクラスター数を決めなければならないため、最適なクラスター数の計算が難しい手法です。クラスター数を決める際に分析者の主観や思惑(おもわく)が入りやすいため、結果を過信しないように注意する必要があります。
クラスター分析の手順
ここからは、クラスター分析の手順を紹介します。クラスター分析は以下の流れでおこなうため、それぞれのポイントを確認していきましょう。
- 分析目的を定めデータを収集する
- 分析手法を決めておく
- 対象の類似度定義を決める
- クラスターの形成方法を決める
クラスター分析の手順1:分析目的を定めデータを収集する
まずはクラスター分析をおこなう目的を定め、それに必要な分析対象を明確にしましょう。分析目的を定めることで、クラスター分析の精度が高まります。
身近な目的の例として挙げられるのは、顧客属性や購買傾向、市場調査などの分析です。具体的な分析目的に基づいたデータの収集は、顧客に合わせたマーケティング施策を考えるきっかけにもつながります。クラスター分析の効果を高めるためには分析の対象やデータの収集方法などについてしっかりと考えることが欠かせません。
クラスター分析の手順2:分析手法を決めておく
次に、全体から似ている対象を見つけていく階層クラスター分析か、あらかじめ決めたグループ数に分けていく非階層クラスター分析のどちらを使用するか、決める必要があります。
階層クラスター分析と非階層クラスター分析のどちらにするか迷った際は、分析サンプル数や個体数に合わせた分析方法の活用がおすすめです。
サンプル数や個体数が100以下の場合は階層クラスター分析、
サンプル数や個体数が300以上の場合は非階層クラスター分析が適しています。
100〜300の間にサンプル数や個体数がある場合は、2つの分析方法を併用するとより効果的です。
さらにデータが300以上の場合でも、サンプルを抽出することで階層クラスターも使用可能といえます。
クラスター分析の手順3:対象の類似度定義を決める
続いて、個体同士が類似しているかを定めるための類似度を数値的に定義しましょう。
対象の類似度はデータ間をベクトルで表現し、ベクトル同士の計算によって算出できます。
個体間における距離の測定方法はデータの特徴や分析方法に応じたものを選ぶことが大切です。代表的な測定方法としては以下の4種類が挙げられます。
- ユークリッド距離(直線距離):変数同士に相関性が見られるときに用いる
- マンハッタン距離(市街地距離):碁盤の目状の道路を通るときの距離
- チェビシェフ距離:同じ次元の変数を別次元の変数と考えるときに用いる
- ミンコフスキー距離:ユークリッド距離とマンハッタン距離を含む指標を用いる
ユークリッド距離は使いやすい測定方法ではあるものの、判断は数値のみによるため単位が無視されるというデメリットもあります。
クラスター分析の手順4:クラスターの形成方法を決める
最後に、クラスターの形成方法を決めましょう。形成方法によって順番やバランスが変わるため適した方法の選択が大切です。以下より、階層クラスター分析と非階層クラスター分析の形成方法について解説します。
階層クラスター分析の形成方法
階層クラスター分析の形成方法としては、以下の6種類が挙げられます。「」内は、それぞれクラスター間の距離を示します。
- ウォード法:クラスターの併合で失われる情報を最小にする方法
…計算量は多い。しかし分類感度が高いため、樹形図の鎖効果を回避しやすい - 最短距離法(最近隣法):「各集団の最も近い個体の組み合わせ」にする方法
…分類感度が低く、鎖効果でクラスターが帯状になる - 最長距離法(最遠隣法):「各クラスターの最も遠い距離の組み合わせ」にする方法
…分類感度は高いが、クラスター同士の拡散現象が起こりやすい - 重心法:「重心の組み合わせ」にする方法
…計算は、クラスターの大きさを考えておこなわれる - 群平均法:「個体間全ての対の距離の平均値」にする方法
…クラスター同士の拡散や樹形図の鎖効果を起こさない - メディアン法:「特定の2つのクラスター重心間の中央値と街のクラスターの重心」にする方法
…計算時に、クラスターの大きさは考慮しない
これらの形成方法は専門性が高く選択が難しいのが特徴ですが、一般的には「ウォード法」を用いておこなわれます。
非階層クラスター分析の形成方法
非階層クラスター分析の形成方法には「k-means法(k平均法)」を用いることが多くなっています。
k-means法(k平均法)とは、あらかじめ決めたクラスター数「k」に分類した後、それぞれの距離が最大になるまで再配置する方法です。
クラスター分析は表計算ソフトでは難しい
複雑な計算式を必要とするクラスター分析は、Excelなどの表計算ソフトだけでおこなうことは難しいです。Excelの標準機能では精度の高いクラスター分析は難しいため、Excelのアドインソフト「エクセル統計」を追加しておくとよいでしょう。ただし、さらに高度なクラスター分析をする際には「R」「SPSS」などの統計分析用ソフトを使うことがおすすめです。統計分析ソフトを使いこなすには専門的な知識やコストが必要ですが、より精度の高い専門的な分析が可能なため、ぜひ導入を検討してみてください。
まとめ:クラスター分析を活用してマーケティング精度を高めよう!
- 「クラスター分析」は似たもの同士でデータをグループ分けする分析手法
- 「階層クラスター分析」と「非階層クラスター分析」の使い分けがポイント
- 手順に沿ってクラスター分析をおこなうことで精度の高い分析が可能
クラスター分析では、似た性質を持つ要素を集めてグループ化することで情報の関連性を把握できます。目的や状況による階層クラスター分析と非階層クラスター分析の使い分けによって、効率的なデータ分析が可能です。
クラスター分析をおこなう際は分析目的を明確にしたうえで適した分析手法を用いることがポイントです。分析対象の類似度定義とクラスターの形成方法も決めておき、より精度の高い分析をおこないましょう。