階層クラスター分析とは?非階層クラスター分析との違いについても解説

このエントリーをはてなブックマークに追加

顧客分析のひとつとして「階層クラスター分析」という手法があります。有名な分析手法であるため耳にしたことがあっても、実際にどういった考え方で行うのかは分からないという人も多いのではないでしょうか。

多くの人が混乱する点が、似た名前の「非階層クラスター分析」との違いです。また、どういったシーンで活用できるのか明確に把握できていないという意見もよく耳にします。

階層クラスター分析は複雑なデータを単純化し、マーケティングへの活用が可能な分析手法です。

本記事では階層クラスター分析の概要やメリット・デメリット、主な手順、注意点を解説します。具体的な内容を理解して、今後のマーケティング活動に活かしましょう。

客層の変化に気づいたら 既存店の商圏分析に

階層クラスター分析は、クラスター分析の一つ

階層クラスター分析は、「クラスター分析」という枠組みの中にある手法です。
この章ではまず「クラスター分析」の概要を押さえ、階層クラスター分析と非階層クラスター分析の違いを確認し理解を深めましょう。

クラスター分析とは?

クラスター(cluster)は「集団・群れ」の意味を持っています。
その名称の通り、クラスター分析とはある集団やグループの中から類似するデータ同士を集めて分類する分析手法です。「クラスタリング(clustering)」と呼ばれることもありますが、同じ手法を指す用語です。

クラスター分析の目的は、複雑なデータを利用しやすく変換してマーケティングやブランディングに活用することです。商品や顧客属性、アンケート結果など、さまざまなデータに使用できるため、幅広い場面で有益な情報を得られるでしょう。

階層クラスター分析と非階層クラスター分析の違い

クラスター分析は「階層クラスター分析」と「非階層クラスター分析」の2種類に分類されます。

両者の違いはデータの分類方法です。階層クラスター分析の場合は、データの中から条件の近いデータ同士を集めて階層にしていきます。一方、非階層クラスター分析では、あらかじめクラスター数を決めたうえでデータを分類します。

階層クラスター分析のメリット・デメリット

ここでは、階層クラスター分析のメリットとデメリットを解説します。それぞれの面を理解し、マーケティングに生かしましょう。

メリットは「分析の手軽さ」

階層クラスター分析の最大のメリットは、クラスター数を決めずに分析を始められる手軽さです。近い性質のデータから順にグルーピングして、下から上の層に向けて大きなクラスターへと統合されていきます。クラスターの構成要素がわかりやすい点と、後からクラスターの分割や統合もできる点が手軽さの理由です。

出力される樹形図(デンドログラム)からクラスターの結合過程を確認できるため、後から状況に応じたクラスター数を決められます。結合過程から、分析者の分類意図をつかめることも特徴です。

デメリットは「分析の複雑さ」

階層クラスター分析のデメリットは分析の複雑さです。この手法では分析対象の数に比例して計算量が多くなるため、データ量が多ければ多いほど実行が難しくなるのです。分析が複雑化すると計算に時間と手間がかかるだけでなく、データ量に伴い樹形図が大きくなるため、かえって結果が見にくくなるでしょう。

分析したいデータ量が多い場合は、あらかじめクラスター数を決めてから分析をおこなう、非階層クラスター分析を用いた方法がおすすめです。

「大量のデータをどうしても階層クラスター分析で分類したい」という場合は、サンプルを抽出することで階層クラスター分析を使用できます。

クラスター分析の主な手順

クラスター分析の主な手順を、次の4ステップで簡単に解説します。

  1. 分析の目的を設定する
  2. 階層クラスター分析と非階層クラスター分析のどちらかを選ぶ
  3. 類似度の定義を決める
  4. クラスターの結合方法を決める

より具体的なクラスター分析の手法を知りたい方は、こちらの記事をご覧ください。

手順1:分析の目的を設定する

まず、最初にするべきなのはクラスター分析をおこなう目的を決めることです。設定した目的に合わせて、分析対象とするデータを決めましょう。
顧客属性や市場調査、購買傾向などが分析対象の一般的な事例です。

目的に対して必要な分析データが自社にない場合は収集する必要があるため、データの収集方法から考えていきましょう。

手順2:階層クラスター分析と非階層クラスター分析を選ぶ

続いて、データを階層クラスター分析と非階層クラスター分析のどちらで分類するか決めます。

サンプルデータが多すぎると階層クラスター分析に適さないため、以下の目安を参考に分析手法を選びましょう。

  • 100個以下のデータ:階層クラスター分析
  • 100〜300個のデータ:階層クラスター分析と非階層クラスター分析の併用
  • 300個以上のデータ:非階層クラスター分析

クラスター分析で有益な分析結果を得るには、データ量に合った分析手法を選択することがポイントです。

手順3:類似度の定義を決める

次に、データ同士で何を持って類似度を判断するかの定義を決めます。
階層クラスターには4種類の代表的な距離測定方法があります。それぞれの考え方を理解して、分析方法やデータの特徴に合った適切な方法を選ぶことが大切です。

ユークリッド距離

ユークリッド距離

変数同士の相関が見られるときに使い、相関が強いほど実際の距離より短く表示される(示されるのは2点間の最短ルート。一番簡単な距離の算出法)

マンハッタン距離

マンハッタン距離

碁盤の目状の道路を通るため、各ルートの最短距離は等しくなる。「タクシー幾何学」とも呼ばれる

チェビシェフ距離

チェビシェフ距離

同次元の変数を別次元と捉え、最大となる2点間の距離を考える。例えば0を基点として、1点が0から3つ上、もう1点が0から4つ左の位置にある場合、大きいほうの値をとるため2点間の距離は4となる

手順4:クラスターの結合方法を決める

最後に、クラスターの結合方法を決めます。

階層クラスター分析に向いている結合方法の例として、次の4つが挙げられます。結合方法においても、分析内容に適したものを選択することで精度を高められます。

  • ウォード法:クラスターの併合時、平方和が最小になるようにする方法
  • 最長距離法:距離の最も遠いデータ同士から併合していくする方法
  • 最短距離法:距離の最も近いデータ同士から併合していく方法
  • 群平均法:すべてのデータの平均を計算し、クラスターの距離として併合する方法

ウォード法

ウォード法

クラスターの併合時、平方和が最小になるようにする方法

最長距離法

最長距離法

距離の最も遠いデータ同士から併合していくする方法

最短距離法

最短距離法

最短距離法:距離の最も近いデータ同士から併合していく方法

群平均法

群平均法

群平均法:すべてのデータの平均を計算し、クラスターの距離として併合する方法

クラスター分析をおこなう際の注意点

クラスター分析をおこなう際の注意点を、それぞれの項で3つのポイントに絞って解説します。

クラスター分析の結果を分析する必要がある

クラスター分析でおこなえる作業はあくまでクラスターに分類するところまでです。
分析結果から法則や関係性を導き出すことで初めてデータを活用できるため、クラスター分析の結果を分析する必要があります。

分析者の主観が入りやすい

クラスター分析は分析者の主観が入りやすく、特に非階層クラスターは事前にクラスター数を決定するため、あらかじめ結果が予測できる点に注意しなければなりません。

クラスター分析の結果のみを過信するのではなく、別の分析手法と併用しながら活用するのがポイントです。

高度な計算ソフトが必要である

クラスター分析は複雑な計算を繰り返すため、Excel単体の機能ではおこなえません。

最低限の環境として、Excelのアドオンである「エクセル統計」が必要です。さらに高度な分析をおこなう場合、「R」「SPSS」「JMP」といった統計ソフトの使用をおすすめします。

まとめ:階層クラスター分析を理解してマーケティング分析に生かそう

  • 階層クラスター分析は、クラスター分析のひとつである
  • 手軽に分析できる反面、大量のデータ分析には適さない
  • データ量や特徴、分析方法に合わせたクラスター作成がポイント

ある集団から類似するデータを集めて分類するクラスター分析のうち、徐々にデータを階層にしていく手法を「階層クラスター分析」、あらかじめクラスター数を決めて分類する手法を「非階層クラスター分析」といいます。

階層クラスター分析は、事前にクラスターを決める必要なく手軽に分析できる反面、データ量が多くなると計算が複雑になってしまうため、大量のデータ分析には適しません。

データ量や特徴、分析方法によって適切なクラスターの形成方法が異なるため、状況に応じた方法を選び、マーケティングに活用しましょう。

客層の変化に気づいたら 既存店の商圏分析に

タグ : データ分析 分析手法 顧客分析
このエントリーをはてなブックマークに追加