top

menu

データを地図上に可視化する2つの方法

cover46

マーケティング分野において「ビッグデータ」という言葉も既に当たり前になっています。企業や3rdパーティーが保有する様々なデータをどう分析するかという観点の中で、地図上にデータをプロットし、まずはその分布を可視化してみようというプロセスは基本となっています。

今回のコラムでは、膨大な量のデータを地図に可視化する際どのような方法があるか、代表的な2つの方法をご紹介します。
※以下、本コラムで使用したデータは全てダミーデータを用いています。

点でプロットする方法

ビッグデータの一つに顧客データがあります。顧客一人ひとりの住所がある場合、住所情報から地図上にマッピングすることができます。顧客データのレイアウトは以下のイメージです。

customerdata

地図データは、内部的に緯度と経度の情報を持っています。顧客データの漢字住所を緯度経度変換することを「ジオコーディング」といいます。GIS(地図情報システム)の多くはジオコーディング機能が標準搭載されています。上記の顧客リストを地図上にマッピングすると以下のようになります。

customerplot

1つの点が顧客1人の住所を表します。点の色がわかれているのは顧客の属性(性別、年代、購買傾向など)によって表現しているためです。例えば購買回数の多い顧客の分布だけを見ると店舗の周辺に固まっており、いわゆる一見さんだけを表示すると広域に分布しているということがよくあります。

このように「点でプロット」する表現手法は非常にわかりやすいですが、点は重なるので見誤る場合があります。そこでもう1つの「面でプロット」する手法を紹介します。

面でプロットする方法

先程の顧客データをジオコーディングする際、住所コードを同時に付与しています。住所コードは分析の目的に応じて様々な選択肢があります。多く用いられるのは市区町村、町丁目、郵便番号です。
各顧客の漢字住所を元に付与した住所コード単位で顧客数や購買金額などを集計します。イメージは以下です。

customerdata_2

次に付与した町丁目コード単位で顧客数などを集計します。つまり顧客単位のデータが町丁目単位のデータに変換するということです。

chosummary

このように集計することで、膨大なデータを圧縮したことにもなります。日本全国の町丁目数は約20万件、郵便番号は約10万件です。1億レコードの顧客データでも20万レコードにできるということです。
更に個人単位ではなくエリア単位になるので個人情報や機密情報の秘匿化にもつながると言えるのではないでしょうか。

ではこのデータを地図にプロットしてみます。

chomap

上の地図では先程の点でプロットしたデータと同じデータを用いています。緑色の濃い町丁目は顧客数が多いということを表します。受ける印象つまり得られる知見はかなり異なるのではないでしょうか?点でのプロットだと広範囲に分布しているように見受けられましたが、実態としての顧客分布は中心の店舗周辺に固まっているということがわかります。

終わりに

今回はデータを地図にプロットする2つの方法をご紹介しました。それぞれ長所と短所があるので上手く使い分けることが重要です。ジオコーディング、住所コード付与・集計を行う機能やツールは製品として存在しますので、実際に分析を行う際には各ベンダーに問い合わせをすると良いかと思います。