【G検定合格対策】データマイニングの概要

  • 「データマイニング」について学びたいけど理解できるか不安・・・
  • 「データマイニング」についてどこから学んでいいか分からない?
  • 「データマイニング」について体系的に教えて!

 「人工知能(AI:Artificial intelligence)」は既に様々な商品・サービスに組み込まれて利活用が始まっている注目の技術ですが、その基本となる「データ分析」の理解がないとAIをどのように課題解決に活用するか基本方針が分からないと考えます。

 私は過去に基本情報技術者試験(旧:第二種情報処理技術者試験)に合格し、また2年程前に「一般社団法人 日本ディープラーニング協会」が主催の「G検定試験」に合格し、現在、「E資格」取得にチャレンジ中ですが、AIの勉強を始めた頃はデータ分析の知識がなく、AIを理解するのに苦労した苦い経験があります。 

 そこでこの記事では、データ分析の超初心者の方へ「データ分析」について体系的に解説します。

 この記事を読めば「データ分析」が体系的に学べ、AIの理解向上につながります。

目次

1.マーケティングとは

 マーケティングの具体的な手法としては、4Pと呼ばれる次の4つがある。 これらの手法を組み合わせることで、マーケティング基本戦略を具現化する。

  • Product(製品)
  • Price(価格)
  • Promotion(販売促進)
  • Place(流通)

1.1 マーケティングの基本戦略

 マーケティングの基本戦略である「STP」は次のとおり。

「STP」とは・・・
  • Segmentation
     市場にいる不特定多数の顧客をさまざまな切り口で分類し、特定の属性ごとにグループ(セグメント)を作ること」と定義される。全体を何らかの基準や規則に基づいて、いくつかの部分・断片に分割すること。                                   
  • Targeting
     企業がある目的を達成するために適切だと思われる市場や顧客グループを選択するこという。
  • Positioning
     ターゲット顧客の頭の中に、自社製品について独自のポジションを築き、ユニークな差別化イメージを植えつけるための活動。 顧客に自社製品のユニークな価値を認めてもらうことで、競合製品に対して優位に立つことを目的にしている。

1.2 BIとは

 BI(Business Intelligence)は、ビジネス分析やデータマイニング、データビジュアライゼーション(データの可視化)、データツールやインフラストラクチャ(社会基盤)、またベストプラクティス(最もよい練習)などを組み合わせて、組織がよりデータに基づいた意思決定を行えるように支援することである。

2.データマイニングとは

データサイエンスの領域
  • ①データ取得・蓄積
  • ②データ分析 
    データマイニング
    目的明確化と分析方針決定
    データ確認
    データ構造把握
    データクレンジング
    データ加工・整形
    基本集計(クロス集計)
    詳細分析(多変量解析)
  • ③モデル構築 
    モデル作成
  • ④検証
  • ⑤課題解決
データマイニングとは・・・
  • 大量のデータを統計学や人工知能(AI)などの分析手法を駆使して、「知識」を見出すための技術。
  • miningとは「採掘」という意味があり、言い換えると情報(データ)から有益なものを採掘すること。
  • データを入れれば何らかの知識が自動的に発見できるものではない。 データマイニングには2種類あり「知識発見」だけではなく、「仮説検証」もある。
データマイニングと統計解析の違い
データマイニング統計解析
特徴・知識発見
・データ量が多い
・仮説検証
・データ量が少ない
データマイニングと統計解析の違い

2.1 データマイニング

データマイニングについて説明する。

2.1.1 仮説検証(目的志向)的データマイニング

  • 教師あり学習
  • 推定、把握(量的変数)
    例:どこでどの商品がどれくらい売れているか把握する。
      この顧客はどんな商品を買ってくれているのだろうか。
      この商品は将来どの顧客が買ってくれるのだろうか。
  • 分類、抽出(質的変数)
    例:与えられた動物の画像が何の動物かを識別する。
      売上げを向上するために自社商品を分類する。
      今後力を入れるべき重点商品はどの商品なのか抽出する。
      上得意な顧客、離れかけている顧客は誰なんだろうか。
  • 将来の予測
    例:商品の過去の売上げ(量的変数)から将来の売上げを予測する。
             ↓ 用いられる手法
    線形回帰、ランダムフォレスト、勾配ブースティング、ニューラルネットワークなど

2.1.2 知識発見(探索)的データマイニング

  • 教師なし学習
  • アソシエーションルール策定
    例:どの商品とどの商品が一緒に買われているのだろうか。
  • クラスタリング
    例:元のグループ(購買行動)からグループ構造(似たような人)を見つけ出し、それぞれまとめる。どの顧客グループにはどの商品をお薦めすればよいだろうか。
             ↓ 用いられる手法
    k-means、階層的クラスタリング、主成分分析

2.1.3 両者で用いられるデータマイニング

  • グループの特徴を推測する(プロファイリング)
    例:新商品の評判はどうだったのだろうか。
    自社の顧客は性年代別、地域別にどんな人なのだろうか。

※上記で挙げた例(課題)はマーケティングの基本戦略である「STP」に直結している。

2.2 統計解析

2.2.1 目的の明確化

「データ分析で何をしたいのか」を明確化する。具体的には次のとおりである。

2.2.2 回帰問題

回帰問題とは連続値を予測することである。具体例は次のとおり。

  • 将来の売上げを予測したい。

将来の売上げを予測するためには次のデータ分析が必要である。                  

  • 売上げに大きな影響を与える要素は何か?

 売上げに大きな影響を与える要素を見付けるためには売上げと相関関係があるかどうか確認する必要がある。故に相関係数を算出する。

 次に抽出した要素について、各々に相関関係があるか確認し、もし相関関係があればどちらかの要素を訓練データから除外する。

2.2.3 分類問題

 分類問題とは離散値を予側することである。具体例は次のとおり。

  • 売れ筋の洋服を予測したい。
     洋服が売れる要因には、下表のように価格、サイズ、デザイン、ブランド等がある。よって、これらの要因と洋服が売れることとの関係があるかどうか確認する必要がある。
洋服販売データの例
洋服販売データの例

2.2.4 商品分析の手法

商品分析の主な手法
  • ①ABC分析
     売上の高い順に商品を並べ、棒グラフと、高い順に足し上げていった売上高累積構成比を表わす折れ線グラフを作成。商品をランク別にグループ化する。
  • ②アソシエーション分析(association analysis)
     連関分析ともいわれ、データマイニングの分析手法の中核を成すもの。 マーケットバスケット分析は アソシエーション分析の1つである。
  • ③マーケットバスケット分析

以降、編集中

3.まとめ

  • マーケッティング
    Product(製品)
    Price(価格)
    Promotion(販売促進)
    Place(流通)
  • データマイニング
    統計解析の違い

最後まで読んで頂きありがとうございます。
皆様のキャリアアップを応援しています!!

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

目次