- 「データ分析基盤の構築方法」について学びたいけど理解できるか不安・・・
- 「データ分析基盤の構築方法」が分からない?
- 「データ分析基盤の構築方法」を体系的に教えて!
データ分析基盤とは、膨大なデータを蓄積→加工→分析するのを一貫して出来るようにする技術的な基盤のことを指します。データ分析基盤の構築はデータを組織で効率的に活用していくために重要であります。しかし、データ分析基盤とは何か大さっぱに理解しているが、
- 実際の現場ではどうやって構築していけばイメージがつかない
- 実際にデータ分析基盤を構築したらその後どのように使われるかわからない
と悩むことがあるかと思います。
私は過去に基本情報技術者試験(旧:第二種情報処理技術者試験)に合格し、また2年程前に「一般社団法人 日本ディープラーニング協会」が主催の「G検定試験」に合格し、現在、「E資格」取得にチャレンジ中ですが、人工知能を活用するためにデータ分析基盤を構築することは重要だと考えます。
そこでこの記事では、「データ分析基盤の構築方法」のポイントについて体系的に解説します。
この記事を参考に「データ分析基盤の構築方法」を理解すれば、データ分析基盤が構築できるはずです。
1.データ分析基盤を構成する4つの要素

「データ分析基盤」は、組織が抱える膨大なデータをビジネスで利活用する為には必要不可欠な技術的基盤である。ここではこれから構築していくデータ分析基盤自体を4つの要素に分けて解説する。その4要素とは以下の通りである。
- データを集める
- データを貯める
- データを分析用に加工する
- データを可視化して分析する
1.1 データを集める
1つ目の要素は、様々な情報源からデータを収集することである。
まず、データ分析に用いる素材集めをしていきます。Webサイト・サービス・アプリなどに入力されたデータを取集する仕組みを作る必要があり、自動で全てのデータは蓄積されない。そもそも素材となるデータがないことにはデータ分析は出来ないので素材が必要である。
例えば、以下のようなことが挙げられる。
- 販売管理システムからデータを取り出す
- Webサイトに関する情報のうちアクセスログを取り出す
例)データ収集ツール
- talend
- fluentd
- Embulk
- Google Cloud Composer
1.2 データを貯める

2つ目の要素は、集めてきた大量のデータを大容量の保管庫「データレイク」に蓄積すること。
例)データ蓄積ツール
- Google Cloud Storage
- Azure Data Lake Storage
- snowflake
- Amazon S3
- ORACLE CLOUD
- IBM Cloud
1.3 データを分析用に加工する
データレイクに蓄積された莫大のデータのうち、分析に使用するデータのみを取り出し最適な形へ加工していく。
ここでは、データレイクから分析用に移してきた素材データを使う人・用途・目的に応じて、集計・統合するなどの加工をする。こうした加工したものを「データマート」と呼ぶ。そして、分析用に集めてきたデータやデータマートは「データウェアハウス(略してDWH)」保管する。
例)データ加工ツール
- Google BigQuery
- Azure SQL Data Warehouse
- snowflake
- Amazon Redshift
- alteryx
- Treasure Data
1.4 データを可視化して分析する

4つ目は、作成したデータマートを可視化したレポートを元に意思決定する。データマートは加工済みのものであるが、まだ数値の羅列に過ぎず我々が意思決定する材料としては使いにくい状態である。ゆえに、グラフやチャートを用いてデータを人が見て理解出来るようにしていく。そしてツールとしては「BIツール」「統計ツール」などを用いる。
例)データ分析・可視化ツール
- Tableau
- Looker
- SPSS
- Python
- Power BI
- Google Data Studio
- Amazon QuickSight
- R
2.データ分析基盤を構築すべき2つの理由

データ分析基盤の構築は、データ利活用を進めるのに必要不可欠である。多くの特徴があるデータ分析基盤の構築が重要である理由は、主に2つが挙げられる。データ分析基盤の構築により以下の2つのことが実現し、データを効果的にビジネスで活用することが出来る。
- 一貫したシステム連携によるスムーズなデータ分析が出来る
- データを安全に一元管理しデータの質を担保できる
2.1 一貫したシステム連携によるスムーズなデータ分析が出来る
データ分析基盤はデータを集めるところから分析するまで一貫して行うので、一定の作業を自動化し素早くデータ分析することが可能である。データを「集める」「貯める」「分析用に加工する」「可視化して分析する」の4ステップを一つの環境下で連携させて実行するので、「データを分析して活用しよう!」となってからすぐに作業に入ることができる。「複雑な集計を毎回行わなければならない」「毎回毎回データ抽出の条件が複雑で工数がかかる」といった事態を避けることが可能である。
また、このシステム連携は本来では得られなかった分析結果を生み出すことも可能である。データ分析基盤により、組織で横断したデータ分析が可能になるので複合的な観点で分析を進めることができる。
例えば、以下のようなことが挙げられる。
- 店舗の売上データ(リアルデータ)×Webサイトのデータ(デジタルデータ)
- 関東事業部のデータ×関西事業部のデータ
2.2 データを安全に一元管理しデータの質を担保
データ分析基盤では、データを一元管理しデータの質を向上させる取り組みが可能となる。前述で、あらゆる形式のデータを貯める「データレイク」、分析用に加工したデータを貯める「データウェアハウス」を紹介した。こうした技術的環境無しにデータが散在したままで管理していると、以下のような「データを準備するまでに時間がかかり分析・活用に直ぐに取り組めない」「そもそも使用するデータが誤りである可能性が高まる」状態に陥る。
- 似たようなデータが部署ごとに様々な場所に保存され、どれが最新のものかよくわからない
- データが部署ごとでバラバラで管理され表記が異なるので、紐づける際に欠損が生じている可能性がある
しかし、データ分析基盤上でデータを一元管理し以下のようなことを行うことで質の良いデータを提供し続けることが可能になる。
- 表記が揺れが項目によってあるので、そうしたデータの項目を修正する処理を自動化し表記を統一する
- 部署によって異なる場所データを保管していたが、データ分析基盤下に置くことでデータの漏れをなくす
2.3 品質の良いデータとは?
データ分析基盤は、質の良いデータを提供するのに重要な技術基盤である。「質の良いデータ」とはどんなデータなのか曖昧であるが、以下の項目が評価基準として参考になるのでぜひご活用ください。以下の項目を元に、自社で扱うデータはどのレベルまで担保したものとするのか決めるのも良いかもしれない。
評価軸 | 概要 |
---|---|
正確性 | データが表そうとしている実体が正しく示されていること |
安全性 | すべてのデータ要素が揃っていること |
一貫性 | 同じ実体を表す2つ以上のデータに不整合がないこと |
最新性 | データが期限内の実体を示していること |
精度 | データの詳細度(有効桁数など)が十分であること |
プライバシー | アクセス制御と利用監視がなされていること |
妥当性 | 対象の業務内容においてデータの整合性が取れていること |
参照整合性 | 参照元のデータが存在すること |
適時性 | 必要な時に速やかにデータが利用できること |
一意性 | 同じ実体を表すデータが1つだけ存在すること |
有効性 | データが定められた属性(型・形式・精度・文字コード等)が有効範囲に収まっていること |
3.データ分析基盤構築に必要な5ステップ

データ分析基盤を自社組織で構築し活用していくのは一朝一夕で出来るものではない。また、構築にあたっては様々なツールやソリューションを扱うこととなる。ゆえに自社がデータ分析基盤の構築経験がない場合は外部の専門会社に構築の初期フェーズから共に進めていくことを推奨する。
ここでは、データ分析基盤を構築し実際に活用するまでの流れをざっくり次の5段階に分けて解説する。細かくタスク化すると数多くあるので、ここではざっくりとした全体感をつかんでいただければと思う。
- ①推進のためのプランニング
- ②利用用途の決定
- ③データ分析基盤の設計
- ④データ分析基盤の構築
- ⑤運用
3.1 推進のためのプランニング

まず最初は、データ分析基盤構築のために自社組織でプランニングが必要となる。2.でも解説した通り、データ分析基盤とは様々なツールの集合体であり、構築はボタン一つでは終わらない。自社組織の目的と要望に沿って、データ分析基盤は構築していく必要があるので初期は構築にあたっての体制作りが必要となる。以下が代表例として挙げられる。
- 推進チームの構築
データ分析基盤構築の舵取りをするプロダクトオーナー、データの生成・蓄積・分析の現場担当者、データを利用するユーザーを巻き込み、データ分析基盤構築推進チームを結成する。実際にデータ分析基盤を構築する人や利用する人はもちろんのこと、経営層の人員を巻き込むことが理想である。理由としては、データ分析基盤の構築は現場主導のみだと一過性で終わってしまう恐れもあるので全社的に進められるようなバックアップがあると、展開が楽になる。 - データ分析基盤構築のスケジュール・担当者アサイン
WBSなどで、データ分析基盤構築のタスクの棚卸し・納期の設定・担当者のアサインを行う。データ分析基盤の構築は、一過性の取り組みではないので何を誰がいつまでに進めるのか決めることが重要となる。
※1 WBSとは
Work Breakdown Structureの略。「作業分解構成図」とも呼ばれる。プロジェクトのスケジュール管理に使われるツールの1つで、作業工程を細かな作業(Work)に分解(Breakdown)し、構造化(Structure)することで管理する手法を指す。
最初に必要な作業の洗い出しを行い、可能な限り細分化し、それぞれの作業に必要なコストや人員配分を割り出して、スケジュールを配分する。プロジェクトの目的達成に必要なタスクの相関関係がひと目で分かるようになっており、関連するタスクを意識しながらスケジュールを管理できるのが特長である。WBSには以下のようなメリットがある。
- やるべき作業が明確になる
- スケジュールの構築が綿密になる
- 役割分担が明確になる
- 工数見積りがしやすくなる
- 進ちょく管理がしやすくなる
- スコープが明確になる
プロジェクトを進める上で一番重要なことは、「期限内に目的を達成すること」にある。WBSなら、並行して進む複数のタスクの相関関係を踏まえ、無理のないスケジュールを組める。現在では無料のものから有料のものまで、テンプレートやツールが多数リリースされている。WBSの詳しい内容についてはこちらが参考になると思う。
また、試しにWBSを作成したいという際はスプレッドシートでアドオンを使用して簡単に作成できるのでおすすめです。こちらの記事が参考になるかと思う。
3.2 利用用途の決定

プロジェクト体制が確立されたら、次はデータ分析基盤の要件定義を行い「何の為にデータ分析基盤を使うのか」の利用用途を決めていく。利用用途を決める理由としては、データ分析基盤は使われなければただのコストの無駄遣いとなってしまうからです。「実際にデータ分析基盤を使ってデータを活用してもらうこと」を初めから想定しておくことが重要です。利用用途を決める上では、まず現在社内でデータ活用に困っているユースケースを参考にすることが良いでしょう。
例えば以下の通り。
- データ分析をする際に、毎回「表記揺れ」を直すのに時間がかなりかかっている。表記揺れを直す処理は、同じ作業だが人がやると時間がかかるのでデータ分析基盤の環境下で自動化してしまいたい。
- 定時的に見る指標の中に集計ルールが複雑で出来る人が限られるものが存在する。なので、集計が複雑だったり抽出の条件が多いデータは自動化する処理を作りたい。
※1 表記揺れ:用字用語の不統一。同じ文書や書籍の中で、本来、同音・同義で使われるべき語句が異なって表記されること。「メモリー」と「メモリ」、「引っ越し」と「引越」など。
「データ分析基盤を構築したが結局使われずに終わった」「データ分析基盤をわざわざ構築しなくても、他の方法で代替可能なことが後になって判明した」といったことを避ける為にも、データ分析基盤の用途を事前に明確に設定することは重要である。
3.3 データ分析基盤の設計

利用用途が決まったら、次はデータ分析基盤の技術的な設計を行う。要望を満たせるように、以下に代表されることを踏まえてデータ分析基盤の設計を行う。
- どのデータを、データ分析基盤上では使用したいか
- 使用したいデータはどのように収集するか
- 収集したデータはどこに保管するか
- 保管されたデータはどのように分析し活用するか
以上のことを決めていくのと同時に、それぞれの処理はどのツールを導入し使っていくのかも決めていく必要がある。
3.4 データ分析基盤の構築

データ分析基盤の設計が終われば、次は実際に構築していく。データの収集、蓄積、分析、活用までを可能にするため、以下に代表されるようなことを行う。
- 既に自社内に蓄積されている構造化・非構造化データをデータレイクに移行する
- 利用スコープに含まれるデータがデータレイクに蓄積されるようにデータ収集のワークフローの実装
- 汎用的な処理を施したデータをDWHに配置する
- 分析用に加工したデータマートの作成
- データの可視化ツールの導入
※1 DWH(Data Ware House:データウェアハウス):様々なシステムからデータを集めて整理する、データの「倉庫」。 DWHではデータが時系列で保存されるため過去のデータ履歴を確認できると同時に、システムごとのデータを集約して全体のデータとして活用でき、より優れた企業の意思決定につながる。
上記を実装するにあたり、ツールの選定も行う。ツールは用途や技術環境などによって適するものが異なるので、いくつかPoCを行い比較検討をすることを推奨する。
※2 PoC (Proof of Concept、読み:ポックまたはピーオーシー) とは、新しい技術や理論、原理、手法、アイディア、などに対し、実現可能か、目的の効果や効能が得られるか、などを確認するために実験的に行う検証工程のことである。
3.5 運用

データ分析基盤の構築を終えたら、運用を行う。データ分析基盤は一度構築したら終わりというわけではない。
新たな利用用途があり、利用拡大に伴い機能改善をしなければならないことも有り得る。また、実際にデータ分析基盤を使ってもらえるように社内普及の活動も行う必要がある。
この様に、データ分析基盤を使い続けてもらえるように以下に代表されるようなことを行い、運用していかなければならない。
- データ分析基盤が要望を満たす働きをしているかの効果測定を行う
- データ分析基盤の利用状況をモニタリングする
- データ分析基盤の設計を定期的に見直す
- 社内でコアユーザーを見つけデータ分析基盤普及に協力してもらう
4.まとめ
最後まで読んで頂きありがとうございます。
皆様のキャリアアップを応援しています!!
コメント