第四次産業革命(詳しくは『工場の第4次革命、インダストリー4.0とは?』)の進展に伴い、データ活用の体制作りがものづくり企業に求められています。そこで基本的な用語として押さえておきたいのがデータウエアハウス(DWH)、データレイク、データマートです。
本記事では、それぞれの違いに加え、構築方法や注意したいポイントについても解説します。
データウエアハウス(DWH)、データレイク、データマートはいずれも、データが格納される場所の名称です。
DWHのウエアハウス(WareHouse)とは、日本語で「倉庫」のこと。スペースを区切り、棚を設置して資材や製品を保存する倉庫のように、データを分類・整理・タグ付けなどして格納します。このように一定の規則で使いやすい形に加工・格納されたデータを「構造化データ」と言います。
一方、データレイクはデータの流れるレイク(湖)。湖の水を区分けすることができないのと同じく、画像、文章、動画といった形式や、役割ごとに区別せず、そのままデータを蓄積するのがデータレイクのコンセプトです。データレイクは、一定の規則に従って加工・分類されていないデータ、すなわち「非構造化データ」を格納します。
データマートはDWH以上に“使う”視点を強く持ってデータを格納するための場所です。マート(小売店)のように、部門やプロジェクトチームといった特定の集団が明確な利用目的を持って構造化データを格納します。
まとめると、DWH、データレイク、データマートは、“データが構造化されているか否か”と“データを利用する目的がどれほど明確か”で区別できます。データを構造化して蓄積するスタンダードなデータベースがDWH、非構造化データを格納するのがデータレイク、利用目的が最も明確なのがデータマートと考えてみてください。
また、DWHとデータレイクを掛け合わせ、ある程度整理しつつ柔軟に非構造データも格納するデータレイクハウスという概念も近年は考え出されています。
DWH、データレイク、データマートの違いを踏まえて、統合的なデータ活用のための環境を構築するために不可欠なのが現状分析です。
上記のようにさまざまなパターンの問題が見出されるでしょう。
それらの問題を解決し、理想のデータ活用スタイルを定義することが、まず何よりも先に立ちます。DWH、データレイク、データマートはそれぞれ役割や目的が異なるため、必要に応じて併用するのが一般的です。
まずはDWH、データレイクを構築し、そこから目的に応じてデータマートにデータを抽出することになるでしょう。DWHに求められるのは、CRM、生産管理システム、Webサイトのアクセスログといったさまざまなデータソースに蓄積されたデータを統合し、分類・時系列ごとに蓄積して企業の資産とすることです。一方、データレイクに求められるのはあらゆるデータを収集した上で、そのまま蓄積することです。そのため、DWHにはデータを整理し、誰でも必要なデータを呼び出せるような機能性が、データレイクには非構造化データを含めた大量のデータを収集・蓄積する柔軟性が求められます。
いずれも近年はクラウド化が進んでおり、すでにオンプレミスでDWH、データレイクを構築しているといった場合でも、今後の拡張を見据えて移行するケースが見られます。また、データの統合においてはETLツールが使われる例が一般的でしたが、そこにデータをコピーせず、直接呼び出せるデータ仮想化が組み合わされる例も増えています。
真のデータ活用は、データサイエンティストやIT担当者など社内の一部だけでなく、現場社員も含めた企業の一人一人がデータを業務に生かせる環境を構築することでもたらされます。
せっかくコストを費やしてDWHやデータレイクを構築しても利用されなかったり、データセットの抽出は担当者頼りだったり、DWHやデータレイクを介さずやり取りされるデータが氾濫したりしていては、思ったような効果は得られません。
データが無造作に放り込まれているだけでどこに何があるかわからず、利活用が難しくなってしまったデータレイクを「データスワンプ(データの沼地)」といいます。データスワンプ化を防ぐには、データレイク内から必要なデータを引き出すために用いられる「データカタログ」の構築がカギとなると言われています。質の良いデータカタログ構築のためには、ユーザーの明確なイメージと付与するメタデータの定義が必要です。すなわち、データの利用シーンをできる限り事前に想定しておくことが、データレイクの構築においても不可欠ということです。
データウエアハウス(DWH)、データレイク、データマートの違いや活用のポイントについて解説してまいりました。真のデータ活用を実現するには、全体を俯瞰する視点で理想のデータ環境を描きながら、社内でそれらが利活用される環境を現場の実態に即して構築することが必要になります。クラウドを活用すればスモールスタートが可能になることも利用して、自社にあったデータ活用基盤を探っていきましょう。