目次
データウェアハウス、データレイク、レイクハウスの簡単な解説
企業のデータ管理戦略を設計する際、最初の決断の一つは「データをどのように、どこに保存するか」です。従来、組織は構造化・整理されたデータのための「データウェアハウス」か、大量のローデータを保存するための「データレイク」のいずれかを選択していました。
今日、その決断は単なるストレージ選びにとどまりません。AIの台頭により、データプラットフォームの設計手法は根本から変化しています。最新のアーキテクチャは、レポートやダッシュボードだけでなく、リアルタイムのデータ処理、非構造化データ、AI主導のアプリケーションにも対応する必要があります。
その結果、多くの組織が、データレイクの柔軟性とデータウェアハウスのパフォーマンス・ガバナンスを兼ね備え、最新のAIワークロードもサポートする「データレイクハウス」アーキテクチャへの移行を進めています。
| 機能 | データウェアハウス | データレイク | データレイクハウス |
|---|---|---|---|
| データフォーマット | 構造化および処理済み | ローデータ、ネイティブフォーマット(構造化、半構造化、非構造化) | ローデータと構造化データの両方をサポート |
| 柔軟性 | 柔軟性は低い。特定のデータ型向けに設計 | 非常に柔軟。様々なデータ型をサポート | 非常に柔軟。様々なデータ型をサポート |
| 導入コスト(時間と労力) | 事前の労力が大きい(スキーマ設計、ETL)。下流の処理は速い | 事前の労力は小さいが、下流の処理コストが高い | 中程度:ウェアハウスほど事前準備は不要で、レイクより構造化されている。ライフサイクル全体で労力のバランスが良い |
| ストレージ | データベースシステム | オブジェクトストレージ | トランザクション層を持つオブジェクトストレージ |
| クエリパフォーマンス | BIやSQLアナリティクス向けに高速化 | 変動あり。最適化しないと遅くなることが多い | 高速:最適化(キャッシュ、インデックス、メタデータ層)によりウェアハウスに近いパフォーマンス |
| ガバナンス | 強力なガバナンスとデータ品質管理 | 堅牢なガバナンスに欠けることが多く、データスワンプ化のリスクあり | 強力なガバナンス |
| メタデータリポジトリ | リッチなメタデータ:データ構造やリネージ(来歴)のメタデータを含む | 基本的なメタデータ:データの整理(ファイルレベル、カタログ)に関するメタデータ | 高度なメタデータ(スキーマ、リネージ、バージョン管理、タイムトラベル機能) |
| ユーザーのアクセシビリティ | データを抽出するには特定のクエリを作成し構造を把握する技術的スキルが必要だが、データが前処理されているため使いやすい | 生の形でのデータ抽出は容易だが、インサイトを得る前にデータのクリーニングや前処理を行う必要がある | 幅広いアクセス性:SQL + データサイエンス + 機械学習のワークロードに対応 |
| パフォーマンス | 高速で複雑なクエリに最適化 | パフォーマンスは変動的。最適化が必要 | 最適化されたストレージフォーマット+クエリエンジンによる高パフォーマンス |
| 最適な用途 | BIおよびレポート作成 | データサイエンス、ML、および大規模なデータ取り込み | 統合アナリティクスとAI |
データウェアハウスは、クリーニングおよび構造化されたデータを保存し、レポート作成やビジネスインテリジェンス(BI)に最適化された中央集権型のアナリティクス・データベースです。
データウェアハウスは、データがすでにクリーニング、構造化、分類され、すばやく検索・分析できるように整えられた「整理整頓された図書館」のようなものと考えることができます。
データウェアハウス(DWH)は大量のデータを高速で処理するように設計されているため、「先月の商品の返品数はいくつか?」といった質問に対しても、即座に回答を得ることができます。
DWHには通常、メタデータリポジトリが含まれており、テーブル、列、データ型、リレーションシップ、制約の構成など、スキーマの詳細や関係性といったデータ構造に関する重要な情報を提供します。また、メタデータリポジトリはデータの起源、変換、データパイプライン全体での移動に関するインサイトを提供することでデータリネージ(来歴)を追跡し、品質、透明性、コンプライアンスを保証します。これにより、ユーザーはデータを理解し、ナビゲートしやすくなります。
データウェアハウスがクエリに対する回答を迅速に返せるのは、データがすでに分析用に準備されているためです。
最新のクラウドデータウェアハウスには、以下のようなプラットフォームが含まれます。
DWHを構築するには、さまざまなソースからデータを取得し、関連するビジネス指標を作成するために変換を行い、その後DWHにロードします。歴史的には、このプロセスにETL(抽出・変換・ロード)が使用されていました。
今日では、多くのクラウドウェアハウスがELTにも対応しています。ELTでは、データが先にロードされ、ウェアハウスのコンピュートエンジンを使用して変換が行われます。
ウェアハウス内では、データの小さなサブセットが「データマート」と呼ばれる専用の小さなテーブルに保存されます。データマートは、営業、マーケティング、財務、顧客分析など、特定のビジネス領域向けに作成されることが一般的です。
データウェアハウスの最大の利点は、すぐに使える分析データが用意されていることです。構造化・集計されたデータにより、ビジネス、組織、研究プロセスの全体像を俯瞰することができます。
データはすでにクリーニング、モデリング、構造化されているため、アナリストはレポートやダッシュボードを素早く作成できます。
しかし、ウェアハウスの設計には、すべてのデータをすぐに利用可能な形式で保存するための、多大なデータ準備とデータエンジニアリングの労力が必要です。企業は、アクセスしやすく有益なデータを得るメリットと、データアーキテクチャの設計・実装に必要な投資というトレードオフを天秤にかける必要があります。
DWHアプローチは、異なる部門間で反復的なデータ業務を行う企業に特に有益です。例えば、複数の部門が顧客ロイヤルティKPIに基づいた定期的なレポートを必要とする場合、各部門のレポート作成のたびに再計算するのではなく、DWHでKPIを一度保存・更新する方が時間効率が良くなります。
データレイク(DL)は、さまざまなデータソースからの構造化・非構造化ローデータを元の形式のまま保存する、スケーラブルなストレージシステムです。
データレイクは、以下のようなほぼすべての種類のデータを保存できます。
ストレージには、クラウドベースとオンプレミスの両方でさまざまな商用ソリューションが利用可能です。データカタログはDLとDWHの両方で使用され、データの保存場所や整理方法に関する情報を提供します。これには、ユーザーがデータレイクやデータウェアハウス内の情報を理解するのに役立つメタデータリポジトリが含まれます。
ウェアハウスとは異なり、データレイクは大規模なデータを安価に保存するように設計されており、以下のようなスケーラブルなオブジェクトストレージシステムがよく使用されます:
データレイクアーキテクチャでは、データは通常ストレージに直接ロードされます。変換前にロードが行われるため、これはELT(抽出・ロード・変換)と呼ばれます。
データレイクのデータパイプラインは、さまざまなデータソースからのデータをそのままの形式で直接データストレージに取り込む(インジェストする)ことから始まります。その後、エンドユーザーがこのデータを抽出し、必要な形式に変換して、レポートなどで視覚化します。
DLの主な利点はその柔軟性にあります。組織は前処理や事前定義されたスキーマを必要とせず、さまざまなソースからローデータを迅速に保存できます。
これにより、複雑なデータアーキテクチャやデータ準備が不要になり、DWHと比較して初期費用を低く抑えることができます。
ただし、レポートを作成する際には、すべてのKPI、指標、集計値をゼロから再計算する必要があり、全部門の作業負荷を考慮すると時間がかかる場合があります。
データレイクが適切に管理されていない場合、膨大な未整理のローデータの中から必要なデータを見つけるのが困難な「データスワンプ(データの沼)」になるリスクがある点には注意が必要です。
データレイクアプローチは、以下のような企業によく推奨されます。
たとえばIoTアプリケーションでは、幅広いソースから大量の非構造化データが高速で収集されます。このデータの急激な流入は、従来のDWHでの処理を困難にします。
データレイクハウスは、データレイクのストレージと、ウェアハウススタイルのデータ管理・パフォーマンスを組み合わせたデータアーキテクチャです。データレイクの柔軟性と、データウェアハウスのパフォーマンスおよびガバナンスを融合させています。
レイクハウスはデータをオブジェクトストレージ上にオープンフォーマットで保存しつつ、以下を可能にするレイヤーを追加します。
これにより、データをウェアハウスに複製することなく、データレイクストレージ上で直接アナリティクスのワークロードを実行できるようになります。
人気のレイクハウステクノロジーには以下が含まれます。
以前は多くの組織がデータレイクとデータウェアハウスを別々に維持しており、それがデータの重複と複雑なパイプラインを引き起こしていました。
レイクハウスは、同じストレージ層でBIアナリティクスと機械学習の両方を可能にすることでアーキテクチャを簡素化します。このアーキテクチャは以下をサポートします。
最新のデータプラットフォームは、単なるストレージシステムを超えて拡張しています。組織はますます、ウェアハウス、レイク、レイクハウスに他のアーキテクチャの概念を組み合わせています。
多くの最新システムでは、以下のテクノロジーを使用してデータをリアルタイムで処理しています。
これにより、リアルタイムのダッシュボードやイベント駆動型のアナリティクスが可能になります。
データメッシュは、中央のデータチームに依存するのではなく、ドメインチームが独自のデータプロダクトを管理する組織的アプローチです。基本原則には以下が含まれます:
多くの最新プラットフォームでは、セマンティック(意味論的)レイヤーまたはメトリクスレイヤーを使用してビジネス指標を中央で定義し、ダッシュボードや分析ツール全体でKPIの一貫性を確保しています。
これらのアーキテクチャのパターンは、今日のデータ分野における最大のパラダイムシフトの1つである「人工知能(AI)の台頭」によっても形作られています。
人工知能は、レポート作成用に設計されたシステムから、リアルタイムのインテリジェントアプリケーション向けに構築されたプラットフォームへとデータアーキテクチャを再構築しています。AIは以下の3つの重要なシフトを推進しています。
AIはデータスタックに新しいレイヤーをもたらします。
データエンジニアリング、アナリティクス、機械学習は、統一されたプラットフォームへと融合しつつあります。組織は別々のシステムを持つ代わりに、データの取り込み(インジェスト)、変換、アナリティクス、モデルのトレーニングと提供が同じ基盤上で動作するアーキテクチャを構築しています。
この融合こそが、レイクハウスアーキテクチャがモダンデータプラットフォームのデフォルトになりつつある主な理由です。
万能な答えはありません。最適なアーキテクチャは、企業の以下のような状況によって異なります。
実際には、多くの組織がハイブリッドアプローチやレイクハウスベースのアプローチを採用しています。
AIが事業運営の中核になるにつれ、アーキテクチャの決定は以下のニーズによってますます影響を受けています。
データウェアハウスを使用すべき場合
データレイクを使用すべき場合
データレイクハウスを使用すべき場合
モダンデータプラットフォームには、通常以下が含まれます。
KNIMEのようなツールは、組織がデータウェアハウス、データレイク、レイクハウス環境全体でデータパイプラインを構築・オーケストレーションするのを支援します。
KNIMEは、コーディングなしでデータにアクセスし、ブレンドし、分析し、視覚化するためのプラットフォームです。KNIMEは、ETLアーキテクチャとELTアーキテクチャの両方をサポートするデータパイプラインを構築するためのビジュアルインターフェースを提供します。
KNIMEは、SQLデータベース、NoSQLシステム、クラウドストレージ、ビッグデータプラットフォーム、Webサービスなどと対話するための300以上のコネクタを提供しています。
この柔軟性により、データウェアハウス、データレイク、レイクハウスのプラットフォームとシームレスに連携できます。
本記事では、データウェアハウス、データレイク、データレイクハウスの違いについて探りました。
データウェアハウスは構造化されたアナリティクスに引き続き不可欠ですが、データレイクは大規模なデータストレージに柔軟性を提供します。最新のレイクハウスアーキテクチャはますます両方のアプローチを統合し、組織が同じデータプラットフォーム上でアナリティクスとAIのワークロードを実行できるようにしています。
適切なアーキテクチャの選択は、組織のデータ戦略、インフラストラクチャ、および分析のニーズによって異なります。
いいえ。データレイクとデータウェアハウスは共存できますが、根本的に異なります。データレイクは未処理のデータを保存し、データウェアハウスは前処理されたデータを保存します。この違いに基づいて、データレイク、データウェアハウス、またはその両方の組み合わせが必要かを決定できます。
それぞれ異なる要件を満たすように設計されています。データウェアハウスは、高速なクエリとレポート作成に最適化されています。データはすでに処理・クリーニングされているため、クエリが容易で高速です。ただし、入力前に処理が必要なため、データの入力には時間がかかります。一方、データレイクはより大量のデータを保存できるように設計されています。チームが分析のために処理・変換を決定するまで、データは生の形式で保存されます。つまり、データの入力は簡単ですが、データの取得には時間がかかる場合があります。
データマートは、マーケティングや財務など、特定の部門やビジネス機能に合わせて調整されたデータウェアハウスの小さなサブセットです。
データウェアハウスは、組織全体のさまざまなソースからのデータを保存する大規模な中央リポジトリです。多くの部門やプロセス、あるいは組織全体をサポートするように設計されています。
データマートは、マーケティングや営業など、特定の部門やビジネス機能のニーズを満たすために調整された、データウェアハウスのより小さく焦点の絞られたサブセットです。
データウェアハウス層は、データ処理パイプラインの段階です。データウェアハウス層には、ローデータを収集する「データソース層」、一時保存用の「ステージング層」、データを変換する「ETL層」、構造化データを保存する「ストレージ層」、クエリとレポート作成のための「アクセス層」、データ管理と監視のための「メタデータ層」が含まれます。
本ページ掲載内容やウェビナーはもちろんのこと、その他KNIME製品に関するご質問、個別デモンストレーションのご要望、お見積りのご依頼など、お気軽にお問い合わせください。
このサイトでは、クッキー (cookie)などの技術を使用して取得したアクセス情報等のユーザ情報を取得しております。
この表示を閉じる場合、プライバシーポリシーに同意いただきますよう、お願いいたします。