タダです.
データレイクの設計や構築,運用の勉強をしたいと思い「AWS ではじめるデータレイク」を読んだので,書評記事を書いていきます.
公式サイト techiemedia.co.jp
物理本
PDF版 booth.pm
目次
本書は以下の章立てになってます.
- 序章 データレイクを始めよう
- 第1章 データレイクの構築
- 第2章 データレイクの活用
- 第3章 データレイクの運用
- 第4章 データレイクのセキュリティ
- 第5章 ハンズオンの概要 ービジネスデータのデータレイクー
- 第6章 データを可視化する
- 第7章 サーバーレスSQLによるデータ分析
- 第8章 データを変換する
- 第9章 データを分析する(データウェアハウス)
- 第10章 システムの概要 ーログデータのデータレイクー
- 第11章 ログを集める
- 第12章 ログの保管とカタログ化
- 第13章 ログを加工する
- 第14章 ログを分析する
本書の概要
本書は3パートの構成になっています.第一部でデータレイクとはどういった技術のことか,その周辺課題はどんなものがあり,その課題を AWS で解決するならどのサービスを利用・組み合わせれば良いかが解説されます.第二,第三においては,一部で説明された AWS のデータレイクで関係するサービス群をハンズオン形式で使って学ぶパートになっています.ハンズオンパートは GUI と CLI を使って進行するためアカウントの準備とAWS CLI のセットアップを予め行いましょう.
- データレイクとの概念と知識
- データレイクの実践(基礎編)
- データレイクの実践(応用編)
本書で学べること
本書で学べると感じたことを箇条書きで列挙します.
- データレイクの技術要素の概要および関連サービスの理解
- データレイクの技術が登場した背景やデータレイクの検討観点
- データレイクの全体像およびデータの収集→保存→変換→可視化といった一連のフローおよび AWS のサービス紹介
- データレイクの運用時の課題の理解
- データレイクを運用する際に考慮する監視や障害対応,バックアップ,SLA をどう定めるか等の課題とその対処について解説
- データレイクのセキュリティの検討課題の理解
- データレイク関連の AWS サービスの利用方法
- 基礎編では QuickSight,Athena,Glue,Redshift を使ってサンプルデータの解析,可視化,サービス間連携方法を学ぶ
- 応用編ではサンプル Web システムのログデータを使ってログを収集→保管→加工→分析の工程で各サービスを組み合わせて学ぶことができる
- 応用編で使うサービスとして, ALB,EC2,AutoScaling,EFS,Aurora,CloudWatch Logs,Kinesis Data Firehose,S3,Glue,Athena,SageMaker,LakeFormation,QuickSight がでてくる
読了後の所感
本書を読んでまず,僕のようなデータレイクを構築したことがないけど AWS のことを知っているレベルからデータレイクも AWS もこれから勉強したい人,AWS でデータレイクを扱っているけど専門書を求めていた人など幅広い読者層のニーズに応える入門書であり実践書だと感じました.
個人的には Glue,Redshift は使用経験が乏しかったので第二部はハンズオンパートは勉強になりましたし,データレイク関連のマネージドサービスの使い方やオプションの説明があるのは利用検討している人に判断材料になりやすい内容だなと思います.また,第三部の応用編では実際のユースケースでありそうなログを使ってデータの収集→保管→加工→分析を行うためにどのサービスを使って,どんな設定をすればいいのかがさらえます.
本書の最後で触れられていますが,本を読んだからといってデータレイクのトピックを網羅したというわけではなく理解を深めるのを助ける別の書籍が紹介されます.僕自身も足りない知識は紹介された本をみて学んでいきたいと思います.
まとめ
「AWS ではじめるデータレイク」の書評を書きました.読み終えて再度読み直して行こうと思ったのですが,もう一度とは言わず,何度も読み直すだろうと思うので机の本棚においていつでも見えるようにするくらいには自分にはどハマりの書籍でした!,本書の出版に際して全4回のイベント資料が上がっています.本書の内容が気になる方はこちらの資料を読んで興味がそそられたら是非購入を検討してもらっていいと思いますし,AWS でデータレイクを作ったり運用するのに興味ある人は是非みてもらいたい一冊です.