継続は力なり

タイトル通り定期的な更新を心掛けるブログです。

『ブレインパッドとエウレカが語る、データ分析と機械学習の活用』に行ってきた!

タダです。

この前、ブレインパッドさんとエウレカさんの興味深い勉強会に行ってきたので簡単なレポートを書きます。 brainpad.connpass.com

入場早々にビール振舞ってもらいまして、ホスピタリティー溢れる勉強会でしたね🍻

発表者ごとのまとめ

1,Pairsのデータ民主化の裏側

エウレカの鉄本環さんの発表。社内のデータチームの取り組みの紹介でした。

  • データチームは、CTO直轄のチーム
  • チームのテーマは、データ×〇〇をテーマに

大事してるのは、場づくり * アウトプット×フィードバック * 経営層からのマネージャーからのフィードバックを得られる仕組みを作った * 時間・知識・心理の障壁の除去 * 時間:スプレッドシートの情報をスライドを更新する * 知識:ドキュメント(用語、ログ定義、データベース * 心理:サービスデスクを開設

2,Pairsのログ基盤の概説と負債

エウレカの田中聡太郎さんの発表。

  • データ基盤構築

    • 目的はビジネスで必要なものをつけたし、ブラッシュアップする
    • データの価値を出す
  • データ基盤のこれから

    • 今は、データの収集が上がっている
    • 今の課題は、データの置き場になっていて、整然となっていない => データ置き場担っているデータを、データ毎にデータストアをつくろうとしている/データのバリデーション(アプリケーション側でデータの実装と定義がずれないようにする)
    • データから課題発見が仕切れてないので、課題発見していくような基盤にしていきたい

3,分析結果を意思決定者に使わせるための工夫

エウレカの大久保晋之介さんの発表。

  • 大久保さんはBIチームに所属
    • 社内の意思決定のためのデータを提供している

意思決定に使われない分析に価値はない * 使われない理由としては以下のもの * 分析結果が見辛い * 信頼できない:直感に反する/不測の事態を考慮していない(データ欠損や計算ミス)/分析精度が期待値以下 * 信頼性高めるためには結果の説明ができる、検算を行う、分析精度の合意をえる * アクションに繋げづらい * 分析結果の鮮度が悪い

  • 見やすい分析結果にするために

    • 簡易な表現を使う
    • 読みやすさに配慮
    • 定義を明治(分析結果にREADMEをつける)
    • 見るものを減らす重要性
  • 分析結果をアクションに繋げづらい状態を変える

    • アクションに至るまでの障壁を取り除く
    • 分析前に意思決定者とネクストアクションについて合意をとる
  • 分析結果の鮮度が悪い状態を変える

    • 締め切りに間に合わせる
    • 意思決定者の熱量を観察し行動する

オススメの書籍 * 感謝を変える分析の力 * データサイエンティスト養成読本 ビジネス編

4,データを使ってモテたい

エウレカの小林瑞紀さんの発表。僕もモテたいからより真剣に聞きましたw

  • Pairsのデータを使ってディープラーニングした結果の共有の発表内容でした
  • 以下のような分析されていました
    • コミュニティ同士の類似度(item2vec)
      • 旅行と読書がモテる趣味だとかw
    • 趣味の分析(word2vec)
    • マルコフ連鎖、LSTM
    • QRNN/2層LSTM

5,機械学習システムを受託開発する時に気をつけておきたい事

ブレインパッドの平木悠太さんの発表。

システムの各フェーズごとの注意点に関する発表です。

  • 受託開発
    • どこまでの業務をシステムに任せられるかを手探りで進める
    • フェーズ:企画、poc、プロト開発、システム開発
  • 登場人物

    • クライアント:現場の人、企画担当者(機械学習したい人)
  • 企画:

    • 機械学習何を解決したいか、具体的に何を自動化したいのかを実用性を検証可能な形で落とし込むためにクライアントに構想を語ってもらう
    • あるあるなのが、企画と現場は対立しているから現場に納得してもらう
  • PoC

    • 教師データを作るが、一番大変。。
    • クライアントがデータを持っていない場合もある
      • そんな時はwebからデータを集める、データを収集するシステムを提案する
  • プロト開発

    • フィードバックをもらう
    • 通常業務とプロトタイプを使う事での違いをもらうように伝える
      • プロトタイプを捨てる覚悟をしてもらう
  • 開発

6, 機械学習システム開発案件の事例紹介 画像分類編

ブレインパッドの塚原朋也さんの事例発表でした。

  • 課題

    • 業務のコスト削減
    • リリースをはやめにして、顧客の隠れた要望を引き出す
  • 要件やコスト感を考慮して、適切なシステム構成を行った

    • GCPのCloud AutoML APIは精度が高いため、見逃せない

7, DMPの分析機能を実現する技術

ブレインパッドの下村環太郎さんの社内システムのアーキテクチャの発表です。

  • Data Management Platform

    • マーケティングのツール
    • ユーザーが所有するデータを活用するための機能を提供
  • サービスの構成要素

    • DWH
    • 大規模データ処理:ETL処理、機械学習などDWHだけではできない処理
    • スケジューリング
    • 集計:DWHにクエリを投げる
    • 管理画面(SPA)
    • 他システムとのつなぎこみ
  • 主な構成

    • バッチ実行基盤:Apache Airflowを採用。ワーカーを増やすだけでスケールする
    • 分散処理クラスタ(DWH、複雑な処理):EMR(Presto,Spark)
    • ウェブアプリ:Vue.js、Pyramid

8,「れこめん道」- とあるエンジニアの苦闘の日々

ブレインパッドの柳原淳宏さんの発表。下村さん同様に社内システムがリリースされるまでの歴史とその後についての発表でした。

  • レコメンドのロジック
    • グラフ理論によるレコメンド手法: 類似度
      • グラフの探索によってアイテムの評価を行うため、探索範囲を伸ばす事で、近いユーザーの外側にいるユーザーの評価も加味できる
      • アイテム属性やユーザー属性を加味できる

まとめ

社内のデータ活用の話、機械学習システムの開発の話、社内システムの話全て面白かったです。

僕自身もこの領域に興味があるのでこの分野に関わっていけるようになりたい。。