データエンジニアのものこと

2年目のデータエンジニアです。技術系のことや買ったものの感想などをネタにします。

データ分析失敗事例(其の壱)

概要(なにがあった??)

最近にデータ分析失敗事例集※1を読んで、この内容のことがまさに自分の身の回りで起こってることだ!と興奮気味にページをめくり、読み終えたころには少し悲しい気持ちになっていました。事例ごとに細かく記述されておりとても読みやすく問題点や改善方法も具体的に記載されていたため、データ分析の経験が浅い私にとっては良書でした。
話は逸れましたが、この記事では仕事上で私がマーケティングセクションからの依頼でデータ分析を担当し、失敗してしまったなと感じた苦い経験に基づいたデータ分析失敗事例を記述していきます。技術的な要素がメインではなく、ポエム的な要素が多いため、その点はご了承の上で楽しんでいただけたらと思います。

背景(どんなこと??)

マーケティングセクションからの依頼は以下のようでした。

  • 定期的に消費者から収集しているアンケートを分析を自由にできるようになりたい(アンケート会社から提供されているデータは生データ(CSVファイル)とBIツール(Tableau)で決まった切り口での分析しかできなかった)
  • 結果をレポーティングする際に発生するExcelの集計作業を簡略化したい
  • 定期的に取っているデータだが時系列的に分析ができない項目がある
    • 同じ質問だが質問文が若干異なるため時系列で並べることができない
    • 同じ質問だが質問番号がアンケートごとに異なり、それらを収集する作業ができない
  • 活用されていない質問項目があるため、活用できるようになりたい

以上がざっくりとした依頼内容でした。データ分析がまだ広まっていない我が社ではこのような依頼がビジネス部門から出ること自体が珍しく、私は嬉々としてこの依頼を受けました。勘のいい人は気が付いていると思いますが、この時点が安請け合いしてしまったことから間違いは始まっているのかと、今となっては思います。

手法(お前はどうした??)

依頼を受けた時の私がざっくり考えたことは

  • 生データであるCVSファイルはS3へ格納
  • S3からAurora(PostgreSQL)に格納
  • いくつか成型用のSQLとViewを作成するSQLを作成
  • ViewをBIツールで分析できるようにする

かなりざっくりとしているが以上のような構成でデータ基盤を作成すれば依頼の内容の8割は達成できるのではないかと思っていました。

まず、なにが起きた??

依頼を受ける前に生データ、もといデータソースは確実に確認しておくべきでした。受け取ったCSVファイルの中身は既にアンケート会社の元で編集されたものであり、人が見やすいようなデータ構造になっていました(正規化がされていない...)。これを直すためにデータ成型にPythonを使いました。早速ではあるが、ここで時間を使ってしまいプロジェクトの計画が詰まってしまいました。

何が問題??

今までの説明でお分かりになると思いますが、ぶっちゃけクリティカルな業務でないためプロジェクトが遅くなっても業務に何か影響が出るわけでもありません。今まで通り工数のかかるExcelでの集計作業が続くだけです。しかし、担当者だけはそうではありません。調査業務を主担当としてやっていたため、このプロジェクトの遅延で上司からのプレッシャーはかなりかかっていたようでした。その雰囲気を感じていたため、私たちは急いでそのプロジェクト回していきました。

結果(そのあとどうなった??)

程なくして、実装が完了し集計作業までの自動化を終えました。私たちは担当者に対してデモとして集計作業の自動化と依頼要件を満たすようなダッシュボードをリリースしました。デモの動きと要件の達成度に関しては申し分なかったのですが、担当者の顔が浮きません。なぜなのか話を聞いてみると、その担当者の上司からの要件と私たちが達成した要件がずれていることが分かりました。

  • 集計ができるようになったことは大きい成果だが、その先はどう考えているのか(それはお前も考えるのでは??)
  • 報告レポートはExcelを廃止し、BIツールのみで統一すること(え、なにそれ?なんのため??)
  • 通常業務が忙しいため、BIツールの教育コストを払うことができない()

などなど、歪んだ要求を含め理解できない点が多かったため、その上司と直接話さないといけないと感じました。しかし、担当者が休職、担当変更がありました。

そこに罠が、、、

変更後の担当者は「まずは、私が使ってみて疑問点や変更点などがあれば連絡します。次のMTGは1か月後で」ということで、変更後のMTGはすぐに終わりました。私は使っていれば疑問がわいてきて連絡が来るだろうと思っていましたが、ここも間違いでした。そもそも使わないのです。何回が連絡を入れましたが、使っていないので疑問が出ることもなく、返信もなく、そのまま1か月が過ぎました。私のタスクの状況もあったため、ここでいったんプロジェクトは終了しようと私のほうからクローズを申し出て、成果と課題をまとめて終了しました。

まとめ(結局何が悪かったの??)

  • データソースは確認しよう
  • 課題設定を間違えないようにしよう
  • 担当者の上司がどこまで期待しているのかまで考えよう
  • 新しいものはなかなか使われない、というか興味ある人しか使わない

私の安請け合いから始まり、課題設定、擦り合わせ、持続的なモチベーションなど問題が様々あり、回収しきれない感じがしてしまいましたが、データ分析業務は一筋縄ではいかないなと痛烈に実感するところでした。救いのない話ではありますが、これが現実であり、この現実を変えるために勉強して、経験積んでいかないといけないと痛感するばかりです。

脚注

※1:データ分析失敗事例集, 共立出版, https://www.kyoritsu-pub.co.jp/book/b10032587.html