データサインティスト初心者のぬる~い業務内容を振り返ります。
本日はしっかりとデータサイエンティストらいし仕事をしています。
お客様から課題感もなしにいきなりデータのみ送信されてき、そのデータ内容の打合せからスタートです。
データ内容がかなり難しく、しっかりと課題感や分析内容をヒアリングしていきます!
1日のタイムテーブル
【Day 11】
本日は在宅にて仕事です。
- 8:30 起床
- 9:00 業務開始。まずは週報
- いつものように”進捗なし”、と
- 10:00 お客様から送られてきたデータの確認作業
- CSV形式の1G Byteないくらいのデータですが当然メールでは添付できないサイズ
- データ送付問題って地味にやっかいなんです。今回はお客様がファイル送信サービスを使っていたので、クラウド経由でダウンロードする形となりました。
- 気になるデータはどうやらとある設備の点検記録
- この膨大な点検記録を使って設備の故障予測を行ってほしいとのことでした。
- ん?ターゲットになりそうなデータないぞ…さすがにお客様に確認しないとわからない。
- 12:00 昼食
- トマトのミネストローネスープに甘くないグラノーラをトッピング。
- 個人的にサクサク感がたまらなく好きなので、甘くないグラノーラが健康的な天かす的な役割を果たしていて非常に良かったです。
~~前半戦終了~~
- 13:00 お客様とのミーティング
- 午前中のデータについて、解決したい課題について議論
- お客様が求めているものはデータからは難しい感が漂う….
- 先輩さすがに時系列データじゃないのに「いつ故障するか予測したい」は厳しいっす
- 営業「予測できらぁ!!!」 開発「できません!!!」
- 故障の要因分析をする形で攻めましょうか、ということで決着
- 営業「あ、でもまだお金もらってないから作業しないでねwww」
- 15:00 データ成形
- 営業からまだ工数割けないと言われたが、暇人データサイエンティストには関係ない…!
- 早速できそうなデータ集計を…やってしまう…!
- 今回の課題は、複数ファイルある点検記録データをどうやって分析できる形に集計できるか…
- お客様からの支払いを待っている余裕などない!そう、データをもらってしまったあの時から…
- ということで早速データを確認です。今回の難しいところは、お客様の要望である”いつ故障するのか?”を非時系列データからどう表現するのかというところです
- 幸いにも点検記録ということで日付データは別ファイルであるようです。この日付が含まれるデータと点検記録が含まれるテーブルデータをマージさせてやれれば何かできそうです
- データを結合させるときに必要となるキーも決めてやらないといけませんが、場所や点検箇所を上手く組み合わせることでユニークなデータにできそうです
- さて、方向性が決まったところで実務に!…あ、でもまだ工数は割けないんだった
- 17:30 業務終了
本日はPythonも触りつつ(工数割けないといわれたけども)、お客様とデータについて語り合うこともできたので非常に充実した一日でした。
ただし、データを受け取ったからにはきちんと何かしらの結果を出さないといけません。
「データ見たけど汚くて何もわからんかったわw」なんて許されません。
成果物
- お客様の課題感の整理
- データ成形(途中)
以上!
コメント