とあるデータサイエンティストの一日、8日目

データサインティスト初心者のぬる～い業務内容を振り返ります。

今日はデータサイエンスプロジェクトにおいてなかなかたどり着けない境地、モデリング後のデプロイを中心に手順をまとめていました。

ツールを使えば楽ですが、これをPythonやRで一からやろうとしたらとても大変だと実感しました。

1日のタイムテーブル

【Day 8】

本日は在宅勤務です。

8:00 起床
9:00 業務開始　週報
- ”担当案件進捗なし”というだけの簡単なお仕事。実際は営業さんがメール送ってくれてたりしてました。
- ホワイトな企業なので以下のような詰めとかありません。
  「進捗なしだが、顧客に電話の一本でも入れたのか？」
  「お前はこの一週間なにやってたんだ？」
  「この資料じゃ見せられないから作り直せ」
10:30 AI自動ツールを使ってデプロイについて理解を深める
- ツール上で作成したモデルや自前のPythonモデルを簡単にデプロイできます。作成したモデルをツールにアップするだけでAPI連携による予測実行が可能になります。
- APIを利用して予測データを送信してやれば、予測結果が返ってきます。
- 上記流れを一通りやりました。
11:45 昼食
- 近所の500円で買える弁当。スペースが余ろうものならお惣菜をこれでもかというくらい詰めてくれます。コンビニなんかは一品を少なくしてたくさん買わせようとしますが、お弁当屋は客一人につきお弁当一個売れればいいのでサービスがパないです。
- ハンバーグ弁当でした。

～～前半戦終了～～

13:00 デプロイの監視について
- 午前中の要領でデプロイは簡単にできますが、データサイエンティストのお仕事はそこで終わりではありません。そう、データは生き物なのです。
- デプロイしたモデルで予測していると、時間が経つにつれて精度が落ちていきます。それはモデル作成時に使ったデータと現在の実データの性質が少しずつ変化していくためです。
- これをデータドリフトと呼びます。
- 優秀なツールであれば、デプロイされたモデルの精度を監視してくれて、精度の劣化がみられると自動で教えてくれます。
- データサインティストは劣化具合を確認し、モデルを再作成するかどうかをコストとにらめっこしながら検討します。
- モデルを再作成する場合は、精度劣化原因の究明、データの収集、モデリング、そしてデプロイを行います。
- 精度劣化についてはビジネス知見のある人と一緒に考えます。劣化原因としてよくあるのが”制度やルールが変わった”、”世の中の景気が悪くなった”、”コロナが暴れた”などですね
15:00 機械学習ツールの比較
- DataRobot、AWS、Azure、MAGELLAN BLOCKS、様々あります。
- 自分はAWS SageMakerとAWS Forcastを担当することになりました。
- SageMakerは言わずと知れた、機械学習モデル作成をより簡単にするAWSのサービスです。Forcastも同様にAWSのサービスですがこちらは時系列データ専門です。
- どのツールも使いやすく、データサイエンスが本当に楽になります。
- ただし、費用が高い…
- DataRobotなんかは標準のもので年間1000万円かかると言われ、AWS系のサービスは初期費用こそ取られないものの、リソースを使った分だけ支払うシステムです。
- つまり、それだけの価値(利益)が出せないということは無事に無能データサイエンティストの誕生です。私です。
17:00 社内のごたごた対応
- ごたごたその１：PCの入れ替え作業
- ごたごたその２：交通費申請、勤務工数の入力
17:30 業務終了