データサインティスト初心者のぬる~い業務内容を振り返ります。今日は少しコーディングできました。研修の一部ですがSQLを使ってます。
1日のタイムテーブル
【Day 5】
本日も元気に在宅ワークです。
- 8:30 起床
- 9:00 仕事開始報告(チャット)
- 9:05 パワポ資料作成
- 今日は基礎に戻って交差検定の考え方について資料にしました。
- データを訓練用と評価用にランダムに分け、モデリングと評価を繰り返すアレです。
- 11:45 昼食
- 昨日の残り物の野菜炒め
~~前半戦終了~~
- 13:00 Treasure Data研修
- Treasure Dataとはデータの蓄積から加工、分析ができるツールです。機能も多く、習得にはかなりの時間がかかります。こういうツールを使いこなせるとエンジニア感が出てカッコいい!
- んで、本日はTresure Data内で使用できるSQL分析講座。
- ゲームのログインユーザの集計や、月10万を超える廃課金者をあぶり出す悪魔のようなコーディング(業界では廃課金者のことを”クジラ”と呼ぶようです。)
- Pythonなら集計やグラフ化はできるけども、SQLはどうも文法に慣れてない
- 研修後半はTreasure Dataの機能として機械学習が使えるので、休眠顧客予測をやりました。
- クリック操作だけで簡単に学習用データを選択したりターゲットを決めたりできます
- 内部で使われるアルゴリズムはロジスティック回帰による予測とのことで、そこまで複雑な分析はできなさそうな印象。精度?んなもん気にすんな!感
- 17:00 ちょっとした雑談MTG
- たまにはこういうのも大事です。個人的に免許更新のやり方について相談しました。
- 17:30 業務終了「お疲れさまでした」チャット送信
以上でございます。
えっ?今日一日の成果物?
本日は楽しくTreasure Dataを扱えたのいいじゃないですかぁ
データサイエンティストたるもの、データサイエンスだけでなくその他のエンジニアリングもしっかり理解しておく必要があります。
なぜならばお客様がそういったツールを当たり前のように使っているからです。
実際の商談で「???」状態になっていたらそれこそ貴重なデータを知識のない社外の人に預けられませんよね。
Treasure Dataについては、個人的に、機械学習面をさらに強化して結果をグラフィカルに表現できたら素晴らしいと思いました。
いろいろ統合されたツールもそのうち出てくるんだろうなぁ
データの蓄積、管理(繋ぎ込み)、集計、加工、機械学習、レポーティングが一つになってる的な!
成果物
- ちょっとだけパワポ資料(最近、毎日これ)
- Treasure Dataに対する理解
以上!
コメント