とあるデータサイエンティストの一日、18日目 新人教育

ここ最近は、仕事内容大公開といいつつ、仕事内容に触れていませんでした。

なので今日は弊社に入社した新人君がいったいどんな新人教育をやっているのか大公開したいともいます!

※弊社はあくまでゆる~くデータサイエンティストを育成しておりますので、バリバリなデータサイエンティストを育成したいのであれば、ここではありません!

4月~9月 集合研修

まずは入社してからの話ですが、2020年は何と言ってもコロナが猛威を振るっている年でしたね。

その影響は会社にも大きなダメージを与えています。

その一つが新人教育です。

通常、ある程度の大きさの企業になると新入社員を全員集めて”社会人とはなんたるか?”を叩き込む集団研修があります。

弊社はなので一般的なビジネスマナーに加えてIT関連の資格を取得しなげればなりません。

  • 面倒な会社の社訓、規則、ルールなどなど
  • 名刺の渡し方、議事録、メールの書き方
  • ロジカルシンキングなどのビジネススキル醸成のための研修
  • 基本情報技術者試験

と様々な研修が予定されてはいたのですが、世の中の事情が事情なだけに集団ではほとんどできていない状況らしいです。

なので基本的には家でできる座学が中心。

そのため、同期の繋がりが薄く寂しい社会人生活をスタートしているとのこと。

 新人君

同期と馴染めなくてワロタ…

10月~12月 チーム配属、仕事の進め方研修

10月に入り、ようやくチームに配属されます。ここら辺から本格的にIT会社らしい研修がスタートします。

大まかなメニューとしては、

  • アジャイル開発
  • Pythonの基礎
  • AIとは…

です。

まず最初に学ぶことは仕事の進め方として近年人気の高いアジャイル開発を学びます。

アジャイル開発とは開発とアウトプットを繰り返していく開発手法です。

まず、アジャイル開発とは何か、ということを研修で学びます。

その後、新人と先輩がタッグを組み実際にアジャイル開発を行って簡単なシステムを作ります。

先輩はプロダクトオーナー(PO)として、新人君たちの開発内容を聞きながらとある機能を実装するのに何が必要か?を検討して作ってもらいものの指示を出す役割です。

今回の研修では部内の備品貸し出しシステムを作成しました。

PythonやIA研修は社外の研修でPythonに触れてみよう的なモチベーションの軽い研修です。まぁ概要を知ってもらう程度に受けてもらっています。

ちなみに私は転職によって入社したのでこのようなリッチな研修は受けずに育ってきました。

そして言い忘れておりましたが、弊社はであるゆえ、システムの開発やら構築が本来は主な仕事内容なのです。

 新人君

勉強するだけの簡単なお仕事です!

1月~3月 データサイン研修

やってまいりました。データサイエンス研修。

  • Python
    • Jupyter Notebookの使い方
    • 基礎的なPythonの構文
    • Numpy、Pandas、Matplotlibの使い方
  • データサイエンス
    • 確率統計
    • 検定のお話
    • 機械学習とは
    • モデリング、評価
    • アンサンブル学習
  • 実践編
    • 2値分類がテーマの分析
    • 回帰がテーマの分析
    • 時系列データの分析

大まかには上記の形でやってもらいます。

ぶっちゃけ、「東京大学のデータサイエンティスト育成講座」という本に沿って勉強を進めるスタイルです。

本だけではつまらないので、実際にお客様からご提供いただいているデータを使ってPythonで加工をしてもらっています。

世界的に有名なKaggleや、日本で行われているSignateといったデータサイエンスの実力を競うコンペサイトを利用して学習してもらうことも考えたのですが、これらには一つ欠点がありました。

それはデータがキレイすぎるという点です。

実践で使えるデータサイエンスを覚えるために

ここはもう、経験あるのみです。

実際にお客様から提供されるデータはデータサイエンスを目的としたデータではありません。

この違いが非常に大きくて、実務でデータサイエンスを進めると必ずデータクレンジング作業が必須になります。

数字の”0”なのか英語の”O”なのか分からないデータが当たり前のように、しかも大抵の場合はなんの指示もなく紛れ込んでいます。

本来、こういうデータはお客様と議論を重ねながら修正を進めていくのが通常ですが、研修の一環ということでそこまでしません。(その辺りのTipsは過去のブログにも載せています。)

まさについ最近、私も新人君に試しにこれまでの知識でデータの読込み、変なデータの洗い出しをさせました。

新人君には悪いですが、おそらくデータの読込みでつまづくはずです。

だってあのデータ、そもそもエクセルだし、The日本企業って感じのタイトルやら日付やらが最初の数行に入っているんデータだもん…

 新人君

うまく読み込めないゴミデータ持ってきやがって…

と感じてくれことを少し期待しているイジワル先輩です。さーせん。

そいういった実務で直面する面倒なことを一つ一つ経験していくのもまた研修の一環だと、私は考えています。

以上!

コメント

タイトルとURLをコピーしました