お久しぶりですね。
機械学習を勉強し始めて2年ほどが経ったでしょうか。
実力としてはまだまだですが、気づけばデータサイエンティストという肩書を手にいれてしまうまでにのめり込んでしまっています!
さて、今回はデータサイエンティストとはどういう職業なのか、を偏見たっぷりな感じで紹介していきたいと思います。
その1:データサイエンティストって何をする仕事なの?
データサイエンティストの基本的な仕事内容は、様々な企業や機関などが持っている大量のデータ(ビッグデータ)を分析することです。
データを分析することで、新たな価値に繋がるデータの使い方や、機械学習を用いた未来の予測など、様々なことを発見することができます。
その2:データサイエンティストの実業務
データサイエンティストがビジネス課題の解決を行うためには大きく次のような段取りを取ります。
- ビジネス理解
- データ整理
- 分析
- ビジネスへの応用、展開
1 ビジネス理解
ビジネス理解とは、企業や機関がデータの有効的な利用方法についての課題を理解することです。
データサイエンティストはビジネスがわかって初めて価値を生み出すことができます。社内や顧客と打ち合わせを何回も重ね、どういう風にデータを扱っていきたいのか、どのようなことが知りたいのか、などしっかり理解することが大変重要です。
そして、データサイエンスを滞りなく行うための根回しも大変重要となってきます。
・ データはクラウド上に保存されているのか、データセンターのようなデータサーバにあるのか?
・ データベースの知識があり、データの取扱いがわかる協力者がいるか?
(企業によってデータはお金よりも貴重になるケースがあり、外部の人が簡単に触れられないようになっていることがあります。)
などなど…
2 データ整理
実際にデータベースからデータを取り出して生データとして見てみると、”汚いデータ”であることがよくあります。
この”汚いデータ”とは次のようなデータです。
・ 値が欠けている箇所がある(欠損している)
・ 数字と文字がごちゃ交ぜになっている
・ 関連するテーブルが複数あり、それらを結合させる必要がある
などなど…
この中でも特に3つ目はデータが膨大になると、テーブル同士を結合する際にどの要素を関連付けて結合すれば良いのかわからなかったり、時間がかかったりするために一筋縄ではいかないことが多く、とても大変な作業となる場合があります。
上記のようなデータ整理の作業を終えて、初めて分析を行います。
3 分析
分析を行うためのツールとしてはPythonやR言語といたプログラミング言語を使用します。
PythonやRにはデータを可視化するライブラリが豊富にあり、簡単にデータをまとめて可視化することができます。
また、これらの言語には機械学習を扱うための便利なライブラリも揃っています。
しかも使い方も簡単で、数行のコードで機械学習を用いて予測等を行うことが可能です。
実際のところ、この分析は方針が決まっていれば大きな負荷となることはありません。
(他の人への分析結果の見せ方は工夫が必要です。データ分析って名前からして難しそうですからね…)
4 ビジネスへの応用、展開
さて、分析結果をどのようにビジネスへ展開するのか?というところもデータサイエンティストの腕の見せ所です。
分析した結果、良いことばかりではなく、時には何も価値のある結果が出なかったというケースもあります。
分析した結果、
良い結果が出たのなら、次のアクションはなんなのか?
結果が出なかった場合、どのようなデータを集めれば結果が出るのか?
など、次に繋がるように提案することが大事となります。
まとめ
データサイエンティストという名前はカッコいいけど、泥臭い作業(データ整理)が業務の大半だったり、AIや機械学習は意外とあっさりだったりします。
データサイエンティストに必要なものとしてよく言われているのは
・ビジネス理解力
・データサイエンス力
・エンジニア力
です。これらをすべて持ち合わせているデータサイエンティストは滅多にいません。
逆を言うと、これらを持っているデータサイエンティストは非常に市場価値が高く、高いお給料で雇ってもらえます。
もし、データサイエンティストを目指したいという方おりましたら、様々な有名企業から引っ張りだこな貴重な人材になれるよう一緒に頑張りましょう!
コメント