皆さま、データサイエンスを行う際のお供はなんでしょうか?
Python、R、BIツールあたりでしょうか。
中にはエクセル一つでやってのけてしまう猛者もいるかもしれません。
データをどうしたいのかによって使うツールは異なるかと思いますが、ここでは最近最も驚いたデータロボットを少し紹介したいと思います。
データロボットとは?
一言でいうと、データの取込み、機械学習のモデリング、モデルの評価、デプロイなどなど…を驚くほど自動でやってしまうツールなのです。
例としてPythonでデータ読取り時に、よく以下のコードを入力します。
hoge=pd.read_csv(‘C/kakushi_foludar/data/…’)
そして、このコードを実行してみると、“そんなファイルは無い″だとか、“エンコードが合ってねーよ″というテンションの下がるエラーメッセージ
僕みたいな初心者はこういう地味なところが面倒くさかったりするんですよね。
ということで、データロボットの超有能ポイントをいくつか紹介したいと思います。まずはポイントをまとめます。
~データサイエンスを超絶楽にする有能ポイント~
・データはドラッグ&ドロップでアップロード
・ボタン一つで自動モデリング
・モデルを評価するための指標を見ながらモデルを選択
・予測したいデータもドラッグ&ドロップでアップロードし、ボタン一つで予測
・APIによる予測データの連携も簡単
詳しく説明していきたいと思います。
データロボットで簡単にきること1 データの取込み
超有能ポイント1
普段身近に扱っているデータ形式ならばそのままドラッグ&ドロップでアップロード可能
例:CSV、EXCEL、TXT形式などなど
超有能ポイント2
カラムの形式を自動判別
例:数値であれば自動で数値型、しかもアンケートの数値によるカテゴリ分けも自動に判別
超有能アポイント3
データのアップロード後、簡単な統計量を自動で計算
例:平均、最大、最小、欠損の有無、ユニーク数、ヒストグラム等様々な統計量を自動で行います。
データロボットで簡単にきること2 モデリング
超有能ポイント1
ユーザがアップロードしたデータから目的変数を選択し、ボタン一つで数十のモデリングを並列で実施
え?欠損値はどうするかって?気にする出ない!一番予測精度が高くなる手法を自動で選ぶんじゃ!(テンション高くなってしまいました)
超有能ポイント2
自動で学習データ、テストデータを分割し、交差検定まで自動で行ってくれる
もちろん、回帰予測なのか分類問題なのかも自動で判別してくれるのよ!
データロボットで簡単にきること3 モデルの評価
超有能ポイント
2値の分類問題だったらAUC、回帰問題ならMEA等、一通り勝手に計算してくれます。あとは優秀なデータサイエンティスト(人間)がこれらの結果を見てモデルを選ぶだけ!
データロボットで簡単にきること4 予測
超有能ポイント
予測したいデータファイルをドラッグ&ドロップでアップロードし、ボタン一つで簡単に予測結果を出力してくれる!
ということで、
駆け出しのデータサイエンティストであれば間違いなく面倒だなぁと思うプロセスをデータロボットはすべて自動でやってくれるので、めっっっっっちゃ時間の短縮になります。
データ加工とモデリングに1か月工数をかけているのがあほらしくなるレベルです。
データロボットを使うことで、時間短縮ができて仕事ちょろいなぁと考えるのもメリットなのですが、データサイエンティストとして時間をかけて議論しないといけないビジネスの話により多くの時間がかけられるというのは大変有意義なことです。
なんなら、お客さんとそういう話をしている間にモデリングができてしまうくらい便利で早いです。
こんな便利なツールですが、デメリットとしては価格がとんでもなく高い、、、
データロボットは超優秀データサイエンティスト集団が作ったツールなので、我々初心者たちがつまづいて投げ出したくなるイライラポイントや苦労をすべてわかっているんですね。
だからこそ喉から手が出るくらいほしくなるツール。
まだまだ紹介しきれていない データロボットの 有能ポイントや機能は多いですが、それはまたいつか!
以上、ありがとうございました!
コメント