こんにちは。
今日はデータサイエンスにおいて、なかなかヘビーな部分である「前処理」に注目します。
この前処理が簡単に行えるツールとしてPaxata(Data Prep)を試しに使ってみたので、その使用感をレビューしていきたいと思います。
(参考となる画像が一切準備できず、すんません。。。)
データプレパレーションツール Paxata(Data Prep)
PaxataはGUI操作だけでデータの前処理ができてしまうツールです。
2020年にDataRobot社に買収されており、今はData Prepという名前で呼ばれているようです。
米国のイケイケAIベンチャー企業であるDataRobot社に目をつけられるくらいですから、その存在感は圧倒的なものがあるに違いありません。
DataRobotと言えば自動でモデリングをしてくれるAIプラットフォームで、使いやすさ、わかりやすさを大事にしているツールです。
きっとData Prepも機能面だけでなく操作性も素晴らしいと思われます。というか、使いやすいです。
Data Prepは一体なにができるツールなの?
データサイエンスにおいてデータサイエンティストが最も時間をかける作業の一つであるデータの前処理を行うことができます。前処理はデータクレンジングとも言います。
ですが、Data Prepは更に一歩先を進んでいて特徴量を新たに生成したり、他のデータと結合するなんてこともできてしまいます。
具体的には次のような処理が可能です。
- データ俯瞰
- 異常値の削除
- 表記ゆれ、名寄せ
- 特徴量エンジニアリング
- データ結合
などなど…
しかも、これらの操作は基本的にマウスのみで実行することができます。
動作環境
Data PrepはSaaSですのでブラウザ上で動作させることができます。
したがって、使っているPCのスペックが貧弱であったとしても、問題なく動かすことができるのです。
普段は2in1のなんちゃってノートPCを使っている私でも動かせてしまうのですよ!
す、すばらしい。
データ入力方法
まずはデータを入力しないことにはなんにも始まりません。
Data PrepはAWSといったクラウド環境など様々な方法でデータを連携することができます。
その中でも最も簡単な方法はローカルPCからのドラッグ&ドロップです。
実際の操作感
皆さんが気になっているのはコチラですよね。
その使用感は・・・
一言でいうとめっちゃ楽!!!!
特に表記ゆれの修正。例えば「US Army」という単語
- US Army
- U.S. Army
- US ARMY
- us army
これらの単語を一発で1種類に変換してくれます。
大文字小文字なんて関係ありません。
一瞬でこれらの単語を1種類の単語として修正してくれます。
検索条件もいくつかあり、綴りから似ている単語を検索してくれる”fingerpring”、発音から似ている単語を検索してくれる”metaphone”
もちろん日本語にも対応しています。
他にも、カラム名をクリックするだけでヒストグラムが表示され、そのヒストグラムをドリルダウンすることで簡単かつ高度なデータ俯瞰ができます。
ヒストグラムから異常値を見つけたら、簡単に取り除くことができます。
最後に、Data Prepは便利なツールだけども…
確かに、Data Prepは非常に便利なツールであり、上手く使うことであまり知識のない方だけでなく、データサイエンティストですら効率化、爆速化に繋げることができます。
ただし、息を吸うようにPythonやRを扱える人にとっては少し物足りないかもしれません。
Data PrepでできることはPythonやRでもできてしまいますし、複雑なコーディングが必要になるなど、状況によってはプログラミング言語を使う方が効率的な場合もあります。
その代わり、Data Prepは処理内容を保存することができたりと、慣れない人や初心者が使うには最高のツールと言っても過言ではないでしょう。
個人的には、もう少しデータ俯瞰に力を入れてほしいと思いました。
例えば、ヒストグラムだけでなく散布図といった他のグラフをみることができる良いと思いました。
と言っても、Data PrepはBIツールではないので仕方ないような気はしますが…
そろそろ同じUI上で、「データ前処理」、「モデリング」、「BIのような表現力」を兼ね備えたツール出てこないかなぁ…
以上!
コメント