データサインティスト初心者のぬる~い業務内容を振り返ります。
最近、とある案件にアサインされたため本格的にデータサインエスの日々が始まりました。
今日はお客様とデータサイエンスプロジェクトを始めるにあたって最初に決めたい内容をまとめたいと思います。
確認① そのお客、解決したい課題は持っているか?
お客様からお仕事の声を頂いたときにまず確認するのは、これ!
- 「抱えている課題はなにか?」
- 「課題を解決するとどれくらいメリットがあるのか?」
- 「データはあるのか?」
特に最初の課題を聞き出すのは重要です。
話を聞いていると、その会社のいろいろな状況がわかってきます。
よくあるパターンが
- それ、AIどうこうの前に他の導入すべきじゃね?
- それ、予測してどうすんの?
などなど。
ようするに「AIという流行り言葉をなんとなくの気持ちで業務に取り入れたい」だけ案件って結構多いんです。
そこの見極めが非常に大事です。でないと、なにがやりたいのかわからないまま何度も打合せを重ねて無駄な時間を費やすことになてしまいます。
確認② そのAIテーマ、成功した後のビジョンをイメージできるか?
一見、お客様がなんとなくAIで解決できそうなテーマを出してきたとしても、結局PoC(お試し検証)で留まってしまうことがよくあります。
その理由は、「AIで予測してどうするの??」というところが不明確であることが原因の一つです。
私が経験した案件例として、とある設備の故障予測(いつ故障するか知りたい)について触れたいと思います。
この例ではテーマがはっきりしていて、予測したいものも明確です。データもあります。
しかし、PoC(お試し検証)を進めていくと様々な現状情報がわかってきます。
実際に故障予測の案件で言われた例です
- 設備はできるだけ精度100%で予測したいっす
- 予測結果を現状のビジネスフローに落とし込む方法は検討中っす
機械学習において100%の精度で予測することは不可能※と言っても良いと思いますし、もし100%の精度を求めるのであればそれは機械学習ではなく他の手段を使って検証すべきです。
また、予測結果をどのように使うのか?は早めに検討する必要があります。検討中という言葉は非常に危険です!
当然ですが、AI導入にはコストも時間もかかります。今回の故障予測の例の場合、
「AIを使って故障時期予測をした結果、現状のやり方と比較してどれだけ金額的なメリット(利益、コスト削減効果)があるのか」
をまずは話し合わないといつまでたってもAIを導入するメリットが見いだせず、次に進むことができません。
そのためにもまずは現状の業務フローを明確にし、AIを導入した後のフローがイメージできるようにしてやりましょう。
そこで大事になってくるのが、「現状(As Is)」と「AIを導入した将来(To Be)」とをしっかりと数値で比較してやることです。
特に数値化してほしいのは、現状のコスト(時間、金額)や作業負荷など、これからAIを導入したときに改善されそうな数値です。
むしろこれができないと、経営者や上層部に多額の時間とコストをかけてAIを導入する説明ができず、結果としてPoCどまりとなってしまいます。
※補足
◆リーケージ
もし、精度評価の段階で100%近い精度が達成できているとすると、それはリーケージと呼ばれる”本来予測時には知り得ない、目的変数と関連の強い変数”が影響している可能性があります。例えば、とある製品の「売上」を予測したいのに、実際に予測する際には知り得ないその製品の「販売数」がデータに含まれてしまっているような状態です。
確認③ そのAIテーマ、データは合っているか?
理想的には本来AIテーマを決める際、データありきでAIテーマを決めるのではなく、現場の課題感や達成したいことからテーマを決めるのが一般的です。
通常はテーマや達成したいことに合わせてデータを集める、という流れを取ります。
しかしながら、「とりあえずテーマとデータを持ってきた!こんなこと(PoC)やりたい!」と言ってくれる前向きなお客様も少なくありません。
お客様は様々な形でデータを保有している場合もあれば、そもそも持っていない場合もあります。
そもそもデータを持っていない場合、まずはデータ収集基盤から作りましょう。ということで全く提案内容が変わってきます。
テータを持っているお客様のよくある例としては、次のケースです
- 社内にデータがあり過ぎてどれを持ってくればよいかわからない
- データはあるが入手に時間がかかる
- データはあるが、テーマにそぐわない形式や数量である
PoCの段階ではとりあえず現状あるデータで精度を確かめるというケースが多いので、そこまで精度向上のための追加データ収集には踏み込みません。
一番困るのは、データがテーマにそぐわない形式であることです。
例えば、「いつ」を予測したいのに時系列データでなかったり、ターゲットのデータが偏っていたりです。
なぜ困るのかというと、一言で言うとデータサイエンスを担う人の負荷が高いからです。
一言で「このデータではだめですね」と言い切り捨てることができれいいのですが、せっかくテーマとデータを持ってきてくれたお客様を無下にするわけにはいきません。
私もそうですが、結局なにかできないかと頑張ってしまうのです。
具体的には、テーマを変更してもらったり、データを加工して強引にテーマに合うように変えたり、外部データを結合したり…
処理に時間がかかったり、複雑なPythonコードを書いたりと、とても高負荷なのです。
これらを防ぐためには、できるだけ早めにデータのお話はしておきましょう。もらえるのであればもらっておいてザっとでも目を通しておく!
まとめ
これらのお話はAIテーマをやるうえでは重要な要素になってきます。
お客様の立場でも、データ分析をやる立場でも、ぜひ以下を意識してみてください。
- AIで解決したい現状の業務は数値化しておき、AI導入時に比較できるようにしておく!
- 予測結果を使って何をしたいのか、ビジョンを持っておく!
- テーマに合うデータかどうか早めに確認を取る!
以上!
コメント