最近、「AIを導入したいといい」200行くらいしかないデータを持ってくるお客様がいます。
こういったお客様には毎回、
「このデータ量では予測精度は出ません。が、やれることはあります。」
という流れで仕事が始まるケースがよくあります。
今回はデータが少ないお客様に対してどのうようにAI導入をアプローチするのか説明をしていきます。
データを分析したい理由
話を続けて聞いてみると、AIを入れることだけが全てということではなく、根本的に解決したい課題が別にあることがわかってきます。
例えば、「ウチの営業の中で優秀な人をAIで見つけ出して、その人の行動を真似して営業全体の売上アップを狙いたい」という感じのテーマです。
やりたいことは理解できますし、モチベーション的にも正しいと思います。
しかしながら、この手の話は機械学習で精度よく予測したり分析するのはかなり難しいテーマだと思います。
なぜなら、営業活動のデータは量が少なく、内容としても非常に限られていることが多いからです。
しかも、成績のよい営業さんほどデータに残らない努力の積み重ねで実績を作っています。
例えば、”お客さんと飲みにいく頻度”だったり”愛想が良い”などです。
かの有名な営業活動を支援するツール、セールスフォースであったとしても飲み会の回数など記録していないと思うので、記録されたデータだけでは見えてこない一面が実は実績に直結している場合があるのです。
データが少ないときのアクション
先ほどのテーマに関して、ではどうやって優秀な人の営業活動を分析するのか?
答えは単純。実績の高い優秀な人に直接話を聞く! いわゆる現場へのヒアリングです。
データ数が少ない場合、どんなに優秀なアナリストでも、コンサルでも、この手のテーマに遭遇するとまず最初にやることはデータ分析ではなく現場へのヒアリングです。
つまり、データ分析などせずに足を使って調査をしろ!ということです。
データが少ない場合はむしろ機械学習を使うよりも、まずはデータを収集する方が確実で早いのです。
一番やってはいけないのはデータが少ない状況で機械学習を強引に使用し、得られた結果に対して間違った解釈をしてしまうことです。
データが少ない場合でも予測モデルの精度が高いこともあり、判断をするのは難しいですので安易に信じないようにしましょう。
交差検定やホールドアウトなど、きちんと予測モデルの評価を行うことが大切です。
(データが少ない状況では難しいですね。)
統計を使った分析も
他の手法として、機械学習モデルを作れるほどではないけど、データが数百行くらい(体感~500行程度)ある場合は少しテクニカルに統計を使って分析することができます。
統計を使った分析の方向性としては各営業さんのデータを実績を出している優秀な人、中間層、下位層と3つのグループに分けてそれぞれ活動内容の平均に差があるのかを統計的に見ていきます。
通常もっている営業データと言うと、実際の営業活動としては、
- メールを送った回数、頻度
- 電話回数、頻度
- 打合せ頻度、回数
それ以外にも営業さん自身のデータとして、
- 勤続年数
- 性別、年齢
- 取得資格
- 社内教育履歴
- SPI試験結果(就職前に受ける性格診断テスト)
などなど、様々なデータがあるはずです。
当然、優秀な実績を残している人とそうでない人ではこれらのデータに差が出てきます。
そこを分析してやります。
私の場合はエクセルを使ってサクッと次のステップでやってしまいます。
- データ可視化。ヒストグラムを作り、データを優秀、中間、無能の3つのグループに分ける
- それぞれのグループで平均を求める。(メール送信回数、電話回数など)
- 各グループで平均に差があるかt検定を用いて判断する
最後のt検定がミソです。
下図のように3つのグループにデータを分けて、可視化するだけでもある程度の傾向を掴むことができるのですが、それでは説得に欠けるという人たちもいます。
そういう人たちを黙らせるにはt検定といった統計的な手法に基づいて結論を出してあげるとよいです。
t検定とはあるグループ同士を比較し、平均に差があるかどうかを統計的に判断することができる手法です。
t検定の詳しい説明についてはこちらをご覧ください。ハンバーガー屋さんを例に非常にわかりやすく統計全般を説明しています。
t検定を使って平均に差がある!となれば、差が出た項目に関して「どういうった行動をしているのか?」といった詳細を知るための調査をすることで新たなインサイトが得られます。
いずれデータが溜まったときに機械学習を用いればそれでよいのです。そういう提案もコンサルの一つです。
まとめ
このように、機械学習では無残にも精度が出せなかったとしても、実際に足を運んで調査したり、統計的な手法を用いるのことで次のステップを見い出すことができるのです。
むしろデータがないうちは機械学習に頼るのではなく、基本的な分析に基づいてアクションを取るべきでしょう。
1000行以上のデータが集まってから機械学習を検討するのが安全です。
以上!
コメント