今回はモデル作成後の予測結果をどう使うか!?というところで、経験した内容を共有していきたいと思います。
早速見ていきましょう!
機械学習モデルの出力ってなに?
そもそも、機械学習で予測を行うとどのようなアウトプットが得られるのでしょうか。
それは作成するモデルの種類によって異なってきます。
代表的な教師あり学習のモデルタイプは二値分類と回帰に大きく分けることができます。
まずはこれらの違いを説明しましょう。
二値分類というのは、与えられたデータから”Yes”、”No”や”0”、”1”で答えられる予測を行うモデルであり機械学習の基礎的な内容となります。
- あなたは男性ですか? → Yes or No
- あなたは二十歳以上ですか? → Yes or No
- この機械は故障していますか? → Yes or No
- この人は将来借金を返済しますか? → Yes or No
逆に、Yes or No で答えるのではなく、数値を予測するモデルを回帰モデルと呼びます。
- この人の年収はいくらですか? → 400万円
- この商品を買ってくれる人の年齢は? → 32歳
- この商品の満足度は? → 5.0ポイント
- 今日アップした動画の来週の視聴者数は? → 100回
この他にも、3種以上の分類を行う多値分類や、過去のトレンドから未来を予測する時系列など様々なタイプのモデルがありますが今回は触れません。
話を戻します。
二値分類の場合少しややこしくて、実際は機械学習によって得られるアウトプットは確率値となります。
つまり、”Yesになる確率○○%”を知ることができます。
ここ重要なポイントです。
予測結果として確率値を知ることができ、Yesと判断するのかNoと判断するのか、それは人間が決めてやらないといけないのです。
一方で回帰モデルは数値がそのまま予測結果としてアウトプットされるのでイメージしやすいですね。
予測結果の活用方法を考える
機械学習は過去のデータから未来を予測してくれるツールです。
アウトプットされた予測結果を眺めているだけでも「へぇ~」となりますが、それだけでは価値がありません。
予測結果をどう使うか、を考えることが大事になります。
突然ですが、質問です
「宝くじを買いますか?」
恐らくほとんどの人が、公開されている統計情報などから、あまりの確率の低さに購入をあきらめるでしょう。中には夢ばかりを見て確率を見ずに宝くじを買う人もいるかもしれません。
では、次はどうでしょうか。
「明日宝くじを買うと通常より10%当選確率が高いです。購入を検討しますか?」
事前に確率が10%高いという情報を知ることで、お得だと思って購入を考える人は多いのではないでしょうか。
事前に確率を知るということがまさに機械学習の活用なのです。
今回の宝くじの例と機械学習の関係性を整理すると、
”事前に知りたい情報”と”その情報を知った上で取るアクション”
が、まさに機械学習テーマにおける
”予測したいこと”と”予測結果の活用方法”
とリンクすることになります。テーマの決め方の詳細は過去ブログ
PoCにおける本来の目的は、確率値を予測した上で”宝くじを買う”というアクションを行うとどのくらい儲かるのか?を確認するための作業です。
機械学習テーマを考えることは難しく捉えがちですが、今回の宝くじのように簡単な例に落とし込んで検討していくことで、予測活用のアクションは格段に思いつきやすくなるでしょう。
AI導入という流行り言葉に流されて、宝くじの当選確率ばかり予測していると、結局利益に繋がるアクションがわからず、なんの利益も生み出せないままそのプロジェクトは頓挫してしまいます。
簡単な話のようで実は失敗例の多い盲点であり、我々データサイエンティストがPoCなど始める前にしっかりと押さえておかないといけないポイントです。
AI使って設備の故障時期を予測したい
予測してどうするんですか?
…考えてないけどAIを使って解決したい
(速攻ボツになる案件キタ――(゚∀゚)――!!)
皆さんも気を付けましょう。
以上。
コメント