【機械学習】予測精度向上に直結するデータの選び方

今回はせっかく作った機械学習のモデル精度が上がらないときどうすればいいの！？という疑問にこれまでの経験を踏まえて答えていきたいと思います。

機械学習モデルの精度を上げるための手法は大きく2つの方向性があります。

データサイエンス的に精度向上を目指すことは他記事でも多く紹介されているので、本記事ではビジネス視点から精度向上を目指すという観点で説明を行います。

ビジネス視点からデータセットを選ぶことはデータセットを作成する際に必要になります。

たくさんデータがある場合は、効率よくデータを選択していきたいですよね。

ビジネスの知見から、目的変数との関係性が高い説明変数を選ぶには、データを様々な軸でまとめていくことが必要です。

”ビジネス視点”からの精度改善から取り組もう

機械学習モデルの精度改善は恐らくすべてのデータサイエンティストが取り組んでおり、腕の見せ所ではないかと思います。

精度改善手法はいくつもありますが、データ状況やその人のスキルによって取るべき打ち手は変わってきます。

具体的な精度改善手法を次の表にまとめます。

上の表のように、データサイエンス視点の精度改善は他サイトでも多くの説明がされていますが、ビジネス視点からの精度改善への取り組みについては比較的少ないように思います。

”garbage in, garbage out.”

という格言にもある通り、そもそもゴミデータを使って予測モデルを作っていては精度は出ません。

ゴミデータとは何か？価値あるデータとは何か？をしっかり分けて考えていきましょう。

私は普段、Kaggle等のコンペのデータサイエンスをやるとき最初に行う作業がデータ（カラム）の整理です。

整理の仕方は、目的変数と関連性の強い順番に並べるだけなのですが、少し工夫をします。

ステップとしては、次の3ステップです。

一番難しいのは1つ目の「整理する軸を決める」です。

タイタニックの生存予測のデータを例に説明します。

上記のように、データ（カラム）に対して、「グループ」と「ターゲットとの関連の強さ」を加味して整理します。

このとき、どのようにグルーピングしていくかは人によって異なりますし、ターゲットの関連の強さも正解かどうかはおいておきます。

自分なりの仮説を立てて、整理していくのです。

続いて、表にターゲットである”Survived”に影響のありそうなデータ（持っていなくてもOK）を追記して、最終的には次のようにまとめます。