とあるIT企業データサイエンティストの一日、16日目 データ収集編

データサイエンス

今日もゆる~い感じで行っている普段の業務を文字していこうと思います。

最近は案件対応していることもあり、実際にどんなことをやっているのか大公開します。

今日のトピックはデータ収集編です。

機械学習モデルを作成する上で最も欠かせないものはなんでしょう?

そう、データです。

機械学習というのはデータがなければなーんの役にも立ちません。

人間の得意とする勘と経験はデータなんてなくてもある程度の精度でよそくることは可能です。

そういう意味ではデータが必要というのは機械学習のデメリットです。

ではさっそくデータの集め方について説明をしていきたいと思います。

ちなみに機械学習のテーマの考え方についてはお客様の選定含め前のブログで紹介していますのでそちらを参考に!

機械学習を使うためのデータってどうやって選ぶの?そんな悩める子羊ちゃんへ

通常、機械学習プロジェクトをやっていくうえでまず最初に決めるのはテーマです。

そして次に、必要となるデータを選んでいきます。

ですので、ここではすでにテーマや予測したい内容が定まっているという前提で話を進めていきたいと思います。

テーマは決まったけど、データはどうやって集めればいいの?

すでに持っているデータは一度置いておいて、予測したいターゲットに注目しよう

とある飲食店の売上を予測したいとして、こんな感じに予測したいものに関連しそうな事柄を挙げていこう!

【高】 ←    ← ターゲットとの関連度 →     →   【低】
予測ターゲット お店情報 商品情報 周辺情報 他店情報 天気予報
来月の売上 売上(今月) 販売数 イベント有無 他店売上 気温
来客人数 在庫 交通状況 他店セール 天候
店員数 セール実施 周辺の店 他店商品情報 ・・・
クーポン配布 ・・・ ・・・ ・・・
駐車場広さ

【表作成のポイント」

  • 社内にあるデータかどうかに囚われず、考えられる全てを列挙する
  • 表の左にいくほど、上に行くほど予測ターゲットととの関連が強い
  • 実際に働いている人や現場の人を巻き込んでアイディアを出してもらう
  • すでに持っているデータ、持ってないデータは色分けをしておく

とまぁ、可能性のあるデータを思いつく限り表に落とし込んでやる必要があります。

ここでまとめておくことで、今後のデータ収集計画に役に立つだけでなく、作成したモデルの予測精度がどうしても上がらないときにコイツが輝きます。

データを集める際に大きなコストがかかったにもかかわらず、むやみに集め、結局精度が上がらないといった場合があります。

それを防ぐためにまずは使えるデータを整理し、コストと精度を見極めながら収集していきましょう。

ここで言う「見極めたい精度」とは、

例えば

”予測精度が2%向上した場合に得られる利益はどれくらいか?”

”目標とする精度まであとどのくらい足りていないの?”

といったことをしっかりと意識して計画を立てましょう。

以上、データを収集する際に意識したい内容でした!

コメント

タイトルとURLをコピーしました