絶対に失敗するデータサイエンスプロジェクト

AIや機械学習という言葉がもてはやされてから数年が経ちます。ですが、いまだにAIはなんでもできると思っている経営者や上層部が多いそうです。

せっかくのデータサイエンスプロジェクトを失敗に導いてしまう内容を今回はお伝えしたいと思います。

失敗理由その1目的が曖昧で予測結果をどう使うかが見えていない


AIを導入するという目的のみが先行してしまい、何を予測する?予測結果をどう使うの?というところが決められていないことが多いようです。

プロジェクトとなると一人で遂行するのではなく複数人、またはチームをまたいで複数チームで取り組むことも少なくありません。目的が曖昧なままプロジェクトが走ってしまうと失速し、必ず失敗に終わります。

【ダメな例】 ”AIを導入して売上アップをめざそう!”

よく目にしそうな内容ですが、これは絶対にNGです。AIとは何か?すら意識できていない可能性があります。こんなことを上の人が言い出したら間違いなくブームにのっかりたいだけなので、注意しましょう。

プロジェクトを起案する前に、少なくとも次のことを意識しましょう。漠然とで構いません。

  • 現場で困っていることはなんなのか?
  • 困っていることを解決するには何がわかれば(予測できれば)良いのか?
  • 困っていることが解決するとどのような良いこと(利益やコスト効果)があるのか?

まずは課題を明らかにしましょう。そしてその課題を解決するためにはどうやってAIを使えばいいのかしっかりと考えてからプロジェクトを立ち上げましょう。

失敗理由その2必要なデータがわかっていない、集められない


プロジェクトが決まったら次のステップとしてはデータ集めですね。

そもそもこのデータ集めですが、プロジェクトで何を解決するかが明確になっていないとどのデータを集めてくればよいのかも曖昧になってしまします。

データ収集は非常にたくさんの挫折ポイントがあります。私自身が体験した点をいくつか紹介します

  • ”そのデータはうちの部署じゃ集められないなぁ”と言われる
  • データを集めたはいいが、ほとんどがNullのゴミデータ
  • そもそもデータがない

上記3つは本当によく出会うシチュエーションだと思います。

データ分析プロジェクトをやりたいのにデータは違うチームが担当していたり、個人情報に近いデータだと、データベースから取り出すのに書類を作成して上長のスタンプラリーが必要だったり、データを扱えるようになるまで長い道のりがあったりします。

しかしながらこれらは仕方ないことでもあります。そもそもデータベースにアクセスするということはデータ流出、改ざん(意図せず)のリスクがあったりしますし、セキュリティ面を考えると他社、他チームにデータを渡すのは非常に怖いと思うのが実情です。

システム面においてもデータを取り出して分析するためにデータを溜めたり、設計されているわけではないですからね。

 

苦労して手に入れたデータにも注意が必要です。大体の場合、データ分析を行う部隊とデータを管理する部隊は異なりますので、当然データの構成やデータの意味については確認が必要です。

でないと、時間をかけて分析した結果がまるで意味のないモノになってしまうことも少なくありません。

失敗理由その3組織体制が整っていない


先にデータの話をしてしまいましたが、プロジェクトを立ち上げると同時に考えないといけない問題の一つですね。プロジェクトを推進するにあたっては他部門との連携および上長、さらにその上の経営者への報告は必須となります。

ここが一つでも欠けていると、プロジェクトは上手くいかない可能性が高いです。

AIはなんでも叶えてくれる道具ではないというところ含めて、皆さんでプロジェクト推進を意識していくことが必要となるでしょう。

以下の体制図の例ではかならず必要となる人たちを上げています。

エグゼクティブ達
最高意思決定者です。AIプロジェクトは時に数億円以上の利益に繋がる可能性があります。こんな大きな利益のあるプロジェクトを推進するためにはコストもある程度必要となります。

プロジェクトの目的、得られる利益、コストを簡潔に伝えられれば、プロジェクトも円滑に進むことでしょう。エグゼクティブ達を味方に付けることができれば、トップダウンで動いてくれない部署を動かすこともできるでしょう。

部長、本部長
プロジェクトの結果を受けて、社内テーマや金額規模によってはこの辺りのランクの方々で意思決定することが可能になるかと思います。

PJ推進
プロジェクトをまとめる人たちです。上手くITチームおよび分析チームと連携を取って、上の人たちに報告する役割です。データサイエンティストやプロジェクトマネージャーが該当します。

ITチーム
システムの運用をしていて、データの取り出し等を行います。インフラエンジニアやデータベースエンジニアが該当します。

分析チーム
データの加工やデータ分析、機械学習モデリングを行います。データアナリストやデータサイエンティストが該当します。

失敗理由まとめプロジェクトを成功させるには…


まとめです。以下3点をしっかり意識しながらプロジェクトを立ち上げましょう!

・AIプロジェクトの目的をはっきりとさせる

必要なデータが揃うか確認を行う

他チーム、上長みんなを巻き込んで体制を作る

以上です

とあるデータサイエンティストの競馬予測チャレンジ Optunaで精度UP編

本記事ではモデリング後に試行錯誤を繰り返した結果、LighGBMのパラメータを変更することで簡単に精度アップ!   競馬予測チャレンジ目次!   データ取得編1(過去のレースデータ取得) データ取得編 […]

コメントなし

とあるデータサイエンティストの競馬予測チャレンジ データ収集編1

最近、馬娘で人気沸騰中の競馬ですが、友人の勧めで競馬予測を始めました。   競馬予測チャレンジ目次! データ取得編1(過去のレースデータ取得) ⇦本記事はココ データ取得編2(スピード指数取得) 特徴量エンジニ […]

コメントなし

番外編3 ニューラルネットワークの応用(Courcera 機械学習より)

さて、今回は番外編ということで”Courcera Machine Learning Week 4”より、非常に難解だったニューラルネットワークを少し応用して遊んでみたいと思います。

コメントなし

番外編2 ニューラルネットワークの応用(Courcera 機械学習より)

さて、今回は番外編ということで”Courcera Machine Learning Week 4”より、非常に難解だったニューラルネットワークを少し応用して遊んでみたいと思います。

コメントなし

番外編1 ニューラルネットワークの応用(Courcera 機械学習より)

さて、今回は番外編ということで”Courcera Machine Learning Week 4”より、非常に難解だったニューラルネットワークを少し応用して遊んでみたいと思います。

コメントなし

コメント

タイトルとURLをコピーしました