はい、データサイエンティストは日々自分のスキルを身に着けるために勉学に励んでいます。
しかし、時には休みたくなるときや愚痴を言いたくなるものです。
今回はかの有名なデータサイエンスのコンペの愚痴を書いていきたいと思います。
もう一度言います。愚痴ブログです。
Kaggleの愚痴① 英語読むの面倒!
Kaggleはデータサイエンスの勉強にはもってこいのサイトになります。
ただ、Kaggleの海外のサイトであるため基本的に英語で情報が書かれています。
これがとても面倒なんじゃ
ということです。特に仕事で疲れた後にコンペを漁っているのですが、英語読むのが非常に辛いのです。
しかも、コンペの概要とか評価の仕方とか、データの説明とかかなりの長文なのがマジ辛たん…
Kaggleの愚痴② 画像を使ったデータ
これは完全に自分のスキルの問題ですが、「画像を使う = ディープラーニング」という固定概念があるため、難易度高いなぁと思ってしまいます。
ディープラーニングの何が嫌かって、マシンパワーが必要になるからです。
そして、自分が使っているPCのマシンパワーは終わってます。
マシンパワーを無償提供してくれるGoogle Collaboratoryとか使えばいいんですけどね。
そうする今度はネットワーク回線の問題が出てくるんですよ。最近みんな家で大容量通信してるからか、貧弱帯域なのです。我が家。
とりあえず、コンペの説明に「~images」と書かれていたらスッと目を離します。
Kaggleの愚痴③ ダウンロードするデータ容量が10GB以上
これもマジでやめてほしい。せっかくコンペ内容を読み込んだのに、データ容量を見てがっかり。
さすがに10GBオーバーのデータを貧弱ノートPCに落とすのは気が引ける。
しかも、ネットワークも貧弱なので何時間かかることやら。
やる気なくすんだよなー
Signateの愚痴① テーマに制限がある場合がある
なんでコンペに制限をかけるんでしょうか。
確かに、初心者向けのテーマに上級者が集まってしまうのはよくないのはわかりますが、
自分みたいに、過去にたまたまそれなりの精度を出してしまって意図せずビギナーを脱出してしまった人は参加できません。
自分は色々なデータに触れてみたいだけなのに…困った
Signateの愚痴② 提出方法が複雑
これもまた自分の技術不足という話なのですが…
Signateは日本のサイトなのでコンペ内容の理解は早いです。
しかし、コンペの中にはコードというかモデルを提出させるコンペがあります。
これがまた面倒で面倒で。
Jupyter Notebookだけでは対応できず、困ったことにターミナル(mac OSには標準で入っている)を使ったコマンドで処理をする必要があるんですよね。
あれってWindowsでどうやるの?コマンドプロンプトとは違うの?
もう疲れている時は頭パンクします。
夜遅くにヘトヘトになってやっと、モデルを作成して評価が終わって、そのあとにあの作業。
そして提出後に送られてくるエラーメッセージ
山を登り切ったと思ったら、またその先に険しい山道が出てきた気分です。
Jupyter Notebookごと提出じゃダメなんでしょうか。
以上、愚痴でした!
コメント