2020年4月23日木曜日

ビッグデータと機械学習

自動車と馬車の違いだって、厳密に説明するとしたら、それらの専門家でなければ不可能ですが、普通には、簡単に説明すれば良いことです。
「ビッグデータと機械学習の違い」、「機械学習とディープラーニングの違い」も、本当は易しく語って良いはずですが、今はまだ、これらについて、専門家しか語らないから、難しく思えるのです。
しかし、今や誰もが、ビッグデータと機械学習、そして、機械学習とディープラーニングを区別しつつ解っている必要があります。
そして、自動車を運転するためには、自動車の専門知識ではなく運転の仕方さえ知っていれば良いように、ビッグデータ、機械学習、ディープラーニングについても、これらを役立てる方法を知っていれば良いのです。

◆機械学習とディープラーニングの違い
まず、機械学習とディープラーニングの関係は、電車と新幹線の関係と同じです。
新幹線が電車であるように、ディープラーニングも機械学習です。
数学の「集合」で言うと、次のようになります。
※「a∊A」は、「aは集合Aの要素」という意味です。

新幹線 ∊ 電車・・・新幹線は集合「電車」の要素
ディープラーニング ∊ 機械学習・・・ディープラーニングは集合「機械学習」の要素

高級な電車が新幹線であるように、高級な機械学習がディープラーニングなのです。
逆の言い方をしても、この2組(電車と新幹線、機械学習とディープラーニング)はよく似ています。
つまり、新幹線も電車ですが、電車が新幹線とは言いません。
同じく、ディープラーニングも機械学習ですが、機械学習がディープラーニングとは言わないのです。

◆ビッグデータと機械学習の違い
ビッグデータと機械学習は、目的は同じですが、根本的に違うものです。
共に目的は、沢山のデータを使って推測を行うことです。
では、重要な違いは何でしょうか?
ビッグデータでは、データを数学的手法で分析して推測します。
よって、ビッグデータ分析は、データサイエンティストと呼ばれる専門家でなければ不可能です。
一方、機械学習では、AIがデータを分析し、推測しますので、AIにそれを行わせる人間に必要なスキルは、その前段階の作業をするだけです。
前段階の作業とは、データを整理することです。
よって、機械学習は誰でも使えます。
確かに、前段階のデータ整理のやり方は習得する必要がありますが、それほど難しくはありません。
ビッグデータの場合も、前段階のデータ整理は当然ありますが、それは、後のデータ分析と一体であり、難しいものです。

◆ビッグデータと機械学習のデータ量
データ量に関しては、通常、ビッグデータの方が機械学習より、ずっと(あるいは、桁外れに)多く必要です。
一概に言えませんが、ビッグデータでは、ゴミのようなデータも捨てずに取り入れ、普通には想像もつかないような多量のデータを使うことがよくあります。
しかし、機械学習のデータは、出来る限り整理された「きれいな」ものを選び、とんでもない量のデータを扱うことは、普通ありません。
それで、どちらの推測の方が精度が高いかと言いますと、それは、あくまでデータサイエンティストの能力や、AIの性能によります。
また、いずれを使うべきかは、場合によります。
例えば、データ量があまり多くない場合は、機械学習が有利、あるいは、機械学習しか使えません。
しかし、莫大なデータ量のビッグデータが、恐るべき正確な予測をすることもあります。

◆ビッグデータと機械学習の融合
すると、こんなことを思いつくかもしれません。
ビッグデータのデータを、データサイエンティストが分析すると同時に、機械学習させるということです。
確かに、それが良い場合があり、実際に行われています。
そして、その結果、同じような推測結果になる場合もあれば、かなり、あるいは、全く異なる推測結果になる場合もあります。
ただ、機械学習では、扱えるデータ量に限界がありますので、純粋にビッグデータ分析を行う場合と比べ、データの選別を行う場合が多いでしょう。
けれどもそれは、ビッグデータの良さを損なうかもしれません。

◆一般の人が使う道具
ビッグデータと機械学習の使い分けが必要ですが、ビッグデータは、極めて多量のデータを必要としますし、分析に専門的なスキルが必要になります。
つまり、専門家のものであり、誰でも出来る訳ではありません。
しかし、機械学習は一般の人でも使えるものであり、実際、誰もが使う必要があるものです。
よって、我々は、機械学習のやり方を身に付けるべきと思います。

ブログオーナーKayのAI書籍です。
数学講師Mr.Φとの共著です。

足し算、掛け算、素数判定、モンティ・ホール問題、東大入試数学出題分野予測、シュレディンガーのエイリアン、囚人のジレンマ等、面白い問題の回答をAIに推測させます。
これらのデータを作成出来るExcelマクロのシミュレーションプログラムが無償ダウンロード出来る特典付です(東大入試のみ別方法でデータ作成しましたので含まれません)。

0 件のコメント:

コメントを投稿