1.統計学と機械学習の違い
データを扱うことは同じですが、その目的とスタンスに以下のような違いがあります。
- 統計学は、解釈
- 機械学習は、予測精度
では次に、業務の現場でデータ活用するために、統計学と機械学習のそれぞれのアプローチ方法をご紹介します。
統計学的アプローチ
デ-タを可視化して解釈して、そこから示唆を得るのが統計学的なアプローチです。ビジネスでよく利用されるのは、BIツールです。例えば小売業の場合、商品ごとの販売状況や在庫数を店舗や地域ごとにヒストグラム等のグラフを使って視覚的に分かりやすくすることで、現状を分析して商品の発注数を決めるなどの判断を行うことができるようになります。そのため、分析に使用するアルゴリズムは単純で分かりやすいものが適しており、どのような変数がデータに寄与しているかを理解することがポイントとなります。
機械学習的アプローチ
過去の実績データの特徴量から学習をして予測モデルを作成し、インプットしたデータから未来を予測するのが機械学習的なアプローチです。予測結果には高い精度が求められるため、アルゴリズムも複雑かつ高度なものを利用します。統計学的なアプローチでは、何故その結果が導き出されたのかという説明性が求めまれますが、機械学習では精度を追求するためブラックボックス化していても問題はありません。ディープラーニング(深層学習)の領域に入ると更に複雑になります。なお、データの可視化が難しくなるため、人が判断を行っていた業務に適用する場合は、回帰系や決定木などの説明性が高いアルゴリズムを最初に導入することが多いです。
2.どのような場面で使い分けるのか
統計学的アプローチ
統計学的アプローチは、現状の蓄積されたデータ構造を理解・解釈するために利用されます。
利用シーンは、
- データの構造を紐解いて新しい知見を見出す
- 上位レイヤー(経営層など)への提案
- コンサルティング会社から事業者への提案
前述したように、比較的単純なアルゴリズムを利用するため、手元のパソコンでも計算スピードが速く、説明性も高いというメリットを活かして、改善提案資料などで用いられること多いです。
機械学習アプローチ
機械学習的アプローチは、とにかく予測精度を高めたいという場面で利用されます。
- ECサイトでのレコメンド
- ウェブ広告の配信
- 商品購入の需要予測
- 与信業務
- コールセンターの入電予測
- 電力の需要予測
3.どんな手法が統計学と機械学習で使われるのか
先ずは統計学で使われる主な手法である、統計的検定、線形回帰分析、主成分分析の3つを紹介します。
統計的検定
仮説検定とも呼ばれており、集合に関する仮説を実績データから得た情報に基づいて検証することです。砕けた言い方をすると、何となく違いがありそうなことを統計的に証明することです。
線形回帰分析
ある目的となる変数に対して、どのような変数が影響を与えているか、相関関係があるのかを理解する分析方法です。例えば、売上に効いている要素(気温、天気、季節など)を可視化します。変数の関係性をモデル化して将来のデータを予測する機械学習的アプローチにも利用できます。
主成分分析
データの特徴量の数を圧縮(次元削減)して、構造を可視化する分析手法です。例えば、5教科を理系・文系の2次元に圧縮することが身近な事例として分かりやすいと思います。
次に、機械学習的アプローチで使用される主な分析手法をご紹介します。
決定木
変数の分類・規則をリー構造で作っていく分析手法です。ルールベースでの分類していくため説明性が高く、閾値をチューニング・修正して変化を可視化することで検証もしやすいことから、統計学的観点でも利用されます。
ランダムフォレスト
上記の決定木で作成した予測モデルを複数作り、それぞれの結果を統合して予測精度を高めるアルゴリズムです。決定木ごとでは予測精度(汎化性能)は低くても、統合することで高い精度の予測モデルを容易に作ることができるのが特長です。
XGBoost
ランダムフォレストと同様に、複数の決定木モデルを作って学習するアルゴリズムですが、学習アプローチが異なります。ランダムフォレストは平行(各決定木の出力結果から学習)に学習しますが、XGBoostは決定木ごとの予測結果を直列に繋いで学習させて汎化性能を高めます。特徴量重要度という指標を確認することで、どの特徴量が予測結果に効いているかを確認できます。ただ、複数の決定木を統合しているので解釈容易性は低くなってしまいます。
まとめ
いかがでしたか?データから価値を生み出すという意味では、統計学的アプローチも機械学習的アプローチも同じです。違いは、統計学的アプローチは過去の実績データから示唆を得て次の企画・施策を作ること、機械学習的アプローチは過去の実績データから予測モデルを作り未来を予測すること。どちらが優れているというものではありませんので、利用シーンに応じてアプローチを変えて柔軟にデータを活用しましょう。