MMLSpark と Python の LightGBM 比較 ~変数重要度や精度、予測値の観点から~

はじめに

MMLSparkとPythonのLightGBMの学習・予測結果はどのように違うのでしょう？

分類器Classifierで同一データの学習・予測を行い、評価精度、変数重要度、予測スコアを比較します。

結論：完全一致

※ 特徴量の行・列の並びは同一
※ 幾つか設定したハイパーパラメータ等も同一
※ 実行環境：DatabricksのCommunity Edition
※ MMLSparkのversion：1.0.0-rc1
※ Python LightGBMのversion：2.3.1

また、比較に用いたsample codeをGoogle driveで共有しているので参考にしてください。
html：LightGBM_[mmlspark_vs_Python].html - Google ドライブ
ipynb：LightGBM_[mmlspark_vs_Python].ipynb - Google ドライブ

model = (
  LightGBMClassifier(
    baggingSeed=1024,    # シード値
    learningRate=0.1,    # 学習率
    numIterations=100,   # 作成する木の数
    maxDepth=4,          # 木の深さ
    numLeaves=16,        # 木にある分岐の数
    metric='auc')        # 学習誤差の評価指標
)

その学習・検証精度はこのようになります。
f:id:Cream-Kuchen:20200808172207p:plain

また、変数重要度はこのようになりました。
f:id:Cream-Kuchen:20200808172222p:plain

4, Pythonモデルの構築

MMLSparkと同様に、下記のようにモデルを構築します。パラメータ設定に注意します。

model = (
  lgb.LGBMClassifier(
    random_state=1024,  # シード値 
    learning_rate=0.1,  # 学習率
    n_estimators=100,   # 作成する木の数 
    max_depth=4,        # 木の深さ 
    num_leaves=16,      # 木にある分岐の数
    metric='auc',       # 学習誤差の評価指標
    importance_type='gain')  # 後ほど変数重要度を比較する際にtypeを合わせるため設定
)

その学習・検証精度はこのようになります。
f:id:Cream-Kuchen:20200808172707p:plain