Cream-Kuchen

How to install and import MMLSpark in Databricks

はじめに

DatabricksにMMLSparkはどのようにInstallするのでしょう?

Clusterの作成からLibraryへのInstallまで紹介します。

※ Databricksの環境は無料のCommunity Editionです。

目次


1, MMLSparkの公式ドキュメント

こちらのリンク先になります。

github.com

ページ中段の「Setup and installation」→「Databricks」から、
DatabricksのLibraryへのInstall方法が英文で紹介してあります。
https://github.com/Azure/mmlspark#databricks


f:id:Cream-Kuchen:20200719163808p:plain

赤い3本の下線部が重要です。ClusterのSparkのversionに注意しつつ、
Maven coordinatesからLibraryをセットアップしていきましょう。


2, Clusterの作成

まず、Sparkのversionに注意しながら適当なClusterを作ります。

f:id:Cream-Kuchen:20200719165127p:plain

左下の「Clusters」ページから、左上の「Create Cluster」ボタンを押してください。


次に、Clusterの詳細な構成を決めます。

f:id:Cream-Kuchen:20200719165741p:plain

1 ~ 4の順に作業してください。
 1, Clusterの名前を適当に入力します。
 2, Scala 2.11以上、かつ、Spark 2.4以上のversionを選択します。(※ 大事!)
 3, 適当なzoneを選択します。
 4, 「Create Cluster」ボタンを押しましょう。

これでClusterが作成できました!


3, MMLSparkのInstall

最後に、作成したClusterのLibraryにMMLSparkをInstallします。

f:id:Cream-Kuchen:20200719171200p:plain

作成したClusterの「Libraries」タブから、「Install New」ボタンを押してください。
すると、下のような画面が現れます。

f:id:Cream-Kuchen:20200719172436p:plain

1 ~ 4の順に作業してください。
 1, Library Sourceは「Maven」を選択します。
 2, Coordinatesは「com.microsoft.ml.spark:mmlspark_2.11:1.0.0-rc1」を入力します。
 3, Repositoryは「https://mmlspark.azureedge.net/maven」を入力します。
 4, 右下の「Install」ボタンを押しましょう。

これでMMLSparkがInstallされました!


4, (参考) MMLSparkのLightGBMをImport

試しにパッケージがImportできるか見てみましょう。

f:id:Cream-Kuchen:20200719180715p:plain

Importに問題なく、モデルが構築できそうですね。


おわりに

DatabricksのLibraryにMMLSparkをInstallする方法を紹介しました。

使ってみたいけど環境構築に悩んでいる方の一助になれば幸いです。