MMLSpark を Databricks にインストール・インポートする方法
はじめに
DatabricksにMMLSparkはどのようにInstallするのでしょう?
Clusterの作成からLibraryへのInstallまで紹介します。
※ Databricksの環境は無料のCommunity Editionです。
目次
1, MMLSparkの公式ドキュメント
こちらのリンク先になります。
github.com
ページ中段の「Setup and installation」→「Databricks」から、
DatabricksのLibraryへのInstall方法が英文で紹介してあります。
https://github.com/Azure/mmlspark#databricks
赤い3本の下線部が重要です。ClusterのSparkのversionに注意しつつ、
Maven coordinatesからLibraryをセットアップしていきましょう。
2, Clusterの作成
まず、Sparkのversionに注意しながら適当なClusterを作ります。
左下の「Clusters」ページから、左上の「Create Cluster」ボタンを押してください。
次に、Clusterの詳細な構成を決めます。
1 ~ 4の順に作業してください。
1, Clusterの名前を適当に入力します。
2, Scala 2.11以上、かつ、Spark 2.4以上のversionを選択します。(※ 大事!)
3, 適当なzoneを選択します。
4, 「Create Cluster」ボタンを押しましょう。
これでClusterが作成できました!
3, MMLSparkのInstall
最後に、作成したClusterのLibraryにMMLSparkをInstallします。
作成したClusterの「Libraries」タブから、「Install New」ボタンを押してください。
すると、下のような画面が現れます。
1 ~ 4の順に作業してください。
1, Library Sourceは「Maven」を選択します。
2, Coordinatesは「com.microsoft.ml.spark:mmlspark_2.11:1.0.0-rc1」を入力します。
3, Repositoryは「https://mmlspark.azureedge.net/maven」を入力します。
4, 右下の「Install」ボタンを押しましょう。
これでMMLSparkがInstallされました!
4, (参考) MMLSparkのLightGBMをImport
試しにパッケージがImportできるか見てみましょう。
Importに問題なく、モデルが構築できそうですね。
おわりに
DatabricksのLibraryにMMLSparkをInstallする方法を紹介しました。
使ってみたいけど環境構築に悩んでいる方の一助になれば幸いです。