Примеры кода на Scala — различия между версиями

Текущая версия на 19:30, 4 сентября 2022

Примеры кода

Линейная регрессия

Основная статья: Линейная регрессия^{[на 28.01.19 не создан]}

Sbt зависимость:

 libraryDependencies += "org.apache.spark" %% "spark-core" % "2.4.0"
 libraryDependencies += "org.apache.spark" %% "spark-mllib" % "2.4.0" % "runtime"

Пример линейной регрессии c применением org.apache.spark.ml.regression.LinearRegression^[11]:

 val training = spark.read.format("libsvm")
   .load("linear_regression.txt")
 val lr = new LinearRegression()
   .setMaxIter(10)
   .setRegParam(0.3)
   .setElasticNetParam(0.8)
 val lrModel = lr.fit(training)

Вывод итоговых параметров модели:

 println(lrModel.coefficients)
 println(lrModel.intercept)
 val trainingSummary = lrModel.summary
 println(trainingSummary.totalIterations)
 println(trainingSummary.objectiveHistory.mkString(","))
 trainingSummary.residuals.show()
 println(trainingSummary.rootMeanSquaredError)
 println(trainingSummary.r2)

Вариации регрессии

Основная статья: Вариации регрессии

Sbt зависимость:

 libraryDependencies += "com.github.haifengl" %% "smile-scala" % "1.5.2"

Пример ридж и лассо регрессии c применением smile.regression^[12]:

 import smile.data.{AttributeDataset, NumericAttribute}
 import smile.read
 import smile.regression.{LASSO, RidgeRegression, lasso, ridge}

 val data: AttributeDataset = read.table("regression.txt", delimiter = " ", response = Some((new NumericAttribute("class"), 0)))
 val x: Array[Array[Double]] = data.x()
 val y: Array[Double] = data.y()
 val ridgeRegression: RidgeRegression = ridge(x, y, 0.0057)
 val lassoRegression: LASSO = lasso(x, y, 10)
 println(ridgeRegression)
 println(lassoRegression)

Логистическая регрессия

Основная статья: Логистическая регрессия

Sbt зависимость:

 libraryDependencies += "org.apache.spark" %% "spark-core" % "2.4.0"
 libraryDependencies += "org.apache.spark" %% "spark-mllib" % "2.4.0" % "runtime"

Пример логистической регрессии c применением spark.mllib.classification^[13]:

 import org.apache.spark.mllib.classification.{LogisticRegressionModel, LogisticRegressionWithLBFGS}
 import org.apache.spark.mllib.evaluation.MulticlassMetrics
 import org.apache.spark.mllib.regression.LabeledPoint
 import org.apache.spark.mllib.util.MLUtils

 val data = MLUtils.loadLibSVMFile(sc, "logisticRegresion.txt")
 val splits = data.randomSplit(Array(0.6, 0.4), seed = 11L)
 val training = splits(0).cache()
 val test = splits(1)
 val model = new LogisticRegressionWithLBFGS()
   .setNumClasses(10)
   .run(training)

 val predictionAndLabels = test.map { case LabeledPoint(label, features) =>
   val prediction = model.predict(features)
   (prediction, label)
 }
 val metrics = new MulticlassMetrics(predictionAndLabels)
 val accuracy = metrics.accuracy
 println(accuracy)

Классификация при помощи MLP

Основная статья: Нейронные сети, перцептрон

Sbt зависимость:

 libraryDependencies += "com.github.haifengl" %% "smile-scala" % "1.5.2"

Пример классификации c применением smile.classification.mlp^[14]:

 import smile.classification.NeuralNetwork.{ActivationFunction, ErrorFunction}
 import smile.data.{AttributeDataset, NumericAttribute}
 import smile.read
 import smile.classification.mlp
 import smile.plot.plot

 val data: AttributeDataset = read.table("iris.csv", delimiter = ",", response = Some((new NumericAttribute("class"), 2)))
 val x: Array[Array[Double]] = data.x()
 val y: Array[Int] = data.y().map(_.toInt)
 val mlpModel = mlp(x, y, Array(2, 10, 2), ErrorFunction.LEAST_MEAN_SQUARES, ActivationFunction.LOGISTIC_SIGMOID)
 plot(x, y, mlpModel)

Рекуррентные нейронные сети

Основная статья: Рекуррентные нейронные сети

Пример кода, с использованием библиотеки DeepLearning.scala

   // Задание слоёв
   def tanh(x: INDArrayLayer): INDArrayLayer = {
     val exp_x = hyperparameters.exp(x)
     val exp_nx = hyperparameters.exp(-x)
     (exp_x - exp_nx) / (exp_x + exp_nx)
   }
   def charRNN(x: INDArray, y: INDArray, hprev: INDArrayLayer): (DoubleLayer, INDArrayLayer, INDArrayLayer) = {
       val hnext = tanh(wxh.dot(x) + whh.dot(hprev) + bh)
       val yraw = why.dot(hnext) + by
       val yraw_exp = hyperparameters.exp(yraw)
       val prob = yraw_exp / yraw_exp.sum
       val loss = -hyperparameters.log((prob * y).sum)
       (loss, prob, hnext)
   }

   // Определение структуры
   val batches = data.zip(data.tail).grouped(seqLength).toVector
   type WithHiddenLayer[A] = (A, INDArrayLayer)
   type Batch = IndexedSeq[(Char, Char)]
   type Losses = Vector[Double]
   def singleBatch(batch: WithHiddenLayer[Batch]): WithHiddenLayer[DoubleLayer] = {
     batch match {
       case (batchseq, hprev) => batchseq.foldLeft((DoubleLayer(0.0.forward), hprev)) {
         (bstate: WithHiddenLayer[DoubleLayer], xy: (Char, Char)) =>
           (bstate, xy) match {
             case ((tot, localhprev), (x, y)) => {
               charRNN(oneOfK(x), oneOfK(y), localhprev) match {
                 case (localloss, _, localhnext) => {
                   (tot + localloss, localhnext)
                 }
               }
             }
           }
       }
     }
   }

   // Определение одного шага обучения
   def initH = INDArrayLayer(Nd4j.zeros(hiddenSize, 1).forward)
   def singleRound(initprevloss: Losses): Future[Losses] =
     (batches.foldLeftM((initprevloss, initH)) {
       (bstate: WithHiddenLayer[Losses], batch: Batch) =>
         bstate match {
           case (prevloss, hprev) => singleBatch(batch, hprev) match {
             case (bloss, hnext) => bloss.train.map {
               (blossval: Double) => {
                   val nloss = prevloss.last * 0.999 + blossval * 0.001
                   val loss_seq = prevloss :+ prevloss.last * 0.999 + blossval * 0.001
                   (loss_seq, hnext)
               }
             }
           }
         }
     }).map {
       (fstate: WithHiddenLayer[Losses]) =>
         fstate match {
           case (floss, _) => floss
         }
     }
   def allRounds: Future[Losses] = (0 until 2048).foldLeftM(Vector(-math.log(1.0 / vocabSize) * seqLength)) {
     (ploss: Losses, round: Int) => {
         singleRound(ploss)
     }
   }

   // Обучение сети
   def unsafePerformFuture[A](f: Future[A]): A = Await.result(f.toScalaFuture, Duration.Inf)
   val losses = unsafePerformFuture(allRounds)

Метод опорных векторов

Основная статья: Метод опорных векторов (SVM)^{[на 28.01.19 не создан]}.

SBT зависимость:

 libraryDependencies += "com.github.haifengl" %% "smile-scala" % "1.5.2"

Пример классификации датасета и вычисления F1 меры^[17] используя smile.classification.svm^[18]:

 import smile.classification._
 import smile.data._
 import smile.plot._
 import smile.read
 import smile.validation.FMeasure

 val iris: AttributeDataset = read.table("iris.csv", delimiter = ",", response = Some((new NumericAttribute("class"), 2)))
 val x: Array[Array[Double]] = iris.x()
 val y: Array[Int] = iris.y().map(_.toInt)
 val SVM = svm(x, y, new GaussianKernel(8.0), 100)
 val predictions: Array[Int] = x.map(SVM.predict)
 val f1Score = new FMeasure().measure(predictions, y)
 plot(x, y, SVM)

Дерево решений и случайный лес

Основная статья: Дерево решений и случайный лес: Пример на языке Scala.

Байесовская классификация

Основная статья: Байесовская классификация.

SBT зависимость:

 libraryDependencies += "com.tsukaby" %% "naive-bayes-classifier-scala" % "0.2.0"

Пример классификации используя smile.classification.cart^[19]:

 // Создание модели
 val bayes = new BayesClassifier[String, String]()
 // Задание соотвествия категория - слово
 bayes.learn("technology", "github" :: "git" :: "tech" :: "technology" :: Nil)
 bayes.learn("weather", "sun" :: "rain" :: "cloud" :: "weather" :: "snow" :: Nil)
 bayes.learn("government", "ballot" :: "winner" :: "party" :: "money" :: "candidate" :: Nil)
 // Тестовые примеры
 val unknownText1 = "I use git".split(" ")
 val unknownText2 = "Today's weather is snow".split(" ")
 val unknownText3 = "I will vote for that party".split(" ")
 // Классификация
 println(bayes.classify(unknownText1).map(_.category).getOrElse("")) // technology
 println(bayes.classify(unknownText2).map(_.category).getOrElse("")) // weather
 println(bayes.classify(unknownText3).map(_.category).getOrElse("")) // government

EM-алгоритм

Основная статья: EM-алгоритм^{[на 28.01.19 не создан]}.

SBT зависимость:

 libraryDependencies += "com.github.haifengl" %% "smile-scala" % "1.5.2"

Пример классификации используя smile.clustering.kmeans^[20]:

 import smile.clustering._
 import smile.data._
 import smile.plot._
 import smile.read

 val iris: AttributeDataset = read.table("iris.csv", delimiter = ",", response = Some((new NumericAttribute("class"), 2)))
 val x: Array[Array[Double]] = iris.x()
 val kMeans: KMeans = kmeans(x, k = 6, maxIter = 1000)
 val y = kMeans.getClusterLabel
 plot(x, y, '.', Palette.COLORS)

Бустинг, AdaBoost

Основная статья: Бустинг, AdaBoost: Пример на языке Scala.

Уменьшение размерности

Основная статья: Уменьшение размерности: Пример на языке Scala.

Примечания

[1] Breeze

[2] MATLAB, structures

[3] ;NumPy wiki

[4] ScalaNLP, Epic

[5] Smile, Statistical Machine Intelligence and Learning Engine

[6] scikit-learn

[7] Apache Spark MLlib

[8] Apache Spark

[9] DeppLearning.scala

[10] Глубокое обучение

[11] Spark, LinearRegression

[12] Smile, Regression

[13] Spark, Logistic Regression

[14] Smile, MLP

[15] DeepLearning4j

[16] ND4J

[17] F1 мера

[18] Smile, SVM

[19] Naive bayes classifier, Scala

[20] Smile, K-Means

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

@@ Строка 2: / Строка 2: @@
 ==Популярные библиотеки==
-* Breeze<ref>[https://github.com/scalanlp/breeze Breeze]</ref> {{---}} библиотека, которая копирует реализует идеи строения структур данных из MATLAB<ref>[https://www.mathworks.com/help/matlab/structures.html MATLAB, structures]</ref> и NumPy<ref>[https://en.wikipedia.org/wiki/NumPy NumPy wiki]</ref>. Breeze позволяет быстро манипулировть данными и позволяет реализовавать матричные и веторные операции, решать задачи оптимизации, обрабатывать сигналы устройств.
+* Breeze<ref>[https://github.com/scalanlp/breeze Breeze]</ref> {{---}} библиотека, которая копирует реализует идеи строения структур данных из MATLAB<ref>[https://www.mathworks.com/help/matlab/structures.html MATLAB, structures]</ref> и NumPy<ref>;[https://en.wikipedia.org/wiki/NumPy NumPy wiki]</ref>. Breeze позволяет быстро манипулировать данными и позволяет реализовать матричные и векторные операции, решать задачи оптимизации, обрабатывать сигналы устройств;
-* Epic<ref>[http://www.scalanlp.org/ ScalaNLP, Epic]</ref> {{---}} часть ScalaNLP, позволяющая парсить и обрабатывать текст, поддерживающая использование GPU. Так же имеет фрэймворк для предсказаний текста.
+* Epic<ref>[http://www.scalanlp.org/ ScalaNLP, Epic]</ref> {{---}} часть ScalaNLP, позволяющая парсить и обрабатывать текст, поддерживающая использование GPU. Так же имеет фрэймворк для предсказаний текста;
-* Smpile<ref>[https://haifengl.github.io/smile/ Smile, Statistical Machine Intelligence and Learning Engine]</ref> {{---}} развивающийся проект, похожий на scikit-learn<ref>[https://scikit-learn.org/ scikit-learn]</ref>, разработанный на Java и имеющий API для Scala. Имеет большой набор алгоритмов для решения задач классификации, регрессии, выбора фичей и другого.
+* Smpile<ref>[https://haifengl.github.io/smile/ Smile, Statistical Machine Intelligence and Learning Engine]</ref> {{---}} развивающийся проект, похожий на scikit-learn<ref>[https://scikit-learn.org/ scikit-learn]</ref>, разработанный на Java и имеющий API для Scala. Имеет большой набор алгоритмов для решения задач классификации, регрессии, выбора фичей и другого;
-* Apache Spark MLlib<ref>[https://spark.apache.org/mllib/ Apache Spark MLlib]</ref> {{---}} построенная на Spark<ref>[https://spark.apache.org/ Apache Spark]</ref> имеет большой набор алгоритмов, написанный на Scala.
+* Apache Spark MLlib<ref>[https://spark.apache.org/mllib/ Apache Spark MLlib]</ref> {{---}} построенная на Spark<ref>[https://spark.apache.org/ Apache Spark]</ref> имеет большой набор алгоритмов, написанный на Scala;
 * DeepLearning.scala <ref>[https://deeplearning.thoughtworks.school/ DeppLearning.scala]</ref> {{---}} набор инструментов для глубокого обучения<ref>[http://neerc.ifmo.ru/wiki/index.php?title=%D0%93%D0%BB%D1%83%D0%B1%D0%BE%D0%BA%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5 Глубокое обучение]</ref>. Позволяет создавать динамические нейронные сети, давая возможность параллельных вычеслений.
@@ Строка 101: / Строка 101: @@
 {{main|Рекуррентные нейронные сети}}
-Пример кода, с использованием билиотеки DeepLearning.scala
+Пример кода, с использованием библиотеки DeepLearning.scala
      <span style="color:#3D9970>// Задание слоёв</span>
      '''def '''tanh(x: INDArrayLayer): INDArrayLayer = {
@@ Строка 172: / Строка 172: @@
 ===Долгая краткосрочная память===
-Освновная статья: [[Долгая краткосрочная память]].
+Основная статья: [[Долгая краткосрочная память]].
 [https://github.com/IlyaHalsky/neerc-wiki-ml-scala/blob/master/lstm/GravesLSTMCharModellingExample.scala Пример реализации LSTM] на основе DeepLearning4j<ref>[https://deeplearning4j.org/ DeepLearning4j]</ref> и ND4J<ref>[https://deeplearning4j.org/docs/latest/nd4j-overview ND4J]</ref>
@@ Строка 180: / Строка 180: @@
 ===Метрический классификатор и метод ближайших соседей===
-Освновная статья: [[Метрический классификатор и метод ближайших соседей#Пример на языке Scala | Метрический классификатор и метод ближайших соседей: Пример на языке Scala]].
+Основная статья: [[Метрический классификатор и метод ближайших соседей#Пример на языке Scala | Метрический классификатор и метод ближайших соседей: Пример на языке Scala]].
 ===Метод опорных векторов===
-Освновная статья: [[Метод опорных векторов (SVM)]]<sup>[на 28.01.19 не создан]</sup>.
+Основная статья: [[Метод опорных векторов (SVM)]]<sup>[на 28.01.19 не создан]</sup>.
 SBT зависимость:
@@ Строка 203: / Строка 203: @@
 ===Дерево решений и случайный лес===
-Освновная статья: [[Дерево решений и случайный лес#Пример на языке Scala | Дерево решений и случайный лес: Пример на языке Scala]].
+Основная статья: [[Дерево решений и случайный лес#Пример на языке Scala | Дерево решений и случайный лес: Пример на языке Scala]].
 ===Байесовская классификация===
-Освновная статья: [[Байесовская классификация]]<sup>[на 28.01.19 не создан]</sup>.
+Основная статья: [[Байесовская классификация]].
 SBT зависимость:
@@ Строка 227: / Строка 227: @@
 ===EM-алгоритм===
-Освновная статья: [[EM-алгоритм]]<sup>[на 28.01.19 не создан]</sup>.
+Основная статья: [[EM-алгоритм]]<sup>[на 28.01.19 не создан]</sup>.
 SBT зависимость:
@@ Строка 244: / Строка 244: @@
 ===Бустинг, AdaBoost===
-Освновная статья: [[Бустинг, AdaBoost#Пример на языке Scala | Бустинг, AdaBoost: Пример на языке Scala]].
+Основная статья: [[Бустинг, AdaBoost#Пример на языке Scala | Бустинг, AdaBoost: Пример на языке Scala]].
 ===Уменьшение размерности===
-Освновная статья: [[Уменьшение размерности#Пример на языке Scala | Уменьшение размерности: Пример на языке Scala]].
+Основная статья: [[Уменьшение размерности#Пример на языке Scala | Уменьшение размерности: Пример на языке Scala]].
 == Примечания ==
 <references/>
 [[Категория: Машинное обучение]] [[Категория: Примеры кода]]

Примеры кода на Scala — различия между версиями

Текущая версия на 19:30, 4 сентября 2022

Популярные библиотеки