Примеры кода на Java — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
 
(не показаны 3 промежуточные версии 2 участников)
Строка 1: Строка 1:
 
[[File:Java.jpeg|auto|thumb|Java: https://www.oracle.com/java/]]
 
[[File:Java.jpeg|auto|thumb|Java: https://www.oracle.com/java/]]
 
==Популярные библиотеки==
 
==Популярные библиотеки==
* <code>Weka</code><ref>[https://www.cs.waikato.ac.nz/~ml/weka/ Weka]</ref> {{---}} популярная библиотека, написанная на языке <code>Java</code> и содержащая в себе множество алгоритмов машинного обучения для задач анализа данных. Предоставляет инструменты для решения задач классификации, кластеризации данных, регрессионного анализа и др.
+
* <code>Weka</code><ref>[https://www.cs.waikato.ac.nz/~ml/weka/ Weka]</ref> {{---}} популярная библиотека, написанная на языке <code>Java</code> и содержащая в себе множество алгоритмов машинного обучения для задач анализа данных. Предоставляет инструменты для решения задач классификации, кластеризации данных, регрессионного анализа и др. Основные возможности <code>Weka</code> можно сгруппировать в 3 категории: инструменты пре-процессинга данных, алгоритмы машинного обучения и инструменты оценки модели. Инструменты пре-процессинга в <code>Weka</code> называются фильтрами, <code>Weka</code> содержит фильтры для дискретиации, нормализации, уменьшения размерности, трансформации и комбинирования признаков. <code>Weka Machine Learning Toolkit</code> содержит алгоритмы классификации, регрессии, кластеризации. Реализованы следующие алгоритмы обучения: деревья решений, метод опорных векторов, <code>MLP</code>, логистическая регрессия, Байесовские сети, и др., мета-алгоритмы включают в себя: бэггинг, [[Бустинг, AdaBoost|бустинг]], стекинг, алгоритмы выбора признаков: [[Метод главных компонент (PCA)| PCA]]<sup>[на 28.01.19 не создан]</sup>, фильтрующие методы, основанные на information gain, коэффициенте корреляции Пирсона и <code>OneR</code> классификаторе.
 
* <code>Smile</code><ref>[https://haifengl.github.io/smile/ Smile, Statistical Machine Intelligence and Learning Engine]</ref> {{---}} <code>Java</code> фреймворк для машинного обучения, анализа естественного языка, линейной алгебры и визуализации данных. <code>Smile</code> покрывает все основные аспекты машинного обучения и предоставляет высокопроизводительные алгоритмы и структуры данных.
 
* <code>Smile</code><ref>[https://haifengl.github.io/smile/ Smile, Statistical Machine Intelligence and Learning Engine]</ref> {{---}} <code>Java</code> фреймворк для машинного обучения, анализа естественного языка, линейной алгебры и визуализации данных. <code>Smile</code> покрывает все основные аспекты машинного обучения и предоставляет высокопроизводительные алгоритмы и структуры данных.
 
* <code>deeplearning4j</code><ref>[https://github.com/deeplearning4j/deeplearning4j deeplearning4j, deep learning & linear algebra for Java/Scala with GPUs + Spark]</ref> {{---}} <code>Java</code> библиотека для глубокого обучения, создания рекуррентых (в том числе распределенных) нейронных сетей.
 
* <code>deeplearning4j</code><ref>[https://github.com/deeplearning4j/deeplearning4j deeplearning4j, deep learning & linear algebra for Java/Scala with GPUs + Spark]</ref> {{---}} <code>Java</code> библиотека для глубокого обучения, создания рекуррентых (в том числе распределенных) нейронных сетей.
 +
==Основные особенности использования Java для задач машинного обучения==
 +
В отличие от <code>Python</code>, <code>Java</code> не обладает столь обширной экосистемой, ориентированной на решение задач машинного обучения и анализа данных. Большинство имеющихся инструментов являются узко специализированными (по сравнению, например, с <code>scikit-learn</code><ref>[https://scikit-learn.org/stable/ Библиотека scikit-learn]</ref>) и хуже документированы. Ввиду более низкой популярности языка в сфере <code>ML</code> большинство онлайн курсов и обучающих материалов ориентированы на <code>Python</code>. Однако, несмотря на вышеперечисленные факторы, <code>Java</code> остается
 +
популярной альтернативой, особенно при необходимости интеграции с существующими <code>JVM</code> проектами. Также к достоинствам <code>Java</code> можно отнести статическую типизацию (и как следствие уменьшенную вероятность ошибок времени исполнения) и заметно более развитую поддержку в IDE.
 
==Примеры кода==
 
==Примеры кода==
 
Для работы с приведенными ниже примерами необходим <code>JDK</code> версии не ниже 10 и система сборки <code>Maven</code>.<br>
 
Для работы с приведенными ниже примерами необходим <code>JDK</code> версии не ниже 10 и система сборки <code>Maven</code>.<br>

Текущая версия на 12:27, 9 апреля 2019

Популярные библиотеки[править]

  • Weka[1] — популярная библиотека, написанная на языке Java и содержащая в себе множество алгоритмов машинного обучения для задач анализа данных. Предоставляет инструменты для решения задач классификации, кластеризации данных, регрессионного анализа и др. Основные возможности Weka можно сгруппировать в 3 категории: инструменты пре-процессинга данных, алгоритмы машинного обучения и инструменты оценки модели. Инструменты пре-процессинга в Weka называются фильтрами, Weka содержит фильтры для дискретиации, нормализации, уменьшения размерности, трансформации и комбинирования признаков. Weka Machine Learning Toolkit содержит алгоритмы классификации, регрессии, кластеризации. Реализованы следующие алгоритмы обучения: деревья решений, метод опорных векторов, MLP, логистическая регрессия, Байесовские сети, и др., мета-алгоритмы включают в себя: бэггинг, бустинг, стекинг, алгоритмы выбора признаков: PCA[на 28.01.19 не создан], фильтрующие методы, основанные на information gain, коэффициенте корреляции Пирсона и OneR классификаторе.
  • Smile[2]Java фреймворк для машинного обучения, анализа естественного языка, линейной алгебры и визуализации данных. Smile покрывает все основные аспекты машинного обучения и предоставляет высокопроизводительные алгоритмы и структуры данных.
  • deeplearning4j[3]Java библиотека для глубокого обучения, создания рекуррентых (в том числе распределенных) нейронных сетей.

Основные особенности использования Java для задач машинного обучения[править]

В отличие от Python, Java не обладает столь обширной экосистемой, ориентированной на решение задач машинного обучения и анализа данных. Большинство имеющихся инструментов являются узко специализированными (по сравнению, например, с scikit-learn[4]) и хуже документированы. Ввиду более низкой популярности языка в сфере ML большинство онлайн курсов и обучающих материалов ориентированы на Python. Однако, несмотря на вышеперечисленные факторы, Java остается популярной альтернативой, особенно при необходимости интеграции с существующими JVM проектами. Также к достоинствам Java можно отнести статическую типизацию (и как следствие уменьшенную вероятность ошибок времени исполнения) и заметно более развитую поддержку в IDE.

Примеры кода[править]

Для работы с приведенными ниже примерами необходим JDK версии не ниже 10 и система сборки Maven.
Каждый пример структурирован следующим образом:

  1. Maven зависимость на необходимые библиотеки
  2. Список необходимых import директив
  3. Код примера с комментариями

Вариации регрессии[править]

Основная статья: Вариации регрессии

Линейная регрессия[править]

Логистическая регрессиия[править]

Гребневая регрессия (ридж-регрессия)[править]

Лассо-регрессия[править]

Метрический классификатор и метод ближайших соседей[править]

Классификация при помощи MLP[править]

Рекуррентные нейронные сети[править]

Долгая краткосрочная память[править]

Метод опорных векторов[править]

Деревья решений, случайный лес[править]

Бустинг, Ada-boost[править]

EM-алгоритм[править]

Основная статья: EM-алгоритм

Пример кластеризации с применением weka.clusterers.EM[5]

 <dependency>
   <groupId>nz.ac.waikato.cms.weka</groupId>
   <artifactId>weka-stable</artifactId>
   <version>3.8.0</version>
 </dependency>
 import weka.clusterers.ClusterEvaluation;
 import weka.clusterers.EM;
 import weka.core.Instances;
 import java.io.BufferedReader;
 import java.io.FileReader;
 import java.util.Random;
 //load data
 var data = new Instances(new BufferedReader(new FileReader("data/bank-data.arff")));
 // new instance of clusterer
 var model = new EM();
 // build the clusterer
 model.buildClusterer(data);
 System.out.println(model);
 var logLikelihood = ClusterEvaluation.crossValidateModel(model, data, 10, new Random(1));

Уменьшение размерности[править]

Байесовская классификация[править]

См. также[править]

Примечания[править]