Изменения

Обзор библиотек для машинного обучения на Python

2246 байт убрано, 01:19, 23 января 2019

Нет описания правки

print(confusion_matrix(y_test,predictions))

print(classification_report(y_test,predictions))

~~==Theano==~~

~~===Описание===~~

Theano<ref>[http://deeplearning.net/software/theano/ Библиотека Theano]</ref> {{---}} расширение языка программирования Python, позволяющее эффективно вычислять математические выражения, содержащие многомерные массивы. Библиотека предоставляет базовый набор инструментов для конфигурации нейронных сетей и их обучения. Наибольшее признание данная библиотека получила в задачах машинного обучения при решении задач оптимизации. Она позволяет использовать возможности GPU без изменения кода программы, что делает ее незаменимой при выполнении ресурсоемких задач.

~~===Примеры кода===~~

~~====Логистическая регрессия====~~

~~Основная статья: [[Логистическая регрессия]].~~

Реализация логистической регрессии для классификации цифр из датасета MNIST<ref>[https://en.wikipedia.org/wiki/MNIST_database Датасет MNIST]</ref>:

~~from __future__ import print_function~~

~~__docformat__ = 'restructedtext en'~~

~~import six.moves.cPickle as pickle~~

~~import gzip~~

~~import os~~

~~import sys~~

~~import timeit~~

~~import numpy~~

~~import theano~~

~~import theano.tensor as T~~

~~class LogisticRegression(object):~~

~~def __init__(self, input, n_in, n_out):~~

~~self.W = theano.shared(~~

~~value=numpy.zeros(~~

~~(n_in, n_out),~~

~~dtype=theano.config.floatX~~

),

~~name='W',~~

~~borrow=True~~

)

~~self.b = theano.shared(~~

~~value=numpy.zeros(~~

~~(n_out,),~~

~~dtype=theano.config.floatX~~

),

~~name='b',~~

~~borrow=True~~

)

~~self.p_y_given_x = T.nnet.softmax(T.dot(input, self.W) + self.b)~~

~~self.y_pred = T.argmax(self.p_y_given_x, axis=1)~~

~~self.params = [self.W, self.b]~~

~~self.input = input~~

~~def negative_log_likelihood(self, y):~~

~~return -T.mean(T.log(self.p_y_given_x)[T.arange(y.shape[0]), y])~~

~~def load_data(dataset):~~

~~data_dir, data_file = os.path.split(dataset)~~

~~if data_dir == "" and not os.path.isfile(dataset):~~

~~new_path = os.path.join(~~

~~os.path.split(__file__)[0],~~

~~"..",~~

~~"data",~~

~~dataset~~

)

~~if os.path.isfile(new_path) or data_file == 'mnist.pkl.gz':~~

~~dataset = new_path~~

~~if (not os.path.isfile(dataset)) and data_file == 'mnist.pkl.gz':~~

~~from six.moves import urllib~~

~~origin = (~~

~~'http://www.iro.umontreal.ca/~lisa/deep/data/mnist/mnist.pkl.gz'~~

)

~~print('Downloading data from %s' % origin)~~

~~urllib.request.urlretrieve(origin, dataset)~~

~~with gzip.open(dataset, 'rb') as f:~~

~~try:~~

~~train_set, valid_set, test_set = pickle.load(f, encoding='latin1')~~

~~except:~~

~~train_set, valid_set, test_set = pickle.load(f)~~

~~def shared_dataset(data_xy, borrow=True):~~

~~data_x, data_y = data_xy~~

~~shared_x = theano.shared(numpy.asarray(data_x,~~

~~dtype=theano.config.floatX),~~

~~borrow=borrow)~~

~~shared_y = theano.shared(numpy.asarray(data_y,~~

~~dtype=theano.config.floatX),~~

~~borrow=borrow)~~

~~return shared_x, T.cast(shared_y, 'int32')~~

~~test_set_x, test_set_y = shared_dataset(test_set)~~

~~valid_set_x, valid_set_y = shared_dataset(valid_set)~~

~~train_set_x, train_set_y = shared_dataset(train_set)~~

~~rval = [(train_set_x, train_set_y), (valid_set_x, valid_set_y),~~

~~(test_set_x, test_set_y)]~~

~~return rval~~

~~def sgd_optimization_mnist(learning_rate=0.13, n_epochs=1000,~~

~~dataset='mnist.pkl.gz',~~

~~batch_size=600):~~

~~datasets = load_data(dataset)~~

~~train_set_x, train_set_y = datasets[0]~~

~~valid_set_x, valid_set_y = datasets[1]~~

~~test_set_x, test_set_y = datasets[2]~~

~~n_train_batches = train_set_x.get_value(borrow=True).shape[0]~~

~~n_valid_batches = valid_set_x.get_value(borrow=True).shape[0]~~

~~n_test_batches = test_set_x.get_value(borrow=True).shape[0]~~

~~index = T.lscalar()~~

~~x = T.matrix('x')~~

~~y = T.ivector('y')~~

~~classifier = LogisticRegression(input=x, n_in=28 * 28, n_out=10)~~

~~cost = classifier.negative_log_likelihood(y)~~

~~test_model = theano.function(~~

~~inputs=[index],~~

~~outputs=classifier.errors(y),~~

~~givens={~~

~~x: test_set_x[index * batch_size: (index + 1) * batch_size],~~

~~y: test_set_y[index * batch_size: (index + 1) * batch_size]~~

}

)

~~validate_model = theano.function(~~

~~inputs=[index],~~

~~outputs=classifier.errors(y),~~

~~givens={~~

~~x: valid_set_x[index * batch_size: (index + 1) * batch_size],~~

~~y: valid_set_y[index * batch_size: (index + 1) * batch_size]~~

}

)

~~g_W = T.grad(cost=cost, wrt=classifier.W)~~

~~g_b = T.grad(cost=cost, wrt=classifier.b)~~

~~updates = [(classifier.W, classifier.W - learning_rate * g_W),~~

~~(classifier.b, classifier.b - learning_rate * g_b)]~~

~~train_model = theano.function(~~

~~inputs=[index],~~

~~outputs=cost,~~

~~updates=updates,~~

~~givens={~~

~~x: train_set_x[index * batch_size: (index + 1) * batch_size],~~

~~y: train_set_y[index * batch_size: (index + 1) * batch_size]~~

}

)

~~patience = 5000~~

~~patience_increase = 2~~

~~improvement_threshold = 0.995~~

~~validation_frequency = min(n_train_batches, patience // 2)~~

~~best_validation_loss = numpy.inf~~

~~test_score = 0.~~

~~start_time = timeit.default_timer()~~

~~done_looping = False~~

~~epoch = 0~~

~~while (epoch < n_epochs) and (not done_looping):~~

~~epoch = epoch + 1~~

~~for minibatch_index in range(n_train_batches):~~

~~minibatch_avg_cost = train_model(minibatch_index)~~

~~iter = (epoch - 1) * n_train_batches + minibatch_index~~

~~if (iter + 1) % validation_frequency == 0:~~

~~validation_losses = [validate_model(i)~~

~~for i in range(n_valid_batches)]~~

~~this_validation_loss = numpy.mean(validation_losses)~~

~~print(~~

~~'epoch %i, minibatch %i/%i, validation error %f %%' %~~

(

~~epoch,~~

~~minibatch_index + 1,~~

~~n_train_batches,~~

~~this_validation_loss * 100.~~

)

~~if this_validation_loss < best_validation_loss:~~

~~if this_validation_loss < best_validation_loss * \~~

~~improvement_threshold:~~

~~patience = max(patience, iter * patience_increase)~~

~~best_validation_loss = this_validation_loss~~

~~test_losses = [test_model(i)~~

~~for i in range(n_test_batches)]~~

~~test_score = numpy.mean(test_losses)~~

~~print(~~

(

~~' epoch %i, minibatch %i/%i, test error of'~~

~~' best model %f %%'~~

~~) %~~

(

~~epoch,~~

~~minibatch_index + 1,~~

~~n_train_batches,~~

~~test_score * 100.~~

)

~~with open('best_model.pkl', 'wb') as f:~~

~~pickle.dump(classifier, f)~~

~~if patience <= iter:~~

~~done_looping = True~~

~~break~~

~~end_time = timeit.default_timer()~~

~~print(~~

(

~~'Optimization complete with best validation score of %f %%,'~~

~~'with test performance %f %%'~~

)

~~% (best_validation_loss * 100., test_score * 100.)~~

)

~~print('The code run for %d epochs, with %f epochs/sec' % (~~

~~epoch, 1. * epoch / (end_time - start_time)))~~

~~print(('The code for file ' +~~

~~os.path.split(__file__)[1] +~~

~~' ran for %.1fs' % ((end_time - start_time))), file=sys.stderr)~~

~~def predict():~~

~~classifier = pickle.load(open('best_model.pkl'))~~

~~predict_model = theano.function(~~

~~inputs=[classifier.input],~~

~~outputs=classifier.y_pred)~~

~~dataset='mnist.pkl.gz'~~

~~datasets = load_data(dataset)~~

~~test_set_x, test_set_y = datasets[2]~~

~~test_set_x = test_set_x.get_value()~~

~~predicted_values = predict_model(test_set_x[:10])~~

~~print("Predicted values for the first 10 examples in test set:")~~

~~print(predicted_values)~~

~~if __name__ == '__main__':~~

~~sgd_optimization_mnist()~~

==Tensorflow==

===Описание===

validation_data=(x_test, y_test))

==Другие библиотеки для машинного обучения на Python==

* NumPy<ref>[http://www.numpy.org Библиотека NumPy]</ref> {{---}} библиотека, добавляющая поддержку больших многомерных массивов и матриц, вместе с большой библиотекой высокоуровневых математических функций для операций с этими массивами. Данная библиотека предоставляет реализации вычислительных алгоритмов (в виде функций и операторов), оптимизированные для работы с многомерными массивами. В результате любой алгоритм, который может быть выражен в виде последовательности операций над массивами (матрицами) и реализованный с использованием NumPy, работает так же быстро, как эквивалентный код, выполняемый в MATLAB<ref>[https://www.mathworks.com/products/matlab.html MATLAB]</ref>.

* SciPy<ref>[https://www.scipy.org Библиотека SciPy]</ref> {{---}} открытая библиотека высококачественных научных инструментов для языка программирования Python. SciPy содержит модули для оптимизации, интегрирования, специальных функций, обработки сигналов, обработки изображений, генетических алгоритмов, решения обыкновенных дифференциальных уравнений и других задач, обычно решаемых в науке и при инженерной разработке.

* Pandas<ref>[https://pandas.pydata.org Библиотека Pandas]</ref> {{---}} библиотека Python, которая является мощным инструментом для анализа данных. Пакет дает возможность строить сводные таблицы, выполнять группировки, предоставляет удобный доступ к табличным данным и позволяет строить графики на полученных наборах данных при помощи библиотеки Matplotlib.

* Matplotlib<ref>[https://matplotlib.org Библиотека Matplotlib]</ref> {{---}} библиотека Python для построения качественных двумерных графиков. Matplotlib является гибким, легко конфигурируемым пакетом, который вместе с NumPy, SciPy и IPython<ref>[https://ipython.org IPython]</ref> предоставляет возможности, подобные MATLAB.

* Theano<ref>[http://deeplearning.net/software/theano/ Библиотека Theano]</ref> {{---}} расширение языка программирования Python, позволяющее эффективно вычислять математические выражения, содержащие многомерные массивы. Библиотека предоставляет базовый набор инструментов для конфигурации нейронных сетей и их обучения. Наибольшее признание данная библиотека получила в задачах машинного обучения при решении задач оптимизации. Она позволяет использовать возможности GPU без изменения кода программы, что делает ее незаменимой при выполнении ресурсоемких задач.

* Caffe<ref>[http://caffe.berkeleyvision.org Библиотека Caffe]</ref> {{---}} фреймворк для обучения нейронных сетей, созданный университетом Беркли. Как и Tensorflow, использует cuDNN для работы с видеокартами NVIDIA.

* NLTK<ref>[https://www.nltk.org Библиотека NLTK]</ref> {{---}} пакет библиотек и программ для символьной и статистической обработки естественного языка, написанных на языке программирования Python.

* Gensim<ref>[https://radimrehurek.com/gensim/ Библиотека Gensim]</ref> {{---}} инструмент для автоматической обработки языка, основанный на машинном обучении. В Gensim реализованы алгоритмы дистрибутивной семантики word2vec и doc2vec, он позволяет решать задачи тематического моделирования и выделять основные темы текста или документа.

* Xgboost<ref>[https://xgboost.readthedocs.io/en/latest/python/index.html Библиотека Xgboost]</ref> {{---}} библиотека с реализацией градиентного бустинга, которая для выбора разбиения использует сортировку и модели, основанные на анализе гистограмм.

* LightGBM<ref>[http://www.dmtk.io Библиотека LightGBM]</ref> {{---}} фреймворк с реализацией градиентного бустинга от корпорации Microsoft. Является частью проекта Microsoft DMTK, посвященного реализации подходов машинного обучения для .Net.

* CatBoost<ref>[https://catboost.ai Библиотека CatBoost]</ref> {{---}} библиотека с градиентным бустингом от компании Яндекс, в которой реализуется особый подход к обработке категориальных признаков, основанный на подмене категориальных признаков статистиками на основе предсказываемого значения.

* Microsoft Cognitive Toolkit (CNTK)<ref>[https://www.microsoft.com/en-us/cognitive-toolkit/ Библиотека CNTK]</ref> {{---}} фреймворк от корпорации Microsoft, предоставляющий реализации архитектур различных нейронных сетей.

==См. также==

*[[:Примеры кода на Scala|Примеры кода на Scala]]

Alexey Katsman

333

правки

Изменения

Обзор библиотек для машинного обучения на Python

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты