Изменения

Обзор библиотек для машинного обучения на Python

440 байт убрано, 16:01, 28 января 2019

Нет описания правки

==Scikit-learn==

===Описание===

Scikit-learn<ref>[https://scikit-learn.org/stable/ Библиотека scikit-learn]</ref> {{---}} библиотека машинного обучения на языке программирования Python с открытым исходным кодом. Содержит реализации практически всех возможных преобразований, и нередко ее одной хватает для полной реализации модели. В данной библиотеки реализованы методы разбиения датасета на тестовый и обучающий, вычисление основных метрик над наборами данных, проведение [[кросс-валидации|Кросс-валидация]]. В библиотеке также есть основные алгоритмы машинного обучения: [[линейной регрессии|Линейная регрессия]], (и ее модификаций Лассо, гребневой регрессии), [[опорных векторов|Метод опорных векторов(SVM)]], [[Дерево решений и случайный лес|решающих деревьев и лесов ]] и др. Есть и реализации основных методов [[Кластеризация|кластеризации]]. Кроме того, библиотека содержит постоянно используемые исследователями методы работы с ~~параметрами (фичами)~~признаками: например, понижение размерности [[Метод главных компонент (PCA)|методом главных компонент]]. Частью пакета является библиотека imblearn<ref>[https://imbalanced-learn.readthedocs.io/en/stable/index.html Библиотека imbalanced-learn]</ref>, позволяющая работать с разбалансированными выборками и генерировать новые значения.

===Примеры кода===

====Линейная регрессия====

~~Основная статья: [[~~{{Main|Линейная регрессия~~]].~~}}

<font color="green"># Add required imports</font>

[[File:Diabetes-sklearn.png|400px|none|super]]

====Логистическая регрессия====

~~Основная статья: [[~~{{Main|Логистическая регрессия~~]].~~}}

Загрузка датасета:

====Перцептрон====

~~Основная статья: [[~~{{Main|Нейронные сети, перцептрон~~]].~~}}

Загрузка датасета:

====Метрический классификатор и метод ближайших соседей====

~~Основная статья: [[~~{{Main|Метрический классификатор и метод ближайших соседей#Пример использования (через scikit-learn) ~~| Метрический классификатор и метод ближайших соседей: Пример использования через scikit-learn]].~~}}

====Дерево решений и случайный лес====

~~Основная статья: [[~~{{Main|Дерево решений и случайный лес#Примеры использования (в scikit-learn) ~~| Дерево решений и случайный лес: Пример использования через scikit-learn]].~~}}

====Обработка естественного языка====

~~Основная статья: [[~~{{Main|Обработка естественного языка~~]].~~}}

Загрузка датасета:

====Кросс-валилация и подбор параметров====

~~Основная статья: [[~~{{Main|Кросс-валидация~~]].~~}}

Возьмем предыдущий пример с обработкой естественного языка и попробуем увеличить точность алгоритма за счет кросс-валидации и подбора параметров:

====Метод опорных векторов (SVM)====

~~Основная статья: [[~~{{Main|Метод опорных векторов (SVM)~~]].~~}}

Загрузка датасета:

====EM-алгоритм====

~~Основная статья: [[~~{{Main|EM-алгоритм~~]].~~}}

'''import''' numpy '''as''' np

====Уменьшение размерности====

~~Основная статья: [[~~{{Main|Уменьшение размерности#Пример кода scikit-learn ~~| Уменьшение размерности: Пример использования через scikit-learn]].~~}}

==Tensorflow==

===Примеры кода===

====Сверточная нейронная сеть====

~~Основная статья: [[~~{{Main|Сверточные нейронные сети~~]].~~}}

Реализация сверточной нейронной сети для классификации цифр из датасета MNIST:

===Примеры кода===

====Сверточная нейронная сеть====

~~Основная статья: [[~~{{Main|Сверточные нейронные сети~~]].~~}}

Реализация сверточной нейронной сети для классификации текста:

* Pandas<ref>[https://pandas.pydata.org Библиотека Pandas]</ref> {{---}} библиотека Python, которая является мощным инструментом для анализа данных. Пакет дает возможность строить сводные таблицы, выполнять группировки, предоставляет удобный доступ к табличным данным и позволяет строить графики на полученных наборах данных при помощи библиотеки Matplotlib.

* Matplotlib<ref>[https://matplotlib.org Библиотека Matplotlib]</ref> {{---}} библиотека Python для построения качественных двумерных графиков. Matplotlib является гибким, легко конфигурируемым пакетом, который вместе с NumPy, SciPy и IPython<ref>[https://ipython.org IPython Notebook]</ref> предоставляет возможности, подобные MATLAB.

===Библиотеки для глубокого обучения===

* PyTorch<ref>[https://pytorch.org Библиотека PyTorch]</ref> {{---}} библиотека для глубокого обучения, созданная на базе Torch<ref>[https://en.wikipedia.org/wiki/Torch_(machine_learning) Torch]</ref> и развиваемая компанией Facebook. Две ключевые функциональности данной библиотеки {{---}} тензорные вычисления с развитой поддержкой ускорения на GPU и глубокие нейронные сети на базе системы autodiff.

* NLTK<ref>[https://www.nltk.org Библиотека NLTK]</ref> {{---}} пакет библиотек и программ для символьной и статистической обработки естественного языка, написанных на языке программирования Python.

* Gensim<ref>[https://radimrehurek.com/gensim/ Библиотека Gensim]</ref> {{---}} инструмент для автоматической обработки языка, основанный на машинном обучении. В Gensim реализованы алгоритмы дистрибутивной семантики word2vec и doc2vec, он позволяет решать задачи тематического моделирования и выделять основные темы текста или документа.

===Библиотеки для градиентного бустинга===

* [[XGBoost|Xgboost]]<ref>[https://xgboost.readthedocs.io/en/latest/python/index.html Библиотека Xgboost]</ref> {{---}} библиотека с реализацией градиентного бустинга, которая для выбора разбиения использует сортировку и модели, основанные на анализе гистограмм.

* LightGBM<ref>[http://www.dmtk.io Библиотека LightGBM]</ref> {{---}} фреймворк с реализацией градиентного бустинга от корпорации Microsoft. Является частью проекта Microsoft DMTK, посвященного реализации подходов машинного обучения для .Net.

* [[CatBoost|CatBoost]]<ref>[https://catboost.ai Библиотека CatBoost]</ref> {{---}} библиотека с градиентным бустингом от компании Яндекс, в которой реализуется особый подход к обработке категориальных признаков, основанный на подмене категориальных признаков статистиками на основе предсказываемого значения.

==См. также==

Alexey Katsman

333

правки

Изменения

Обзор библиотек для машинного обучения на Python

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты