Изменения

Обучение на больших данных

3087 байт добавлено, 16:41, 21 января 2021

→‎Применение методов машинного обучения для построения "озера" данных

=== Применение методов машинного обучения для построения "озера" данных ===

Представленная выше модель хорошо описывает схему хранения разнородных данных путём создания некоторого шаблона, который мог бы описывать все эти данные. Построение такого шаблона может быть очень трудоёмкой задачей, так как данных много и их форматов тоже может быть много. ~~Здесь~~ Встаёт задача метапрофилирования данных. Этот процесс направлен на ~~помощь~~ структуризацию разносортных данных и ~~приходит машинное обучение~~различных метаданных. ~~[[Нейронные сети~~Без этого большинство действий с данными будут попросту невозможны – будь то построение запросов для СУБД, ~~перцептрон|Нейронные сети]]~~очистка данных, ~~при правильном~~ их ~~использовании~~классификация и кластеризация. Кроме того, ~~могут помочь~~ в ~~построении такого шаблона, обучаясь на разнородных~~ условиях больших данных. Такие сети были названы '''''метапрофилировочные нейронные сети''''' (англ. ''meta-profile neural network'')<ref>[https://arxiv.org/pdf/2008.12258.pdf Learning to Profile: User Meta-Profile Network for Few-Shot Learning] - Hao Gong, ~~Qifang Zhao~~в БД может быть огромное количество таблиц, ~~Tianyu Li, Derek Cho, DuyKhuong Nguyen - Rakuten Institute of Technology, 2020</ref>~~чьи метаданные могут сильно различаться. В таких условиях получение полной информации даже по одному объекту будет практически невыполнимой задачей.

~~Нейронная сеть, которую необходимо построить, состоит из нескольких других нейронных сетей~~'''Мета-профайл''' (англ. ~~Каждая из них обрабатывает свой формат~~ ''metadata-profile'') - особая структура данных, ~~следовательно выбор вида такой подсети стоит за разработчиком~~призванная собрать воедино различную информацию о конкретном объекте <tex>O</tex>. ~~В результате мы получаем некий новый объект~~Сюда так же входят и различные представления этого объекта. Например, музыкальную композицию можно идентифицировать по-разному, ~~признаки которого будут зависеть~~ от ~~обработанных данных. Он~~ названия и автора до жанра и ~~будет шаблоном объекта, который будет храниться в "озере" данных.~~года создания:

~~Так~~::<tex>MP=(Name, ~~например~~Prop)</tex>* <tex>Name</tex> {{---}} уникальное имя мета-профайла, <tex>Name \in Namespace</tex>, где <tex>Namespace</tex> {{---}} все возможные имена объекта;* <tex>Prop</tex> {{---}} множество атрибутов мета-профайла <tex>\{p_1, \dots, p_n\} | \forall p_i \in Prop: i=\{1, \dots, n\}</tex>. <tex>p_i=(PName_i, PType_i, P_i, PF_i)</tex>:** <tex>PName_i</tex> {{---}} уникальное имя атрибута, <tex>PName_i \in PNamespace</tex>, где <tex>PNamespace</tex> {{---}} все возможные имена атрибутов;** <tex>PType_i</tex> {{---}} простой тип данных, <tex>PType_i \in Plaintypes</tex>, где <tex>Plaintypes</tex> {{---}} все возможные типы данных. Важно, что типы являются простыми, то есть числами, символами или строками;** <tex>P_i : 0 < P_i < 1</tex> {{---}} вероятность принадлежности атрибута <tex>p_i</tex> некоторому случайно отобранному представлению <tex>O</tex>. Построение этой структуры можно ~~анализировать предпочтения людей касательно жанров искусства~~произвести различными методами машинного обучения. Сюда входят [[Логистическая регрессия|логистическая регрессия]], [[Байесовская классификация|наивная байесовская классификация]], ~~анализируя~~[[Глубокое обучение|глубокое обучение]].Предположим, ~~какую музыку они слушают~~что у нас имеется некоторая выборка данных из одного источника. В данной выборке для каждого объекта имеется лишь одно представление, ~~какие книги читают~~ достаточно полное для однозначной его идентификации. Также имеется выборка данных, относящихся к объектам совсем другого типа, но имеющих похожие атрибуты, её размер должен быть примерно таким же, как и у предыдущей, чтобы убедиться в том, что данные для обучения сбалансированы. Это необходимо, чтобы отметать неверные варианты при обучении. Опираясь на эти выборки, происходит обучение на остальных данных (различные источники данных), представленных в виде векторов , содержащих в себе имена различных атрибутов объекта и ~~какие фильмы смотрят~~значения этих атрибутов. На основе вероятностей, имен, типов атрибутов принимается решение, отнести их к объекту или нет. Таким образом, шаблон объекта обрастает новыми атрибутами, по которым его можно идентифицировать.

== Работа с комплексом Apache Spark для обучения на больших данных ==

George bakush

59

правок

Изменения

Обучение на больших данных

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты