=== Применение методов машинного обучения для построения "озера" данных ===
Представленная выше модель хорошо описывает схему хранения разнородных данных путём создания некоторого шаблона, который мог бы описывать все эти данные. Построение такого шаблона может быть очень трудоёмкой задачей, так как данных много и их форматов тоже может быть много. Здесь Встаёт задача метапрофилирования данных. Этот процесс направлен на помощь структуризацию разносортных данных и приходит машинное обучениеразличных метаданных. [[Нейронные сетиБез этого большинство действий с данными будут попросту невозможны – будь то построение запросов для СУБД, перцептрон|Нейронные сети]]очистка данных, при правильном их использованииклассификация и кластеризация. Кроме того, могут помочь в построении такого шаблона, обучаясь на разнородных условиях больших данных. Такие сети были названы '''''метапрофилировочные нейронные сети''''' (англ. ''meta-profile neural network'')<ref>[https://arxiv.org/pdf/2008.12258.pdf Learning to Profile: User Meta-Profile Network for Few-Shot Learning] - Hao Gong, Qifang Zhaoв БД может быть огромное количество таблиц, Tianyu Li, Derek Cho, DuyKhuong Nguyen - Rakuten Institute of Technology, 2020</ref>чьи метаданные могут сильно различаться. В таких условиях получение полной информации даже по одному объекту будет практически невыполнимой задачей.
Нейронная сеть, которую необходимо построить, состоит из нескольких других нейронных сетей'''Мета-профайл''' (англ. Каждая из них обрабатывает свой формат ''metadata-profile'') - особая структура данных, следовательно выбор вида такой подсети стоит за разработчикомпризванная собрать воедино различную информацию о конкретном объекте <tex>O</tex>. В результате мы получаем некий новый объектСюда так же входят и различные представления этого объекта. Например, музыкальную композицию можно идентифицировать по-разному, признаки которого будут зависеть от обработанных данных. Он названия и автора до жанра и будет шаблоном объекта, который будет храниться в "озере" данных.года создания:
Так::<tex>MP=(Name, напримерProp)</tex>* <tex>Name</tex> {{---}} уникальное имя мета-профайла, <tex>Name \in Namespace</tex>, где <tex>Namespace</tex> {{---}} все возможные имена объекта;* <tex>Prop</tex> {{---}} множество атрибутов мета-профайла <tex>\{p_1, \dots, p_n\} | \forall p_i \in Prop: i=\{1, \dots, n\}</tex>. <tex>p_i=(PName_i, PType_i, P_i, PF_i)</tex>:** <tex>PName_i</tex> {{---}} уникальное имя атрибута, <tex>PName_i \in PNamespace</tex>, где <tex>PNamespace</tex> {{---}} все возможные имена атрибутов;** <tex>PType_i</tex> {{---}} простой тип данных, <tex>PType_i \in Plaintypes</tex>, где <tex>Plaintypes</tex> {{---}} все возможные типы данных. Важно, что типы являются простыми, то есть числами, символами или строками;** <tex>P_i : 0 < P_i < 1</tex> {{---}} вероятность принадлежности атрибута <tex>p_i</tex> некоторому случайно отобранному представлению <tex>O</tex>. Построение этой структуры можно анализировать предпочтения людей касательно жанров искусствапроизвести различными методами машинного обучения. Сюда входят [[Логистическая регрессия|логистическая регрессия]], [[Байесовская классификация|наивная байесовская классификация]], анализируя[[Глубокое обучение|глубокое обучение]].Предположим, какую музыку они слушаютчто у нас имеется некоторая выборка данных из одного источника. В данной выборке для каждого объекта имеется лишь одно представление, какие книги читают достаточно полное для однозначной его идентификации. Также имеется выборка данных, относящихся к объектам совсем другого типа, но имеющих похожие атрибуты, её размер должен быть примерно таким же, как и у предыдущей, чтобы убедиться в том, что данные для обучения сбалансированы. Это необходимо, чтобы отметать неверные варианты при обучении. Опираясь на эти выборки, происходит обучение на остальных данных (различные источники данных), представленных в виде векторов , содержащих в себе имена различных атрибутов объекта и какие фильмы смотрятзначения этих атрибутов. На основе вероятностей, имен, типов атрибутов принимается решение, отнести их к объекту или нет. Таким образом, шаблон объекта обрастает новыми атрибутами, по которым его можно идентифицировать.
== Работа с комплексом Apache Spark для обучения на больших данных ==