59
правок
Изменения
→Применение методов машинного обучения для построения "озера" данных
=== Применение методов машинного обучения для построения "озера" данных ===
Представленная выше модель хорошо описывает схему хранения разнородных данных путём создания некоторого шаблона, который мог бы описывать все эти данные. Построение такого шаблона может быть очень трудоёмкой задачей, так как данных много и их форматов тоже может быть много. Встаёт задача '''''метапрофилирования ''''' данных. Этот процесс направлен на структуризацию разносортных данных и различных метаданных. Без этого большинство действий с данными будут попросту невозможны – будь то построение запросов для СУБД, очистка данных, их классификация и кластеризация. Кроме того, в условиях больших данных, в БД может быть огромное количество таблиц, чьи метаданные могут сильно различаться. В таких условиях получение полной информации даже по одному объекту будет практически невыполнимой задачей.
'''Мета-профайл''' (англ. ''metadata-profile'') - особая структура данных, призванная собрать воедино различную информацию о конкретном объекте <tex>O</tex>. Сюда так же входят и различные представления этого объекта. Например, музыкальную композицию можно идентифицировать по-разному, от названия и автора до жанра и года создания: