Изменения

Перейти к: навигация, поиск

Обучение на больших данных

2749 байт добавлено, 12:26, 20 января 2021
Обработка разнородных данных в рамках одной системы
::* <tex>gld</tex> {{---}} глобальный идентификатор объекта (уникален);
::* <tex>timestamp</tex> {{---}} его временная метка;
::* <tex>(lat, longlon)</tex> {{---}} координаты его местоположения на временной отметке;
::* <tex>attrD</tex> {{---}} словарь, описывающий функции объекта и его значения.
::2. '''Описание источников данных и настроек сборщиков данных:'''
Данная модель позволяет обрабатывать массивы данных различных по структуре за счёт их преобразования к нужному формату. В дальнейшем аналитическая модель, работающая с этими данными сможет делать более точные прогнозы и гипотезы, так как по каждому объекту будет значительно больше различной информации.
 
=== Применение методов машинного обучения для построения "озера" данных ===
 
Представленная выше модель хорошо описывает схему хранения разнородных данных путём создания некоторого шаблона, который мог бы описывать все эти данные. Построение такого шаблона может быть очень трудоёмкой задачей, так как данных много и их форматов тоже может быть много. Здесь на помощь и приходит машинное обучение. Нейронные сети, при правильном их использовании, могут помочь в построении такого шаблона, обучаясь на разнородных данных. Такие сети были названы '''''метапрофилировочные нейронные сети''''' (англ. ''meta-profile neural network'')<ref name="mnn">Learning to Profile: User Meta-Profile Network
for Few-Shot Learning - Hao Gong, Qifang Zhao, Tianyu Li, Derek Cho, DuyKhuong Nguyen - Rakuten Institute of Technology, 2020
</ref>.
 
Предположим, что у нас есть некоторые данные о пользователях большой сервисной системы мирового масштаба. О каждом из пользователей постоянно собираются самые разные данные, на основе которых в будущем им будут выдаваться рекомендации и предложения.
Нейронная сеть, которую необходимо построить, состоит из нескольких других нейронных сетей. Каждая из них обрабатывает свой формат данных, следовательно выбор вида сети стоит за разработчиком. В результате мы получаем некий новый объект, признаки которого будут зависеть от обработанных данных. Он и будет шаблоном объекта, который будет храниться в "озере" данных.
 
Так, например, можно анализировать предпочтения людей касательно жанров искусства, анализируя, какую музыку они слушают, какие книги читают и какие фильмы смотрят.
== Работа с комплексом Apache Spark для обучения на больших данных ==
59
правок

Навигация