Изменения

Перейти к: навигация, поиск

Обучение на больших данных

4300 байт добавлено, 16:09, 19 января 2021
Обработка разнородных данных в рамках одной системы
* '''Object template''' {{---}} шаблон некоторого объекта <tex>O</tex>. Каждый объект может иметь множество источников данных <tex>M_{ds}</tex>. Структуру объекта можно представить следующим образом: <tex>O=\langle ds_1, ds_2, \dots, ds_m \rangle</tex>.
Данная модель позволяет обрабатывать массивы данных различных по структуре за счёт их преобразования к нужному формату. В дальнейшем аналитическая модель, работающая с этими данными сможет делать более точные прогнозы и гипотезы, так как по каждому объекту будет значительно больше различной информации.
Чтобы реализовать такую модель хранения, необходимо выполнить следующие действия:
::1. '''Определение требуемой схемы данных:'''
::Наблюдаемые объекты описываются набором гетерогенных данных. Схема данных для хранения такого рода данных представлена в соответствии с форматом: <tex>sD=\langle gld, timestamp, (lat, lon), attrD \rangle</tex>, в котором:
::* <tex>gld</tex> {{---}} глобальный идентификатор объекта (уникален);
::* <tex>timestamp</tex> {{---}} его временная метка;
::* <tex>(lat, long)</tex> {{---}} координаты его местоположения на временной отметке;
::* <tex>attrD</tex> {{---}} словарь, описывающий функции объекта и его значения.
::2. '''Описание источников данных и настроек сборщиков данных:'''
::Высокоуровневое описание произвольных источников данных определяется форматом: <tex>sC=\langle sld, acs, (lat, lon), attrS \rangle</tex>, в котором:
::* <tex>sld</tex> {{---}} уникальный идентификатор источника данных;
::* <tex>acs</tex> {{---}} список значений ключа для источника данных;
::* <tex>attrS</tex> {{---}} внутренняя схема данных полученных от источника данных.
::3. '''Построение схем привязки данных:'''
::На этом этапе создается связь между исходной схемой источника данных и требуемой схемой. Эта ссылка представлена в виде набора <tex>R</tex>, содержащего пары атрибутов из набора <tex>attrD</tex> схемы <tex>sD</tex> и атрибутов из набора <tex>attrS</tex> в схеме <tex>sC</tex>:
:::<tex>R=\{r_{i,j}\}</tex>,
:::<tex>r_{i,j}=\langle attrD_i, attrS_j \rangle</tex>.
::Здесь также следует помнить, что:
:::<tex>\exists r_{lon}:\langle lon^{(sC)}, lon^{sD} \rangle</tex>
:::<tex>\exists r_{lat}:\langle lat^{(sC)}, lat^{sD} \rangle</tex>.
::4. '''Реализация алгоритмов преобразования данных:'''
::В соответствии с настройками привязки <tex>R</tex> и алгоритмами <tex>\{\alpha_k\}_{k=1}^{||R||}</tex> реализовано преобразование данных из исходной схемы в желаемую:
:::<tex>\forall r_{i,j} \in R</tex>,
:::<tex>\exists \alpha_{i,j}:v(attrD_i) \implies v^*(attrS_j)</tex>, где <tex>v</tex> {{---}} значение атрибута.
::5. '''Разделение данных:'''
::Схема <tex>DS</tex> для разделения потоков данных в микро-потоки:
:::<tex>DS_{\alpha_k}=\langle df, \alpha_k, \{mdf_l\}_{l=1}^{L_{\alpha_k}}</tex>
:: Здесь <tex>df</tex> {{---}} исходный поток данных, <tex>mdf_l</tex> {{---}} <tex>l</tex>-й l поток данных в памяти для определенного алгоритма <tex>\alpha_k</tex>, <tex>L_{\alpha_k}</tex> – количество потоков. Данные разбиваются на потоки данных, подлежащие обработке в распределенной архитектуре, в соответствии с предопределенными задачами.
::6. '''Вставка обработанных данных в базу данных:'''
::Когда данные преобразуются в соответствии с определенной схемой, они вставляются в базу данных. Это позволяет извлекать разнородные данные из базы данных без дополнительных манипуляций с данными.
Данная модель позволяет обрабатывать массивы данных различных по структуре за счёт их преобразования к нужному формату. В дальнейшем аналитическая модель, работающая с этими данными сможет делать более точные прогнозы и гипотезы, так как по каждому объекту будет значительно больше различной информации.
== Практическое применение Big Data ==
59
правок

Навигация