Изменения

Обучение на больших данных

4300 байт добавлено, 16:09, 19 января 2021

→‎Обработка разнородных данных в рамках одной системы

* '''Object template''' {{---}} шаблон некоторого объекта <tex>O</tex>. Каждый объект может иметь множество источников данных <tex>M_{ds}</tex>. Структуру объекта можно представить следующим образом: <tex>O=\langle ds_1, ds_2, \dots, ds_m \rangle</tex>.

Данная модель позволяет обрабатывать массивы данных различных по структуре за счёт их преобразования к нужному формату. В дальнейшем аналитическая модель, работающая с этими данными сможет делать более точные прогнозы и гипотезы, так как по каждому объекту будет значительно больше различной информации.

Чтобы реализовать такую модель хранения, необходимо выполнить следующие действия:

::1. '''Определение требуемой схемы данных:'''

::Наблюдаемые объекты описываются набором гетерогенных данных. Схема данных для хранения такого рода данных представлена в соответствии с форматом: <tex>sD=\langle gld, timestamp, (lat, lon), attrD \rangle</tex>, в котором:

::* <tex>gld</tex> {{---}} глобальный идентификатор объекта (уникален);

::* <tex>timestamp</tex> {{---}} его временная метка;

::* <tex>(lat, long)</tex> {{---}} координаты его местоположения на временной отметке;

::* <tex>attrD</tex> {{---}} словарь, описывающий функции объекта и его значения.

::2. '''Описание источников данных и настроек сборщиков данных:'''

::Высокоуровневое описание произвольных источников данных определяется форматом: <tex>sC=\langle sld, acs, (lat, lon), attrS \rangle</tex>, в котором:

::* <tex>sld</tex> {{---}} уникальный идентификатор источника данных;

::* <tex>acs</tex> {{---}} список значений ключа для источника данных;

::* <tex>attrS</tex> {{---}} внутренняя схема данных полученных от источника данных.

::3. '''Построение схем привязки данных:'''

::На этом этапе создается связь между исходной схемой источника данных и требуемой схемой. Эта ссылка представлена в виде набора <tex>R</tex>, содержащего пары атрибутов из набора <tex>attrD</tex> схемы <tex>sD</tex> и атрибутов из набора <tex>attrS</tex> в схеме <tex>sC</tex>:

:::<tex>R=\{r_{i,j}\}</tex>,

:::<tex>r_{i,j}=\langle attrD_i, attrS_j \rangle</tex>.

::Здесь также следует помнить, что:

:::<tex>\exists r_{lon}:\langle lon^{(sC)}, lon^{sD} \rangle</tex>

:::<tex>\exists r_{lat}:\langle lat^{(sC)}, lat^{sD} \rangle</tex>.

::4. '''Реализация алгоритмов преобразования данных:'''

::В соответствии с настройками привязки <tex>R</tex> и алгоритмами <tex>\{\alpha_k\}_{k=1}^{||R||}</tex> реализовано преобразование данных из исходной схемы в желаемую:

:::<tex>\forall r_{i,j} \in R</tex>,

:::<tex>\exists \alpha_{i,j}:v(attrD_i) \implies v^*(attrS_j)</tex>, где <tex>v</tex> {{---}} значение атрибута.

::5. '''Разделение данных:'''

::Схема <tex>DS</tex> для разделения потоков данных в микро-потоки:

:::<tex>DS_{\alpha_k}=\langle df, \alpha_k, \{mdf_l\}_{l=1}^{L_{\alpha_k}}</tex>

:: Здесь <tex>df</tex> {{---}} исходный поток данных, <tex>mdf_l</tex> {{---}} <tex>l</tex>-й l поток данных в памяти для определенного алгоритма <tex>\alpha_k</tex>, <tex>L_{\alpha_k}</tex> – количество потоков. Данные разбиваются на потоки данных, подлежащие обработке в распределенной архитектуре, в соответствии с предопределенными задачами.

::6. '''Вставка обработанных данных в базу данных:'''

::Когда данные преобразуются в соответствии с определенной схемой, они вставляются в базу данных. Это позволяет извлекать разнородные данные из базы данных без дополнительных манипуляций с данными.

Данная модель позволяет обрабатывать массивы данных различных по структуре за счёт их преобразования к нужному формату. В дальнейшем аналитическая модель, работающая с этими данными сможет делать более точные прогнозы и гипотезы, так как по каждому объекту будет значительно больше различной информации.

== Практическое применение Big Data ==

George bakush

59

правок

Изменения

Обучение на больших данных

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты