Изменения

Перейти к: навигация, поиск

Обучение на больших данных

2353 байта добавлено, 10:05, 19 января 2021
Обработка разнородных данных в рамках одной системы
== Обработка разнородных данных в рамках одной системы ==
При работе с большими данными часто возникает ситуация, когда одна и та же модель должна уметь обрабатывать данные различного формата. Это позволяет строить более точные аналитические модели и получать более достоверную информацию о данных в дальнейшем. Также отметим, что в данной ситуации данные берутся из множества '''различных''' источников, которые и определяют формат получаемых данных.
Рассмотрим модель распределенного хранения разнородных данных в концепции '''''«озеро данных»'''''.
<tex>S=\langle\{DT\}_{i=1}^{n_{st}},\{SS\}_{j=1}^{m_{ss}},\{E\}_{k=1}^{p_e},IS,DS\rangle</tex> * <tex>\{DT\}_{i=1}^{n_{st}}</tex> {{---}} множество шаблонов данных;* <tex>\{SS\}_{j=1}^{m_{ss}}</tex> {{---}} методы разбиения разнородных данных;* <tex>\{E\}_{k=1}^{p_e}</tex> {{---}} множество исполнителей задач сбора данных;* <tex>n_{st}</tex> {{---}} – количество шаблонов данных;* <tex>m_{ss}</tex> {{---}} количество типов данных;* <tex>IS</tex> {{---}} метод индексирования данных в хранилище озера данных;* <tex>DS</tex> {{---}} – структура озера разнородных данных. Данная модель позволяет хранить как сырые разнородные данные, так и структурированные данные в соответствии с предопределенной схемой. Такой результат достигается наличием шаблонов объектов и шаблонов параметров объектов. Также это позволяет снизить временные затраты на доступ к данным. Рассмотрим схему модели: * '''Object template''' {{---}} шаблон некоторого объекта <tex>O</tex>. Каждый объект может иметь множество источников данных <tex>M_{ds}</tex>. Структуру объекта можно представить следующим образом:<tex>O=\langle ds_1, ds_2, \dots, ds_m \rangle</tex> * '''Data source template''' {{---}} шаблон источника данных. Каждый источник данных может иметь множество параметров с различными типами данных <tex>M_p</tex>. Структуру источника данных можно представить следующим образом:<tex>ds=\langle p_1, p_2, \dots, p_k \rangle</tex>
== Практическое применение Big Data ==
Анонимный участник

Навигация