Изменения

Перейти к: навигация, поиск

Обучение на больших данных

251 байт добавлено, 15:13, 21 января 2021
Обработка разнородных данных в рамках одной системы
При работе с большими данными часто возникает ситуация, когда одна и та же модель должна уметь обрабатывать данные различного формата. Это позволяет строить аналитические модели точнее и получать более достоверную информацию о данных в дальнейшем. Также отметим, что в данной ситуации данные берутся из множества '''различных''' источников, которые и определяют формат получаемых данных.
Рассмотрим модель распределенного хранения разнородных данных в концепции '''''«озеро данных»'''''<ref name="datalake">[https://en.wikipedia.org/wiki/Data_lake Озеро данных]</ref>.
::<tex>S=\langle\{DT\}_{i=1}^{n_{st}},\{SS\}_{j=1}^{m_{ss}},\{E\}_{k=1}^{p_e},IS,DS\rangle</tex>:
Данная модель позволяет хранить как сырые разнородные данные, так и структурированные данные в соответствии с предопределенной схемой. Такой результат достигается наличием шаблонов объектов и шаблонов параметров объектов. Также это позволяет снизить временные затраты на доступ к данным.
[[Файл:Schema.PNG|700px|thumb|right|Рисунок 1: Модель хранения разнородных данных<ref name="datalake_pic">[http://www.vstu.ru/upload/iblock/ed2/ed26c52e2ff99fb5b39fbaf37717a96c.pdf Модель хранения разнородных данных - схема озера данных]</ref>]]
=== Схема модели хранения разнородных данных ===
59
правок

Навигация