Редактирование: Обучение на больших данных

Перейти к: навигация, поиск

Внимание! Вы не авторизовались на сайте. Ваш IP-адрес будет публично видимым, если вы будете вносить любые правки. Если вы войдёте или создадите учётную запись, правки вместо этого будут связаны с вашим именем пользователя, а также у вас появятся другие преимущества.

Правка может быть отменена. Пожалуйста, просмотрите сравнение версий, чтобы убедиться, что это именно те изменения, которые вас интересуют, и нажмите «Записать страницу», чтобы изменения вступили в силу.
Текущая версия Ваш текст
Строка 1: Строка 1:
'''Обучение на больших данных''' {{---}} раздел машинного обучения, специализирующийся на построении моделей, обрабатывающих большие объёмы данных. Также встречаются термины "big data" или "большие данные".
+
{{В разработке}}
 +
 
 +
'''Обучение на больших данных''' {{---}} раздел машинного обучения, специализирующийся на построении моделей, обрабатывающих большие объёмы данных, т. н. "big data" или "большие данные".
  
 
== Понятие больших данных ==
 
== Понятие больших данных ==
Строка 22: Строка 24:
  
 
=== Порядок работы с большими данными ===
 
=== Порядок работы с большими данными ===
Чтобы эффективно обрабатывать и анализировать большие данные, существуют такие инструменты как "аналитические модели"<ref name="analiticsmodels">[https://ru.wikipedia.org/wiki/%D0%9C%D0%B0%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C Математические модели в форме аналитических моделей]</ref>. Их решения ищутся в замкнутом виде, в виде функциональных зависимостей. Такие модели способны строить гипотезы на основе больших данных, искать в них зависимости и закономерности {{---}} всю самую полезную для большинства бизнес-задач информацию. Кроме того, важна хорошая [[Интерпретируемые модели|интерпретируемость]] построенной модели, так как это позволяет упростить её анализ без повторного её построения, что при работе с большими данными крайне важно. Для этого большие данные проходят через несколько этапов:
+
Чтобы эффективно обрабатывать и анализировать большие данные, существуют такие инструменты как "аналитические модели"<ref name="analiticsmodels">[https://ru.wikipedia.org/wiki/%D0%9C%D0%B0%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C Математические модели в форме аналитических моделей]</ref>. Их решения ищутся в замкнутом виде, в виде функциональных зависимостей. Такие модели способны строить гипотезы на основе больших данных, искать в них зависимости и закономерности всю самую полезную для большинства бизнес-задач информацию. Кроме того, важна хорошая [[Интерпретируемые модели|интерпретируемость]] построенной модели, так как это позволяет упростить её анализ без повторного её построения, что в условиях больших данных крайне важно. Для этого большие данные проходят через несколько этапов:
  
1. [[Автоматическое машинное обучение|Чистка данных]] (англ. data cleaning) {{---}} поиск и исправление ошибок в первичном наборе информации, например, ошибки ручного ввода (опечатки) или некорректные значения с измерительных приборов из-за кратковременных сбоев;
+
1. [[Автоматическое машинное обучение|Чистка данных]] (англ. data cleaning) поиск и исправление ошибок в первичном наборе информации, например, ошибки ручного ввода (опечатки), некорректные значения с измерительных приборов из-за кратковременных сбоев и т.д.;
  
2. [[Уменьшение размерности|Работа с признаками]] (англ. feature engineering) {{---}} генерация переменных для построения аналитических моделей;
+
2. [[Уменьшение размерности|Работа с признаками]] (англ. feature engineering) генерация переменных для построения аналитических моделей;
  
3. [[Модель алгоритма и её выбор|Построение]] и обучение аналитической модели (англ. model selection) для предсказания целевой (таргетной) переменной. Так проверяются гипотезы о зависимости таргетной переменной от предикторов.
+
3. [[Модель алгоритма и её выбор|Построение]] и обучение аналитической модели (англ. model selection) для предсказания целевой (таргетной) переменной. Так проверяются гипотезы о зависимости таргетной переменной от предикторов;
  
 
На практике это помогает решить множество задач. Например, проанализировать, как связаны отказы оборудования с условиями подачи напряжения, или определить вероятность своевременного возврата кредита частным заемщиком.
 
На практике это помогает решить множество задач. Например, проанализировать, как связаны отказы оборудования с условиями подачи напряжения, или определить вероятность своевременного возврата кредита частным заемщиком.
Строка 35: Строка 37:
 
К основным методам сбора и анализа больших данных относят следующие:
 
К основным методам сбора и анализа больших данных относят следующие:
 
* глубинный анализ или "добыча" данных (англ. data mining<ref name="datamining">[https://ru.wikipedia.org/wiki/Data_mining Data Mining]</ref>) – обучение ассоциативным правилам, классификация, кластерный и регрессионный анализ;
 
* глубинный анализ или "добыча" данных (англ. data mining<ref name="datamining">[https://ru.wikipedia.org/wiki/Data_mining Data Mining]</ref>) – обучение ассоциативным правилам, классификация, кластерный и регрессионный анализ;
* краудсорсинг — категоризация и обогащение данных с добровольной помощью сторонних лиц;
+
* краудсорсинг — категоризация и обогащение данных народными силами, т.е. с добровольной помощью сторонних лиц;
 
* смешение и интеграция разнородных данных, таких как, цифровая обработка сигналов и обработка естественного языка;
 
* смешение и интеграция разнородных данных, таких как, цифровая обработка сигналов и обработка естественного языка;
 
* машинное обучение, включая искусственные нейронные сети, сетевой анализ, методы оптимизации и генетические алгоритмы;
 
* машинное обучение, включая искусственные нейронные сети, сетевой анализ, методы оптимизации и генетические алгоритмы;
Строка 54: Строка 56:
 
* Возникает проблема разнородности данных. Необходимо уметь обрабатывать данные различных форматов в рамках одной системы. Например, описания книг, фильмов и музыки;
 
* Возникает проблема разнородности данных. Необходимо уметь обрабатывать данные различных форматов в рамках одной системы. Например, описания книг, фильмов и музыки;
  
Также стоит отметить, что в связи с большой популярностью "больших данных", эта сфера очень быстро развивается, постоянно появляются всё новые технологии и инструменты для работы. Для развивающегося бизнеса внедрение систем по работе с большими данными приводит к дополнительным материальным затратам. А  от специалистов в этой сфере требуется быстро овладевать новыми навыками, что также может вызвать затруднения.
+
Также стоит отметить, что в связи с большой популярностью "больших данных", эта сфера очень быстро развивается, постоянно появляются всё новые технологии и инструменты для работы. Для бизнеса это приводит к дополнительным материальным затратам, т. к. крайне важно "идти в ногу со временем". Для специалистов по "большим данным" это так же приводит к дополнительным трудностям, т. к. необходимо крайне быстро овладевать этими новыми технологиями.
 
 
=== Применение машинного обучения к большим данным. Поиск в больших данных ===
 
При работе с большими данными иногда возникает ситуация, когда пользователю нужно найти какие-то конкретные данные. Возникает задача эффективного поиска информации в больших данных. В силу большого объёма всех данных большинство известных методов поиска будут работать неэффективно. Например, '''''поиск перебором'''''<ref ="bruteforcesearch">[https://en.wikipedia.org/wiki/Brute-force_search#:~:text=In%20computer%20science%2C%20brute%2Dforce,candidate%20satisfies%20the%20problem's%20statement. Поиск перебором]</ref> (англ. ''exhaustive search'') {{---}} широко распространенный алгоритм не подходит для больших данных вследствие плохой оптимизации по времени исполнения и используемому месту. Также '''не подходят''' алгоритмы '''''поиска с ориентиром (индексирование)''''' (англ. ''beacon guided searching, BGS'') и [[Метрический классификатор и метод ближайших соседей|'''''метод "ближайших соседей"''''']] (англ. ''nearest neighbour search''). В случае первого на больших данных хранение индексов этих данных становится проблемой, так как данных слишком много, а в случае со вторым алгоритмом будут сильно мешать различные шумы и отклонения, коих в больших данных зачастую очень много.
 
 
 
Здесь на помощь приходят [https://ru.wikipedia.org/wiki/%D0%93%D0%B5%D0%BD%D0%B5%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%B0%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC генетические алгоритмы]. Процедура поиска в больших данных производится довольно часто, следовательно такие алгоритмы довольно быстро приспособятся к поиску наиболее часто используемых данных. Также к плюсам генетических алгоритмов можно отнести возможность кастомизации и устойчивость к шумам, а также хорошую масштабируемость для задач с более высокой размерностью. Всё это как раз то, что нужно в случае больших данных.
 
  
Кроме того, при поиске в больших данных может помочь [[Кластеризация|кластеризация]] этих данных. Таким образом они будут разбиты на группы "похожести", когда данные в каждой группе обладают сходными признаками, по которым можно существенно снизить круг дальнейшего поиска, что существенно ускоряет процесс поиска.
+
=== Применение машинного обучения к большим данным ===
 
+
В условиях больших данных иногда возникает ситуация, когда пользователю нужно найти какие-то конкретные данные. Встаёт задача информационного поиска<ref name="infosearch">[https://ru.wikipedia.org/wiki/%D0%98%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA Информационный поиск]</ref>. В силу большого объёма всех данных будет неэффективно перебирать их все в поисках того, что нужно. В данном случае можно применить алгоритмы машинного обучения, которые занимаются классификацией данных и их [[Ранжирование|ранжированием]].
С той же целью может применятся и оценка '''''важности признака при перестановке'''''<ref name="pfi">[https://docs.microsoft.com/ru-ru/dotnet/machine-learning/how-to-guides/explain-machine-learning-model-permutation-feature-importance-ml-net#train-the-model Permutation Feature Importance]</ref> (англ. ''permutation feature importance, PFI''). Этот приём позволяет выделить наиболее значимые признаки объектов. Заключается он в том, что после первоначального обучения некоторой модели происходит случайная перестановка значений признаков у объектов. За итерацию берётся некоторый признак, который есть у всех объектов, и происходит случайная перестановка значений этого признака между объектами. При этом оставшиеся признаки не изменяются. Далее происходит повторный запуск модели и производится расчёт отклонений её результатов от первичных. Такая процедура выполняется для всех признаков, чтобы можно было выделить наиболее значимые. Это может существенно помочь в задаче поиска, когда можно снизить количество рассматриваемых признаков, принимая во внимание только наиболее значимые.
+
Поиск в размеченных и отсортированных данных происходит значительно быстрее. А в условиях больших данных это очень важно. Например, любая поисковая система при любом запросе должна давать результат за одно и то же время, однако объём тех данных, которые ей приходится проанализировать огромен, поэтому эффективный поиск в больших данных {{---}} очень важная задача, а машинное обучение сильно помогает в её решении.
Например, существует некоторый набор данных, содержащий информацию о продаваемой недвижимости. Каждый объект недвижимости имеет множество признаков: местоположение относительно объектов инфраструктуры, уровень благополучия данного района города, и многие другие. В этом случае при помощи приёма PFI можно рассчитать, какие из этих признаков имеют большее влияние на цену объекта недвижимости.
 
  
 
== Обработка разнородных данных в рамках одной системы ==
 
== Обработка разнородных данных в рамках одной системы ==
Строка 84: Строка 80:
  
 
Данная модель позволяет хранить как сырые разнородные данные, так и структурированные данные в соответствии с предопределенной схемой. Такой результат достигается наличием шаблонов объектов и шаблонов параметров объектов. Также это позволяет снизить временные затраты на доступ к данным.
 
Данная модель позволяет хранить как сырые разнородные данные, так и структурированные данные в соответствии с предопределенной схемой. Такой результат достигается наличием шаблонов объектов и шаблонов параметров объектов. Также это позволяет снизить временные затраты на доступ к данным.
 +
 +
[[Файл:Schema.PNG|700px|thumb|right|Рисунок 1: Модель хранения разнородных данных<ref name="datalake_pic">[http://www.vstu.ru/upload/iblock/ed2/ed26c52e2ff99fb5b39fbaf37717a96c.pdf Модель хранения разнородных данных - схема озера данных]</ref>]]
  
 
=== Схема модели хранения разнородных данных ===
 
=== Схема модели хранения разнородных данных ===
  
[[Файл:Schema.PNG|700px|thumb|right|Рисунок 1: Модель хранения разнородных данных<ref name="datalake_pic">[http://www.vstu.ru/upload/iblock/ed2/ed26c52e2ff99fb5b39fbaf37717a96c.pdf Модель хранения разнородных данных - схема озера данных]</ref>]]
+
Рассмотрим схему модели, изображённую на рисунке 1:
 +
 
 +
* '''Parameter template''' {{---}} шаблон параметра, хранимого в источнике данных.
  
Рассмотрим схему модели, изображённую на рисунке 1:
+
* '''Data source template''' {{---}} шаблон источника данных. Каждый источник данных может иметь множество параметров с различными типами данных <tex>M_p</tex>. Структуру источника данных можно представить следующим образом: <tex>ds=\langle p_1, p_2, \dots, p_k \rangle</tex>.
  
 
* '''Object template''' {{---}} шаблон некоторого объекта <tex>O</tex>. Каждый объект может иметь множество источников данных <tex>M_{ds}</tex>. Структуру объекта можно представить следующим образом: <tex>O=\langle ds_1, ds_2, \dots, ds_m \rangle</tex>.
 
* '''Object template''' {{---}} шаблон некоторого объекта <tex>O</tex>. Каждый объект может иметь множество источников данных <tex>M_{ds}</tex>. Структуру объекта можно представить следующим образом: <tex>O=\langle ds_1, ds_2, \dots, ds_m \rangle</tex>.
  
* '''Data source template''' {{---}} шаблон источника данных. Каждый источник данных может иметь множество параметров с различными типами данных <tex>M_p</tex>. Структуру источника данных можно представить следующим образом: <tex>ds=\langle p_1, p_2, \dots, p_k \rangle</tex>;
 
 
* '''Parameter template''' {{---}} шаблон параметра, хранимого в источнике данных;
 
  
 
Чтобы реализовать такую модель хранения, необходимо выполнить следующие действия:
 
Чтобы реализовать такую модель хранения, необходимо выполнить следующие действия:
Строка 132: Строка 129:
 
=== Применение методов машинного обучения для построения "озера" данных ===
 
=== Применение методов машинного обучения для построения "озера" данных ===
  
Представленная выше модель хорошо описывает схему хранения разнородных данных путём создания некоторого шаблона, который мог бы описывать все эти данные. Построение такого шаблона может быть очень трудоёмкой задачей, так как данных много и их форматов тоже может быть много. Возникает задача '''''метапрофилирования''''' данных. Этот процесс направлен на структуризацию разносортных данных и различных метаданных. Без этого большинство действий с данными будут попросту невозможны – будь то построение запросов для СУБД, очистка данных, их классификация и кластеризация. Кроме того, когда объёмы данных слишком велики, в БД может быть огромное количество таблиц, чьи метаданные могут сильно различаться. В таких условиях получение полной информации даже по одному объекту будет практически невыполнимой задачей.
+
Представленная выше модель хорошо описывает схему хранения разнородных данных путём создания некоторого шаблона, который мог бы описывать все эти данные. Построение такого шаблона может быть очень трудоёмкой задачей, так как данных много и их форматов тоже может быть много. Здесь на помощь и приходит машинное обучение. [[Нейронные сети, перцептрон|Нейронные сети]], при правильном их использовании, могут помочь в построении такого шаблона, обучаясь на разнородных данных. Такие сети были названы '''''метапрофилировочные нейронные сети''''' (англ. ''meta-profile neural network'')<ref>[https://arxiv.org/pdf/2008.12258.pdf Learning to Profile: User Meta-Profile Network for Few-Shot Learning] - Hao Gong, Qifang Zhao, Tianyu Li, Derek Cho, DuyKhuong Nguyen - Rakuten Institute of Technology, 2020</ref>.
 
 
'''Мета-профайл''' (англ. ''metadata-profile'') {{---}} особая структура данных, призванная собрать воедино различную информацию о конкретном объекте <tex>O</tex>. Сюда так же входят и различные представления этого объекта. Например, музыкальную композицию можно идентифицировать по-разному, от названия и автора до жанра и года создания:
 
 
 
::<tex>MP=(Name, Prop)</tex>
 
* <tex>Name</tex> {{---}} уникальное имя мета-профайла, <tex>Name \in Namespace</tex>, где <tex>Namespace</tex> {{---}} все возможные имена объектов;
 
* <tex>Prop</tex> {{---}} множество атрибутов мета-профайла <tex>\{p_1, \dots, p_n\} | \forall p_i \in Prop: i=\{1, \dots, n\}</tex>. <tex>p_i=(PName_i, PType_i, P_i)</tex>:
 
** <tex>PName_i</tex> {{---}} уникальное имя атрибута, <tex>PName_i \in PNamespace</tex>, где <tex>PNamespace</tex> {{---}} все возможные имена атрибутов.
 
** <tex>PType_i</tex> {{---}} простой тип данных, <tex>PType_i \in Plaintypes</tex>, где <tex>Plaintypes</tex> {{---}} все возможные типы данных. Важно, что типы являются простыми, то есть числами, символами или строками.
 
** <tex>P_i : 0 < P_i < 1</tex> {{---}} вероятность принадлежности атрибута <tex>p_i</tex> некоторому случайно отобранному представлению <tex>O</tex>.
 
  
Построение этой структуры можно произвести различными методами машинного обучения. Сюда входят [[Логистическая регрессия|логистическая регрессия]], [[Байесовская классификация|наивная байесовская классификация]], [[Глубокое обучение|глубокое обучение]]. Фактически, здесь стоит задача классификации, в которой мы должны понять, какие атрибуты относятся к описываемому объекту, а какие нет.  
+
Нейронная сеть, которую необходимо построить, состоит из нескольких других нейронных сетей. Каждая из них обрабатывает свой формат данных, следовательно выбор вида такой подсети стоит за разработчиком. В результате мы получаем некий новый объект, признаки которого будут зависеть от обработанных данных. Он и будет шаблоном объекта, который будет храниться в "озере" данных.
  
Предположим, что у нас имеется некоторая выборка данных из одного источника. В данной выборке для каждого объекта имеется лишь одно представление, достаточно полное для однозначной его идентификации. Также имеется выборка данных, относящихся к объектам совсем другого типа, но имеющих похожие атрибуты, её размер должен быть примерно таким же, как и у предыдущей, чтобы убедиться в том, что данные для обучения сбалансированы. Это необходимо, чтобы отметать неверные варианты при обучении. Опираясь на эти выборки, происходит обучение на остальных данных (различные источники данных), представленных в виде векторов, содержащих в себе имена различных атрибутов объекта и значения этих атрибутов. На основе вероятностей, имен, типов атрибутов принимается решение, отнести их к объекту или нет. Таким образом, шаблон объекта обрастает новыми атрибутами, по которым его можно идентифицировать.
+
Так, например, можно анализировать предпочтения людей касательно жанров искусства, анализируя, какую музыку они слушают, какие книги читают и какие фильмы смотрят.
  
 
== Работа с комплексом Apache Spark для обучения на больших данных ==
 
== Работа с комплексом Apache Spark для обучения на больших данных ==
Строка 158: Строка 146:
 
Но при всех достоинствах данного инструмента, наблюдалась низкая производительность на итеративных алгоритмах (например, алгоритмы машинного обучения). Решение проблемы было найдено в университете Беркли: была разработана модель распределенных вычислений, которая имеет устойчивость к сбоям при пользовании распределенной коллекцией данных (англ. resilient distributed dataset, RDD).
 
Но при всех достоинствах данного инструмента, наблюдалась низкая производительность на итеративных алгоритмах (например, алгоритмы машинного обучения). Решение проблемы было найдено в университете Беркли: была разработана модель распределенных вычислений, которая имеет устойчивость к сбоям при пользовании распределенной коллекцией данных (англ. resilient distributed dataset, RDD).
 
На основе RDD по сей день развивается система [https://spark.apache.org/ Apache Spark], которая обладает сравнительно высокой эффективностью при работе итеративных алгоритмов за счет кэширования результатов в памяти. На основе концепции распределенных коллекций разрабатываются распределенные системы:
 
На основе RDD по сей день развивается система [https://spark.apache.org/ Apache Spark], которая обладает сравнительно высокой эффективностью при работе итеративных алгоритмов за счет кэширования результатов в памяти. На основе концепции распределенных коллекций разрабатываются распределенные системы:
* [https://spark.apache.org/docs/1.0.0/sql-programming-guide.html Shark] {{---}} хранилище данных;
+
* [https://spark.apache.org/docs/1.0.0/sql-programming-guide.html Shark] хранилище данных;
* [https://spark.apache.org/docs/latest/graphx-programming-guide.html GraphX] {{---}} система обработки графовых данных;
+
* [https://spark.apache.org/docs/latest/graphx-programming-guide.html GraphX] система обработки графовых данных;
* [https://spark.apache.org/docs/latest/streaming-programming-guide.html Spark Streaming] {{---}} система обработки потоковых данных;
+
* [https://spark.apache.org/docs/latest/streaming-programming-guide.html Spark Streaming] система обработки потоковых данных;
* [https://spark.apache.org/docs/latest/ml-guide.html Spark MLlib] {{---}} библиотека алгоритмов машинного обучения.
+
* [https://spark.apache.org/docs/latest/ml-guide.html Spark MLlib] библиотека алгоритмов машинного обучения.
 
Все из перечисленных систем совместимы со стеком технологий Hadoop.
 
Все из перечисленных систем совместимы со стеком технологий Hadoop.
MLlib {{---}} основная библиотека Spark. Она предоставляет множество служебных программ, полезных для задач машинного обучения:
+
MLlib основная библиотека Spark. Она предоставляет множество служебных программ, полезных для задач машинного обучения:
 
* классификация;
 
* классификация;
 
* регрессия;
 
* регрессия;
Строка 328: Строка 316:
  
 
== Источники информации  ==
 
== Источники информации  ==
 +
* [https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B8%D0%B5_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5 Wikipedia {{---}} Большие данные]
 
* [https://habr.com/ru/company/habr_career/blog/456746/ Блог компании Хабр Карьера {{---}} Большие данные — большая ответственность, большой стресс и большие деньги]
 
* [https://habr.com/ru/company/habr_career/blog/456746/ Блог компании Хабр Карьера {{---}} Большие данные — большая ответственность, большой стресс и большие деньги]
 
* [https://habr.com/ru/company/productstar/blog/503580/ Блог компании ProductStar {{---}} Что такое «Big Data»?]
 
* [https://habr.com/ru/company/productstar/blog/503580/ Блог компании ProductStar {{---}} Что такое «Big Data»?]
 
* [https://databricks.com/spark/about О системе Apache Spark]
 
* [https://databricks.com/spark/about О системе Apache Spark]
 
* [https://docs.microsoft.com/ru-ru/azure/hdinsight/spark/apache-spark-creating-ml-pipelines Документация от Microsoft {{---}} Создание конвейера машинного обучения Apache Spark]
 
* [https://docs.microsoft.com/ru-ru/azure/hdinsight/spark/apache-spark-creating-ml-pipelines Документация от Microsoft {{---}} Создание конвейера машинного обучения Apache Spark]
* [https://www.researchgate.net/publication/322994594_A_survey_of_different_search_techniques_for_big_data A survey of different search techniques for big data] {{---}} 4th International Conference on Innovations in Information, Embedded and Communication Systems, 2017;
+
* [http://www.vstu.ru/upload/iblock/ed2/ed26c52e2ff99fb5b39fbaf37717a96c.pdf Методы обработки разнородных данных в проактивных системах управления транспортной инфраструктурой] {{---}} Чан Ван Фу, 2019г.
* [http://www.vstu.ru/upload/iblock/ed2/ed26c52e2ff99fb5b39fbaf37717a96c.pdf Методы обработки разнородных данных в проактивных системах управления транспортной инфраструктурой] {{---}} Чан Ван Фу, Волгоградский государственный технический университет, 2019г;
 
* [https://www.researchgate.net/profile/Michael_Gubanov/publication/346275767_WebLens_Towards_Interactive_Large-scale_Structured_Data_Profiling/links/5fc0055c299bf104cf7fd4a1/WebLens-Towards-Interactive-Large-scale-Structured-Data-Profiling.pdf Towards Interactive Large-scale Structured Data Profiling] {{---}} Rituparna Khan, Michael Gubanov {{---}} Department of Computer Science, Florida State University, 2020г.
 
 
[[Категория: Машинное обучение]]
 
[[Категория: Машинное обучение]]
[[Категория: Большие данные]]
 

Пожалуйста, учтите, что любой ваш вклад в проект «Викиконспекты» может быть отредактирован или удалён другими участниками. Если вы не хотите, чтобы кто-либо изменял ваши тексты, не помещайте их сюда.
Вы также подтверждаете, что являетесь автором вносимых дополнений, или скопировали их из источника, допускающего свободное распространение и изменение своего содержимого (см. Викиконспекты:Авторские права). НЕ РАЗМЕЩАЙТЕ БЕЗ РАЗРЕШЕНИЯ ОХРАНЯЕМЫЕ АВТОРСКИМ ПРАВОМ МАТЕРИАЛЫ!

Чтобы изменить эту страницу, пожалуйста, ответьте на приведённый ниже вопрос (подробнее):

Отменить | Справка по редактированию (в новом окне)

Шаблон, используемый на этой странице: