Изменения

Обучение на больших данных

160 байт убрано, 20:28, 21 января 2021

→‎Применение машинного обучения к большим данным

=== Применение машинного обучения к большим данным ===

В условиях больших данных иногда возникает ситуация, когда пользователю нужно найти какие-то конкретные данные. Встаёт задача ~~информационного~~ эффективного поискав условиях больших данных. В силу большого объёма всех данных большинство известных методов поиска будут работать неэффективно. Например, '''''поиск перебором'''''<ref ~~name~~="~~infosearch~~bruteforcesearch">[https://ruen.wikipedia.org/wiki/Brute-force_search#:~:text=In%D020computer%9820science%D02C%BD20brute%D12Dforce,candidate%8420satisfies%D020the%BE20problem's%~~D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA Информационный поиск~~20statement. Поиск перебором]</ref>(англ. ~~В силу большого объёма всех~~ ''exhaustive search'') {{---}} широко распространенный алгоритм не подходит для больших данных ~~будет неэффективно перебирать их все в поисках того, что нужно~~вследствие плохой оптимизации по времени исполнения и используемому месту. ~~В данном случае можно применить~~ Также '''не подходят''' алгоритмы ~~машинного обучения~~'''''поиска с ориентиром (индексирование)''''' (англ. ''beacon guided searching, ~~которые занимаются классификацией данных~~ BGS'') и их [[~~Ранжирование~~Метрический классификатор и метод ближайших соседей|~~ранжированием~~'''''метод "ближайших соседей"''''']](англ.~~Поиск в размеченных и отсортированных данных происходит значительно быстрее~~''nearest neighbour search''). ~~А в условиях~~ В случае первого на больших данных это очень важно. Например, любая поисковая система при любом запросе должна давать результат за одно и то же времяхранение индексов этих данных становится проблемой, ~~однако объём тех~~ так как данныхслишком много, ~~которые ей приходится проанализировать огромен~~а в случае со вторым алгоритмом будут сильно мешать различные шумы и отклонения, ~~поэтому эффективный поиск~~ коих в больших данных ~~{{---}}~~ зачастую очень ~~важная задача, а машинное обучение сильно помогает в её решении~~много.

~~Существует множество алгоритмов поиска, начиная от простого перебора, заканчивая генетическим алгоритмом~~Здесь на помощь приходят [https://ru.wikipedia. ~~Но далеко не все~~ org/wiki/%D0%93%D0%B5%D0%BD%D0%B5%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%B0%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC генетические алгоритмы ~~подходят для~~ ]. Процедура поиска в больших данных~~. К примеру~~производится довольно часто, ~~exhaustive search или поиск перебором - широко распространенный алгоритм не подходит для больших~~ следовательно такие алгоритмы довольно быстро приспособятся к поиску наиболее часто используемых данных ~~вследствии плохой оптимизации по времени исполнения и используемому месту~~. Также ~~не подходят алгоритмы beacon guided searching (BGS) и nearest neighbour search. Здесь на помощь приходит Genetic Algorithm. К~~ к плюсам ~~данного алгоритма~~ генетических алгоритмов можно отнести возможность кастомизации и устойчивость к шумам, а также хорошую масштабируемость для задач с более высокой размерностью. ~~Правда~~Всё это как раз то, у этого метода есть и недостатки. Так, мы можем не дойти до глобального максимума или затратить слишком много времени сближениечто нужно в случае больших данных.

== Обработка разнородных данных в рамках одной системы ==

George bakush

59

правок

Изменения

Обучение на больших данных

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты