Изменения

Перейти к: навигация, поиск

Обучение на больших данных

1364 байта добавлено, 20:06, 21 января 2021
Применение машинного обучения к большим данным
В условиях больших данных иногда возникает ситуация, когда пользователю нужно найти какие-то конкретные данные. Встаёт задача информационного поиска<ref name="infosearch">[https://ru.wikipedia.org/wiki/%D0%98%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA Информационный поиск]</ref>. В силу большого объёма всех данных будет неэффективно перебирать их все в поисках того, что нужно. В данном случае можно применить алгоритмы машинного обучения, которые занимаются классификацией данных и их [[Ранжирование|ранжированием]].
Поиск в размеченных и отсортированных данных происходит значительно быстрее. А в условиях больших данных это очень важно. Например, любая поисковая система при любом запросе должна давать результат за одно и то же время, однако объём тех данных, которые ей приходится проанализировать огромен, поэтому эффективный поиск в больших данных {{---}} очень важная задача, а машинное обучение сильно помогает в её решении.
 
Существует множество алгоритмов поиска, начиная от простого перебора, заканчивая генетическим алгоритмом. Но далеко не все алгоритмы подходят для больших данных. К примеру, exhaustive search или поиск перебором - широко распространенный алгоритм не подходит для больших данных вследствии плохой оптимизации по времени исполнения и используемому месту. Также не подходят алгоритмы beacon guided searching (BGS) и nearest neighbour search. Здесь на помощь приходит Genetic Algorithm. К плюсам данного алгоритма можно отнести возможность кастомизации и устойчивость к шумам, а также хорошую масштабируемость для задач с более высокой размерностью. Правда, у этого метода есть и недостатки. Так, мы можем не дойти до глобального максимума или затратить слишком много времени сближение.
== Обработка разнородных данных в рамках одной системы ==
22
правки

Навигация