Изменения

Перейти к: навигация, поиск

Обучение на больших данных

160 байт убрано, 20:28, 21 января 2021
Применение машинного обучения к большим данным
=== Применение машинного обучения к большим данным ===
В условиях больших данных иногда возникает ситуация, когда пользователю нужно найти какие-то конкретные данные. Встаёт задача информационного эффективного поискав условиях больших данных. В силу большого объёма всех данных большинство известных методов поиска будут работать неэффективно. Например, '''''поиск перебором'''''<ref name="infosearchbruteforcesearch">[https://ruen.wikipedia.org/wiki/Brute-force_search#:~:text=In%D020computer%9820science%D02C%BD20brute%D12Dforce,candidate%8420satisfies%D020the%BE20problem's%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA Информационный поиск20statement. Поиск перебором]</ref>(англ. В силу большого объёма всех ''exhaustive search'') {{---}} широко распространенный алгоритм не подходит для больших данных будет неэффективно перебирать их все в поисках того, что нужновследствие плохой оптимизации по времени исполнения и используемому месту. В данном случае можно применить Также '''не подходят''' алгоритмы машинного обучения'''''поиска с ориентиром (индексирование)''''' (англ. ''beacon guided searching, которые занимаются классификацией данных BGS'') и их [[РанжированиеМетрический классификатор и метод ближайших соседей|ранжированием'''''метод "ближайших соседей"''''']](англ.Поиск в размеченных и отсортированных данных происходит значительно быстрее''nearest neighbour search''). А в условиях В случае первого на больших данных это очень важно. Например, любая поисковая система при любом запросе должна давать результат за одно и то же времяхранение индексов этих данных становится проблемой, однако объём тех так как данныхслишком много, которые ей приходится проанализировать огромена в случае со вторым алгоритмом будут сильно мешать различные шумы и отклонения, поэтому эффективный поиск коих в больших данных {{---}} зачастую очень важная задача, а машинное обучение сильно помогает в её решениимного.
Существует множество алгоритмов поиска, начиная от простого перебора, заканчивая генетическим алгоритмомЗдесь на помощь приходят [https://ru.wikipedia. Но далеко не все org/wiki/%D0%93%D0%B5%D0%BD%D0%B5%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%B0%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC генетические алгоритмы подходят для ]. Процедура поиска в больших данных. К примерупроизводится довольно часто, exhaustive search или поиск перебором - широко распространенный алгоритм не подходит для больших следовательно такие алгоритмы довольно быстро приспособятся к поиску наиболее часто используемых данных вследствии плохой оптимизации по времени исполнения и используемому месту. Также не подходят алгоритмы beacon guided searching (BGS) и nearest neighbour search. Здесь на помощь приходит Genetic Algorithm. К к плюсам данного алгоритма генетических алгоритмов можно отнести возможность кастомизации и устойчивость к шумам, а также хорошую масштабируемость для задач с более высокой размерностью. ПравдаВсё это как раз то, у этого метода есть и недостатки. Так, мы можем не дойти до глобального максимума или затратить слишком много времени сближениечто нужно в случае больших данных.
== Обработка разнородных данных в рамках одной системы ==
59
правок

Навигация