Изменения

Перейти к: навигация, поиск

Кластеризация

3941 байт добавлено, 16:06, 20 декабря 2018
Examples of usage added
[[Файл:cluster.png|thumb|300px|Пример кластеризации. Красным цветом выделены неклассифицированные объекты.]]
'''Кластеризация''' (англ. ''cluster analysis'') {{---}} задача группировки множества объектов на подмножества ('''кластеры''') таким образом,
чтобы объекты из одного кластера были более похожи друг на друга, чем на объекты из других кластеров по какому-либо критерию.
Задача кластеризации относится к классу задач обучения без учителя.
 
== Постановка задачи кластеризации ==
Пусть <tex>X</tex> {{---}} множество объектов, <tex>Y</tex> {{---}} множество идентификаторов (меток) кластеров.
** EM-алгоритм
* Иерархические алгоритмы кластеризации. Упорядочивание данных путем создания иерархии вложенных кластеров.
 
== Применение ==
=== Биология и биоинформатика ===
* В области экологии кластеризация используется для выделения пространственных и временных сообщест организмов в однородных условиях.
* Кластерный анализ используется для группировки схожих геномных последовательностей в семейство генов, которые являются консервативными структурами для многих организмов и могут выполнять схожие функции.
* Кластеризация помогает автоматически определять генотипы по различным частям хромосом.
* Алгоритмы применяются для выделения небольшого числа групп генетических вариации человеческого генома.
=== Медицина ===
* Используется в позитронно-эмиссионной томографии для автоматического выделения различных типов тканей на трехмерном изображении.
* Применяется для выявления шаблонов устойчивости к антибиотикам; для классификации антибиотиков по типу антибактериальной активности.
=== Маркетинг ===
Кластеризация широко используется при изучении рынка для обработки данных, полученных из различных опросов.
Может применяться для выделения типичных групп покупателей, разделения рынка для создания персонализированных предложений, разработки новых линий продукции.
=== Интернет ===
* Выделение групп людей на основе графа связей в социальных сетях.
* Повышение релевантности ответов на поисковые запросы путем группировки веб-сайтов по смысловым значениям поискового запроса.
=== Компьютерные науки ===
* Кластеризация используется в сегментации изображений для определения границ и распознавания объектов.
* Кластерный анализ применяется для определения образовавшихся популяционных ниш в ходе работы эволюционных алгоритмов для улучшения параметров эволюции.
* Подбор рекомендаций для пользователя на основе предпочтений других пользователей в данном кластере.
* Определение аномалий путем построения кластеров и выявления неклассифицированных объектов.
== Иерархическая кластеризация ==
| style="text-align:center;" colspan = 4 |Дендрограммы кластеризации ирисов Фишера<ref>[https://ru.wikipedia.org/wiki/%D0%98%D1%80%D0%B8%D1%81%D1%8B_%D0%A4%D0%B8%D1%88%D0%B5%D1%80%D0%B0 Википедия {{---}} Ирисы Фишера]</ref> в зависимости от функции расстояния между кластерами
|-
| style="padding:5px;" |[[Файл:hierarchy_min.png|270px350px|Расстояние минимума.]]| style="padding:5px;" |[[Файл:hierarchy_max.png|270px350px|Расстояние максимума.]]| style="padding:5px;" |[[Файл:hierarchy_avg.png|270px|Расстояние среднего.]]| style="padding:5px;" |[[Файл:hierarchy_ward.png|270px|Расстояние Уорда.]]
|-
| style="text-align:center;" | Метод одиночной связи
| style="text-align:center;" | Метод полной связи
|-
| style="padding:5px;" |[[Файл:hierarchy_avg.png|350px|Расстояние среднего.]]
| style="padding:5px;" |[[Файл:hierarchy_ward.png|350px|Расстояние Уорда.]]
|-
| style="text-align:center;" | Метод средней связи
| style="text-align:center;" | Метод Уорда
Лучше всего с задачей справился алгоритм с использованием расстояния Уорда. Он точно выделил класс ''Iris setosa'' и заметно отделили вид ''Iris virginica'' от ''Iris versicolor''.
 
== См. также ==
* [[Оценка_качества_в_задаче_кластеризации|Оценка качества в задаче кластеризации]]<sup>[на 14.12.18 не создан]</sup>
* [[EM-алгоритм|EM-алгоритм]]<sup>[на 14.12.18 не создан]</sup>
== Примечания ==
[[Категория: Машинное обучение]]
[[Категория: Кластеризация]]
60
правок

Навигация