Изменения

Перейти к: навигация, поиск

Кластеризация

1953 байта добавлено, 23:34, 17 декабря 2018
Images added
Решение задачи кластеризации объективно неоднозначно по ряду причин:
* не существует однозначного критерия качества кластеризации. Известен ряд алгоритмов, осуществляющих разумную кластеризацию "по построению", однако все они могут давать разные результаты. Следовательно, для определения качества кластеризации и оценки выделенных кластеров необходим эксперт предметной области.
* число кластеров, как правило, заранее не известно и выбирается по субъективным критериям. Даже если алгоритм не требует изначального знания о числе классов, конкретные реализации зачастую требуют ввести этот параметр<ref>[https://scikit-learn.org/0.20/modules/clustering.html scikit-learn {{---}} Clustering]</ref>.
* результат кластеризации существенно зависит от метрики. Однако существует ряд рекомендаций по выбору для определенных классов задач.
* Иерархические алгоритмы кластеризации. Упорядочивание данных путем создания иерархии вложенных кластеров.
== Иерархическая кластеризация ==
=== Пример ===
 
{| class="wikitable"
| style="text-align:center;" colspan = 4 |Дендрограммы кластеризации ирисов Фишера<ref>[https://ru.wikipedia.org/wiki/%D0%98%D1%80%D0%B8%D1%81%D1%8B_%D0%A4%D0%B8%D1%88%D0%B5%D1%80%D0%B0 Википедия {{---}} Ирисы Фишера]</ref> в зависимости от функции расстояния между кластерами
|-
| style="padding:5px;" |[[Файл:hierarchy_min.png|270px|Расстояние минимума.]]
| style="padding:5px;" |[[Файл:hierarchy_max.png|270px|Расстояние максимума.]]
| style="padding:5px;" |[[Файл:hierarchy_avg.png|270px|Расстояние среднего.]]
| style="padding:5px;" |[[Файл:hierarchy_ward.png|270px|Расстояние Уорда.]]
|-
| style="text-align:center;" | Расстояние минимума
| style="text-align:center;" | Расстояние максимума
| style="text-align:center;" | Расстояние среднего
| style="text-align:center;" | Расстояние Уорда
|}
 
Лучше всего с задачей справился алгоритм с использованием расстояния Уорда. Он точно выделил класс ''Iris setosa'' и заметно отделили вид ''Iris virginica'' от ''Iris versicolor''.
 
== Примечания ==
<references/>
== Источники информации ==
* [http://www.machinelearning.ru/wiki/index.php?title=%D0%9A%D0%BB%D0%B0%D1%81%D1%82%D0%B5%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F MachineLearning {{---}} Кластеризация]
* [https://ru.wikipedia.org/wiki/%D0%98%D0%B5%D1%80%D0%B0%D1%80%D1%85%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D0%BA%D0%BB%D0%B0%D1%81%D1%82%D0%B5%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F Википедия {{---}} Иерархическая кластеризация]
* [https://docs.scipy.org/doc/scipy/reference/cluster.hierarchy.html Scipy Documentation {{---}} Hierarchical clustering (scipy.cluster.hierarchy)]
* [http://www.machinelearning.ru/wiki/images/c/ca/Voron-ML-Clustering.pdf К.В.Воронцов Лекции по алгоритмам кластеризации и многомерного шкалирования]
[[Категория: Машинное обучение]]
60
правок

Навигация