Изменения

Перейти к: навигация, поиск
Нет описания правки
Здесь <math>a ( x )</math> — это ответ алгоритма на объекте, а <math>y </math> — истинная метка класса на этом объекте.
Таким образом, ошибки классификации бывают двух видов: False Negative (FN) и False Positive (FP).
Каждая строка в матрице ошибок представляет фактический класс, а каждый столбец - спрогнозированный класс.
 
=== Accuracy ===
 
Интуитивно понятной, очевидной и почти неиспользуемой метрикой является [[accuracy]] — доля правильных ответов алгоритма:
 
[[Файл:acc.png|300px]]
 
Эта метрика бесполезна в задачах с неравными классами, и это легко показать на примере.
 
Допустим, мы хотим оценить работу спам-фильтра почты. У нас есть 100 не-спам писем, 90 из которых наш классификатор определил верно (True Negative = 90, False Positive = 10), и 10 спам-писем, 5 из которых классификатор также определил верно (True Positive = 5, False Negative = 5).
Тогда accuracy:
 
[[Файл:acc1.png|300px]]
 
Однако если мы просто будем предсказывать все письма как не-спам, то получим более высокую accuracy:
 
[[Файл:acc2.png|300px]]
 
При этом, наша модель совершенно не обладает никакой предсказательной силой, так как изначально мы хотели определять письма со спамом. Преодолеть это нам поможет переход с общей для всех классов метрики к отдельным показателям качества классов.
 
=== Precision ===
 
Precision (точностью) называется доля правильных ответов модели в пределах класса – это доля объектов действительно принадлежащих данному классу относительно всех объектов которые система отнесла к этому классу.
 
[[Файл:prec.png|300px]]
 
Именно введение precision не позволяет нам записывать все объекты в один класс, так как в этом случае мы получаем рост уровня False Positive.
 
=== Recall ===
 
Recall (Полнота системы) – это доля найденных классфикатором объектов принадлежащих классу относительно всех документов этого класса в тестовой выборке.
 
[[Файл:rec.png|250px]]
 
Recall демонстрирует способность алгоритма обнаруживать данный класс вообще.
 
Имея матрицу ошибок точность и полнота для каждого класса рассчитывается очень просто. Precision (точность) равняется отношению соответствующего диагонального элемента матрицы и суммы всей строки класса. Recall (полнота) – отношению диагонального элемента матрицы и суммы всего столбца класса. Формально:
 
[[Файл:macro-e.png|300]]
 
Результирующая точность классификатора рассчитывается как арифметическое среднее его точности по всем классам. То же самое с полнотой. Технически этот подход называется macro-averaging.
 
187
правок

Навигация