Изменения
Нет описания правки
* Cтабильность: статисические и оптимизационные свойства
== Как создать интерпретируемую модель? ==
=== Использовать только интерпретируемые модели (англ. Transparent Models): ===
* [[Линейная регрессия|Линейные модели]]
* [[Дерево решений и случайный лес| Деревья решений]], списки правил, наборы правил
* Модели основывающиеся на предыдущем опыте
=== Построить интерпретируемую модель поверх эмбендинга ===
Пример: у нас есть лук. Если “лук” находится рядом с “чесноком”, то модель думает о “луке” как о овоще, если “лук” находится рядом с “пистолетом”, “рогаткой”, то модель думает о “луке” как о оружии. Но модель теперь интерпретируема, но сами признаки перестают быть таковым
=== Важность признаков ===
Одна из возможностей проанализировать модель — оценить, насколько её решение зависит от отдельных признаков.
'''SHAP''' - (англ. SHapley Additive exPlanations) Важность i-го признака здесь вычисляется по такой формуле:<ref name="exp"> Пример реализации [https://github.com/slundberg/shap]</ref>
<math>\begin{equation*} \phi_{i}(p) =\sum_{S \subseteq \{1,2..n\} / \{i\}} \frac{|S|!(n - |S| -1)!}{n!}(p(S \cup \{ i \}) - p(S)) \end{equation*}</math>
где f(S) — ответ модели, обученной на подмножестве S множества n признаков (на конкретном объекте — вся формула записывается для конкретного объекта).<ref name="habr">Павел Трошенков "Как интерпретировать предсказания моделей в SHAP" [https://habr.com/ru/post/428213]</ref>
Видно, что вычисление требует переобучения модели на всевозможных подмножествах признаках, поэтому на практике применяют приближения формулы.
=== Суррогатные модели ===
'''LIME''' - (англ. Local Interpretable Model-agnostic Explanations) <ref name="Lime">Marco Tulio Ribeiro, Sameer Singh, Carlos Guestrin "Explaining the Predictions of Any Classifier" [https://www.kdd.org/kdd2016/papers/files/rfp0573-ribeiroA.pdf]</ref>
Даже если простая модель не сможет смоделировать сложную во всём пространстве, в окрестности конкретной точки это вполне возможно. Локальные модели объясняют конкретный ответ чёрного ящика. Эта идея показана на рис. w. У нас есть чёрный ящик (ЧЯ), который построен на данных. В некоторой точке он выдал ответ, мы генерируем выборку в окрестности этой точки, узнаём ответы ЧЯ и настраиваем обычный линейный классификатор. Он описывает ЧЯ в окрестности точки, хотя во всём пространстве он сильно отличается от ЧЯ. Из рис. 2 понятны достоинства и недостатки такого подхода.
рис. 2. Построение локальной суррогатной модели.
== Примечания ==