Дополнения конспектов по машинному обучению

Материал из Викиконспекты
Перейти к: навигация, поиск
НЕТ ВОЙНЕ

24 февраля 2022 года российское руководство во главе с Владимиром Путиным развязало агрессивную войну против Украины. В глазах всего мира это военное преступление совершено от лица всей страны, всех россиян.

Будучи гражданами Российской Федерации, мы против своей воли оказались ответственными за нарушение международного права, военное вторжение и массовую гибель людей. Чудовищность совершенного преступления не оставляет возможности промолчать или ограничиться пассивным несогласием.

Мы убеждены в абсолютной ценности человеческой жизни, в незыблемости прав и свобод личности. Режим Путина — угроза этим ценностям. Наша задача — обьединить все силы для сопротивления ей.

Эту войну начали не россияне, а обезумевший диктатор. И наш гражданский долг — сделать всё, чтобы её остановить.

Антивоенный комитет России

Распространяйте правду о текущих событиях, оберегайте от пропаганды своих друзей и близких. Изменение общественного восприятия войны - ключ к её завершению.
meduza.io, Популярная политика, Новая газета, zona.media, Майкл Наки.

Выявление аномалий с помощью случайного леса

Интересной возможностью некоторых классификаторов является возможность находить объекты, которые трудно поддаются классификации, соответственно, могут принадлежать к новым, неизученным типам галактик. Рассмотрим в качестве примера случайный лес.

Случайные леса могут быть использованы для определения некоей меры схожести объектов без меток[1]. Чтобы перейти от задачи обучения без учителя к задаче обучения с учителем,которую можно решать с помощью случайного леса, применяется следующая идея:

  1. Пусть набор данных имеет вид таблицы [math]N \cdot M[/math], где каждая строка представляет объект с [math]M[/math] признаками. Построим другую матрицу размера [math]N \cdot M[/math], где значениями каждого столбца будет выборка из частного распределения соответствующего признака в исходном наборе данных. Такая матрица называется синтетическим набором данных (англ. synhtetic dataset). Альтернативным вариантом построения такой матрицы является случайная перестановка каждого столбца исходной матрицы.
  2. Пометим каждый объект исходного набора данных как принадлежащий классу [math]A[/math], а каждый объект синтетического набора данных как принадлежащий классу [math]B[/math]. Обучим случайный лес на этой выборке.

На этом этапе случайный лес способен определять наличие ковариации, ведь она присутствует только в исходном наборе данных. Как следствие, самыми важными признаками объектов будут являться признаки, имеющие корреляцию с другими. Расстояние между объектами определяется следующим образом: Каждая пара объектов передается во все решающие деревья случайного леса, и их схожесть описывается как количество деревьев, которые классифицировали оба объекта как принадлежащие классу [math]A[/math], причем оба объекта должны достигнуть одного и того же листа в дереве.

Источники информации

  1. Shi, T., & Horvath, S. 2006, Journal ofComputational and Graphical Statistics, 15, 118