68
правок
Изменения
→Примеры кода
from pydataset import data
<font color="green">#Считаем данные The Boston Housing Dataset</font>
df = data('Housing')
<font color="green">#Проверим данные</font>
df.head().values
array([[42000.0, 5850, 3, 1, 2, 'yes', 'no', 'yes', 'no', 'no', 1, 'no'],
[49500.0, 3060, 3, 1, 1, 'yes', 'no', 'no', 'no', 'no', 0, 'no'], ...
<font color="green"># Создадим словарь для слов 'no', 'yes'</font>
d = dict(zip(['no', 'yes'], range(0,2)))
for i in zip(df.dtypes.index, df.dtypes):
df[‘price’] = pd.qcut(df[‘price’], 3, labels=[‘0’, ‘1’, ‘2’]).cat.codes
<font color="green"># Разделим множество на два</font>
y = df['price']
X = df.drop('price', 1)
'''Бэггинг'''
<font color="green"># Импорты классификаторов</font>
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import BaggingClassifier, ExtraTreesClassifier, RandomForestClassifier
seed = 1075
np.random.seed(seed)
<font color="green"># Инициализуруем классификаторы</font>
rf = RandomForestClassifier()
et = ExtraTreesClassifier()
bagging_scores.mean(), bagging_scores.std())
<font color="green">#Результат</font>
Mean of: 0.632, std: (+/-) 0.081 [RandomForestClassifier]
Mean of: 0.639, std: (+/-) 0.069 [Bagging RandomForestClassifier]
print("Mean: {0:.3f}, std: (+/-) {1:.3f} [{2}]".format(scores.mean(), scores.std(), label))
<font color="green"># Результат</font>
Mean: 0.641, std: (+/-) 0.082 [Ada Boost]
Mean: 0.654, std: (+/-) 0.113 [Grad Boost]