115
правок
Изменения
→Открытые наборы данных для обучения
== Открытые наборы данных для обучения ==
==== Компьютерное зрение ====
* [https://golospjreddie.iocom/leave_page?http%3A%2F%2Fpjreddie.com%2Fprojects%2Fmnistprojects/mnist-in-csv%2F / MNIST]: один из самых востребованных наборов для проверки работоспособности. Есть датасеты 25x25, отцентрованные, рукописные чёрно-былые цифры.* [https://golos.io/leave_page?https%3A%2F%2Fwwwwww.cs.toronto.edu%2F/~kriz%2Fcifar/cifar.html CIFAR10 & CIFAR100]: цветные изображения 32x32. Сегодня используется нечасто, но может быть хорошим вариантов для проверки работоспособности.
==== Естественные языки ====
* [https://golosblog.ioeinstein.ai/leave_page?http%3A%2F%2Fmetamind.io%2Fresearch%2Fthethe-wikitext-long-term-dependency-language-modeling-dataset%2F / WikiText]: большой свод данных для языкового моделирования из статей Википедии, собранный Salesforce MetaMind.
==== Речь ====
* [httpshttp://golos.io/leave_page?http%3A%2F%2Fwwwwww.openslr.org%2F12%2F /12/ LibriSpeech]: около 500 часов начитки аудиокниг, в исполнении разных людей. Данные организованы по главам книг, содержат текст и записи.
==== Системы рекомендаций и ранжирования ====
* [https://golos.io/leave_page?https%3A%2F%2Fwwwwww.kaggle.com%2Fc%2Fmsdchallenge /c/msdchallenge Million Song Dataset]: большой open source-датасет [https://www.kaggle.com/ Kaggle], насыщенный метаданными. Хороший вариант для тех, кто экспериментирует с гибридными системами рекомендаций.
==== Сети и графы ====
* [httpshttp://golos.io/leave_page?http%3A%2F%2Fsnapsnap.stanford.edu%2Fdata%2F%23amazon /data/#amazon Amazon Co-Purchasing] и [httpshttp://golos.io/leave_page?http%3A%2F%2Fsnapsnap.stanford.edu%2Fdata%2Famazon/data/amazon-meta.html Amazon Reviews]: данные, собранные из раздела «Пользователи, купившие это, также выбирают…» на Amazon, а также обзоры сопутствующих товаров. Хорош для экспериментов рекомендательными системами в соцсетях.
==== Геопространственные данные ====
* [httpshttp://golos.io/leave_page?http%3A%2F%2Fwikiwiki.openstreetmap.org%2Fwiki%2FPlanet/wiki/Planet.osm OpenStreetMap]: векторные картографические данные для всей планеты, с бесплатной лицензией. Включает в себя старую версию данных TIGER Бюро переписи США.
== См. также ==