Изменения

Оценка положения

10 803 байта добавлено, 10:38, 24 апреля 2020

Нет описания правки

== Примеры задач, решаемых с помощью ML ==

=== Обнаружение и обработка дорожных знаков и пешеходов ===

====Введение ====

'''Обнаружение объектов''' является хорошо известной проблемой в области компьютерного зрения и глубокого обучения. Существует два компонента в модели обнаружения объекта, а именно, базовая нейронная сеть и нейронная сеть обнаружения .

Во-первых, '''базовые нейтральные сети''' -это CNN, которые извлекают объекты из изображения, из объектов низкого уровня, таких как линии, ребра или круги, в объекты более высокого уровня, такие как лицо, человек, светофор или знак стоп и т. д. Несколько хорошо известных базовых нейронных сетей-это LeNet, InceptionNet(он же. GoogleNet), ResNet, VGG-Net, AlexNet, MobileNet и др. Эта [https://medium.com/@RaghavPrabhu/cnn-architectures-lenet-alexnet-vgg-googlenet-and-resnet-7c81c017b848 превосходная статья] обсуждает различия между этими базовыми нейтральными сетями ниже.

Затем '''нейронные сети обнаружения''' присоединяются к концу базовой нейронной сети и используются для одновременной идентификации нескольких объектов из одного изображения с помощью извлеченных признаков. Некоторые из популярных сетей обнаружения-SSD (Single Shot MultiBox Detector), R-CNN (регион с функциями CNN), более быстрый R-CNN и YOLO (вы смотрите только один раз) и т. д. В [https://en.wikipedia.org/wiki/Object_detection этой статье] рассматриваются различия между этими нейронными сетями обнаружения.

====Modeling training====

Выделим несколько этапов связанных с модельным обучением.

#Сбор и маркировка изображений (20-30 мин)

#Выбор модели

#Трансферное обучение / модельное обучение (3-4 часа)

#Сохранить вывод модели в формате Edge TPU (5 мин)

#Запуск вывода модели на Raspberry Pi

====Сбор и маркировка изображений====

У нас есть 6 типов объектов, а именно: красный свет, зеленый свет, знак остановки, ограничение скорости 40 миль в час, ограничение скорости 25 миль в час и несколько фигурок Lego в качестве пешеходов.[[Файл:Obj.jpg |400px|thumb| right| Рис. 4 obj]] Таким образом, у нас будет около 50 подобных фотографий, с объектами размещенными случайным образом на каждом изображении. Затем пометим каждое изображение с помощью ограничительной рамки для каждого объекта на изображении. С помощью бесплатного инструмента, называемый [https://tzutalin.github.io/labelImg/ labelImg] ''(для Windows / Mac / Linux)'' это можно сделать довольно быстро и просто.

====Выбор модели====

На Raspberry Pi, так как мы имеем ограниченные вычислительные мощности, мы должны выбрать модель, которая работает относительно быстро и точно. После экспериментов с несколькими моделями, свой выбор остановим на <tt> MobileNet v2 SSD COCO</tt> модель как оптимальный баланс между скоростью и точностью.

====Трансферное Обучение / Модельное Обучение ====

Для этого шага будем использовать Google Colab.

Подготовка данных для обучения:

repo_dir_path = '/content/DeepPiCar'

% cd{ repo_dir_path} / models/ object_detection

# Convert train folder annotation xml files to a single csv file,

# generate the `label_map.pbtxt` file to `data/` directory as well.

!python code/xml_to_csv.py -i data/ images/ train - o data/ annotations/ train_labels.csv -l data/ annotations

# Convert test folder annotation xml files to a single csv.

!python code/xml_to_csv.py -i data/ images/ test -o data/ annotations/ test_labels.csv

# Generate `train.record`

!python code/generate_tfrecord.py --csv_input=data/annotations/train_labels.csv - - output_path= data/ annotations/ train.record --

img_path=data/images/train --label_map data/annotations/label_map.pbtxt

# Generate `test.record`

!python code/generate_tfrecord.py --csv_input=data/annotations/test_labels.csv - - output_path= data/ annotations/ test.record --

img_path=data/images/test --label_map data/annotations/label_map.pbtxt

Приведенный выше код преобразует xml-файлы меток, созданные инструментом LabelImg, в двоичный формат, так что TensorFlow может обрабатывать быстро.

Загружаем Pre-trained Model:

MODEL_FILE = MODEL + '.tar.gz'

DOWNLOAD_BASE = 'http://download.tensorflow.org/models/object_detection/'

DEST_DIR = '/content/models/research/pretrained_model'

if not( os.path.exists( MODEL_FILE)):

urllib.request.urlretrieve( DOWNLOAD_BASE + MODEL_FILE, MODEL_FILE)

tar = tarfile.open( MODEL_FILE)

tar.extractall()

tar.close()

os.remove( MODEL_FILE)

if(os.path.exists( DEST_DIR)):

shutil.rmtree(DEST_DIR)

os.rename( MODEL, DEST_DIR)

fine_tune_checkpoint = os.path.join( DEST_DIR, "model.ckpt")

print( fine_tune_checkpoint)

Приведенный выше код загрузит предварительно обученные файлы модели для <tt>ssd_mobilenet_v2_quantized_300x300_coco_2019_01_03</tt> модель и мы будем только использовать <tt>model.ckpt файл</tt>.

Тренируем модель:

num_steps = 2000

num_eval_steps = 50

model_dir = '/content/gdrive/My Drive/Colab Notebooks/TransferLearning/Training'

pipeline_file = 'ssd_mobilenet_v2_quantized_300x300_coco.config'

!python /content/models/research/object_detection/model_main.py \

- - pipeline_config_path= { pipeline_fname} \

--model_dir='{model_dir}' \

--alsologtostderr \

--num_train_steps={num_steps} \

--num_eval_steps={num_eval_steps}

Этот шаг занимает 3-4 часа, в зависимости от количества шагов, которые вы тренируете ''(они же эпохи или num_steps)''. После того, как тренировка будет завершена, вы увидите кучу файлов в <tt>model_dir</tt>. Мы ищем самое последнее <tt>model.ckpt-xxxx.meta</tt> файл.Во время обучения мы можем отслеживать прогрессирование потерь и точности с помощью '''TensorBoard'''.

Тестируем обученную модель: [[Файл:Newobj.jpg |400px|thumb| right| Рис. 4 obj]]

После тренировки прогоняем несколько изображений из тестового набора данных через нашу новую модель. Как и ожидалось, практически все объекты на изображении были идентифицированы с относительно высокой достоверностью. Более отдаленные объекты становились больше и легче обнаружить, когда наша машина приближалась к ним.

Сохраняем вывод модели в формате Edge TPU:

После того, как модель обучена, мы должны экспортировать модель meta файл в диаграмму вывода в формате <tt>Google ProtoBuf</tt>, а затем в формат, который Edge TPU accelerator может понимать и обрабатывать.

====Планирование и управление движением====

Теперь, когда DeepPiCar может обнаружить и определить, какие объекты находятся перед ним, нам все еще нужно сказать ему, что с ними делать, т. е. управление движением. Существует два подхода к управлению движением, т. е. основанный на правилах и сквозной.

'''Подход, основанный на правилах''' значит, нам нужно точно сказать машине, что делать, когда она сталкивается с каждым объектом. Например, скажите автомобилю остановиться, если он видит красный свет или пешехода, или ехать медленнее, если он видит более низкий знак ограничения скорости и т. д. Это сродни тому, что мы сделали в части 4, где мы рассказали автомобилю, как перемещаться по полосе движения с помощью набора кодов/правил.

'''Сквозной подход''' просто кормит автомобиль большим количеством видеоматериалов хороших водителей, и автомобиль, через глубокое обучение, выясняет сам по себе, что он должен остановиться перед красными огнями и пешеходами или замедлиться, когда ограничение скорости падает.

=== Отслеживание направления взгляда пользователя в браузере ===

Id0ntmind

32

правки

Изменения

Оценка положения

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты