Yolo

Traditionelle CNNs können verwendet werden, um Objekte in Bildern zu erkennen. Wenn mehr als ein Objekt erkannt werdeb soll, muss das CNN erneut ausgeführt werden. Dies ist der Hauptgrund dafür, dass mit CNNs keine Echtzeit-Objekterkennung durchgeführt werden kann.

Yolo = You Only Look Once ist ein Echtzeit-Objekterkennungssystem, das in der Lage ist, alle Objekte eines Bildes in einem einzigen Durchlauf zu erkennen. Damit können Bilder mit 40-90 FPS (auf einer Titan X GPU-Grafikkarte) verarbeitet werden, dies ist ausreichend für die Echtzeit-Videoerkennung.

Grundidee

Frühere Erkennungssysteme verwenden Klassifikatoren oder Lokalisierer für die Erkennung durch erneuten Durchlauf. Sie wenden das Modell auf ein Bild an mehreren Orten und Maßstäben an. Bereiche mit hoher Erkennungsrate des Bildes gelten als Erkennungen.

Yolo verwendet einen völlig anderen Ansatz. Es wendet ein einzelnes neuronales Netzwerk auf das gesamte Bild an. Dieses Netzwerk unterteilt das Bild in Bereiche und sagt Begrenzungsrahmen und Wahrscheinlichkeiten für jede Region voraus. Diese Begrenzungsfelder werden mit den vorhergesagten Wahrscheinlichkeiten gewichtet.

Dieses Modell hat mehrere Vorteile gegenüber klassifikatorbasierten Systemen. Es betrachtet das gesamte Bild zur Testzeit, so dass seine Vorhersagen durch den globalen Kontext im Bild bestimmt sind. Es macht auch Vorhersagen mit einer einzelnen Netzauswertung im Gegensatz zu Systemen wie R-CNN, die Tausende für ein einzelnes Bild benötigen. Dies macht es extrem schnell, mehr als 1000x schneller als R-CNN und 100x schneller als Fast R-CNN.