Wagner, J. (2020). Detecting moving vehicles in satellite videos using deep neural networks [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2020.72026
Aerial images captured by unmanned aerial vehicles and satellite images enable and support tasks such as road network planning, parking condition evaluation, automatic traffic monitoring as well as military reconnaissance. A limitation of still images is the lack of temporal information, which is viable for tasks like estimation of average velocity, dynamic velocity and traffic density. Satellite videos, on the other hand, are able to capture dynamic behavior.The detection of vehicles as small as 6.5 pixels in satellite videos is challenging due to low ground sample distances of about 1.0 m, motion effects induced from the satellite itself and noise. Applying out-of-the-box classifiers fail on satellite video by making assumptions like rich texture and small to moderate ratios between image size and object size. Approaches utilizing the temporal consistency provided by satellite video use either frame differencing, background subtraction or subspace methods showing moderate performance (0.26 - 0.82 F1 score). In this thesis recent work on deep learning for wide-area motion imagery (FoveaNet) is utilized and adapted for satellite video. Adaptions include modifications of the architecture of FoveaNet as well as improved post-processing. The effects of improvements made is demonstrated by six experiments. The resulting network is called FoveaNet4Sat. The effect of transfer learning is also demonstrated by pre-learning on wide-area motion data and fine-tuning on satellite video. FoveaNet4Sat consistently outperforms FoveaNet when applied to satellite video, e.g. from 0.745 to 0.885 in F1 score and also outperforms the state-of-the-art on the SkySat-1 Las Vegas satellite video.
en
Luftaufnahmen von unbemannten Luftfahrzeugen und Satellitenbilder ermöglichen und unterstützen Aufgaben wie Straßennetzplanung, Evaluierung von Parkplatzsituationen, automatische Verkehrsüberwachung und auch militärische Aufklärung. Einzelbilder, i.e. Standbilder haben den Nachteil, dass sie kein dynamisches Verhalten erfassen können. Das Erfassen von Bewegung ist allerdings notwendig zur Einschätzung von Durchschnittsgeschwindigkeit, dynamischer Geschwindigkeit und Verkehrsdichte. Satelliten-videos erfassen dynamisches Verhalten und sind daher geeignet um derartige Aufgaben zu erfüllen. Fahrzeuge die bis zu 6.5 Pixel klein sind, niedriger Kontrast, niedrige Ground Sample Distances von ca. 1.0 m, Bewegungseffekte durch die Satellitenplattform und Rauschen erschweren die Detektierung von Fahrzeugen in Satelliten-videos. Standard Objekt-detektoren scheitern durch falsche Annahmen, wie distinkte Texturen und dem Verhältnis von Bildgröße zu Objektgröße. Bisherige Ansätze nutzen die temporale Information in Satelliten-videos indem sie frame differencing, background subtraction oder subspace Methoden verwenden. Dabei werden moderate Ergebnisse erzielt (0.26 - 0.82 F1 score).Diese Arbeit zeigt wie neuartige Deep Learning Ansätze (FoveaNet) für Wide-area motion imagery auf Satelliten-videos übertragen und adaptiert werden können. Sowohl die Architektur von FoveaNet als auch das Postprocessing wurden an die Gegebenheiten von Satelliten-videos angepasst. Die Effekte der einzelnen Adaptierungen werden in sechs Experimenten demonstriert. Das resultiernde Netzwerk wird FoveaNet4Sat genannt. Der Effekt von Transfer Learning wird demonstriert indem FoveaNet4Sat auf wide-area motion imagery vortrainiert und anschließend auf Satelliten-videos fein-getuned wird. FoveaNet4Sat zeigt durchgehend verbesserte Ergebnisse gegenüber FoveaNet wenn es auf Satelliten-videos angewandt wird, z.b. von 0.745 zu 0.885 F1 score und liefert bessere Ergebnisse als der derzeitige state-of-the-art angewandt auf dem SkySat-1 Las Vegas Satelliten-video.