Bardach, M. (2020). Classifying air traffic scenarios and associated environment conditions with respect to operation risk [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2020.64341
Data Mining; Flugverkehr; Flugverspätung; Risikoklassen; Klassifizierung; Random Forest
de
Data Mining; Air Traffic; Flight Delay; Risk Class; Classification; Random Forest
en
Abstract:
Das Ziel dieser Diplomarbeit ist es, ein Model zu entwickeln, welches klassische Flugverkehrsszenarien und zugehörige Umweltbedingungen in drei Risikoklassen klassifiziert. Ein Flugverkehrsszenario wird durch den Ort, dem Flughafen an dem das Szenario stattfindet, einer Zeitspanne und dem Typ des Szenarios (Ankunftsszenario oder Abflugszenario) identifiziert und enthält sämtliche Flug- und Flugzeugdaten von ankommenden oder abfliegenden Flügen aus dieser Zeitspanne. Bei Daten über Umweltbedingungen handelt es sich um Wetter- und Notice-to-Airmen-Daten. In dieser Arbeit wird das klassische Flugverkehrsszenario um diese Daten erweitert. Eine Risikoklasse errechnet sich aus den durchschnittlichen Kosten aller Verspätungen der Flugzeuge aus diesem Szenario. Die Forschungsfrage ist, ob so ein Model Szenarien in Risikoklassen klassifizieren kann. Für diese Data-Mining Aufgabe wird der "cross industry standard process for data mining" verwendet. Szenarien müssen für Flughäfen einzeln erstellt werden, da verschiedene Attribute auf verschiedenen Flughäfen unterschiedliche Relevanz haben. Basierend darauf wurden die Flughäfen Atlanta in den USA und Wien ausgewählt. Kosten von Verspätungen werden mithilfe der linearen Regressionsfunktion, welche von EUROCONTROL entwickelt wurde, berechnet. Die Kosten berechnen sich basierend auf dem maximalen Startgewicht eines Flugzeuges. Die beiden fertigen Datensätze von Szenarien werden für das Training von einem Random Forest Model und einem Multilayer Neural Network verwendet. Für den Vergleich von mehrklassigen Klassifizierungen werden Precision und Recall verwendet. Die Ergebnisse zeigen, dass das Random Forest Modell bessere Werte erreicht als das Multilayer Neural Network. Precision und Recall erreichen bei der Klassifizierung von Risikoklasse 3 Werte über 80%. Diese Klasse beinhaltet Szenarien mit der höchsten durchschnittlichen Verspätung und somit auch mit dem größten Einsparungspotenzial. Diese Klassifizierung kann Fluglotsen helfen, aufkommende Szenarien besser zu evaluieren und entsprechende Maßnahmen zu setzen, um die Verspätung zu verhindern oder zu minimieren.
de
The goal of this thesis is to develop a model to classify air traffic scenarios proper and associated environment conditions into three risk classes. An air traffic scenario proper contains flight data, information about the arriving and departing aircraft and basic data about the airport and runway. It is identified by the airport, a specific time span and the type, describing if it contains only departing or arriving flight data. Environment condition data are meteorological data and notice-to-airmen messages (NOTAMs). The scenario proper enriched by environment condition data is the air traffic scenario that is classified in this thesis. The risk class is calculated based on the average delay cost of all flights in a scenario. The research question is, if a classifier can predict the risk classes of air traffic scenarios. For this data mining task the cross-industry standard process for data mining is used. Air traffic scenarios need to be created for individual airports as the relevance of attributes varies locally. The airports of Atlanta and Vienna are selected to create air traffic scenarios. Delay costs are calculated with the linear regression analysis of full tactical delay costs including reactionary costs developed by EUROCONTROL, which is based on the maximum take-off weight of an aircraft. The final datasets for the two airports are then trained with a random forest classifier and a multilayer neural network.The two classifiers are compared by using the metrics precision and recall. Results show that the random forest classifier outperforms the multilayer neural network. Precision and recall values are analysed with a confusion matrix and reach over 80% for class 3, which includes scenarios with the highest delay and thus with the biggest saving potential. This can help air traffic control to evaluate upcoming scenarios more easily and lets them take actions to try to prevent the delay.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers