dc.description.abstract
Neben der Benennung von Hauptunfallursachen und Unfallschwerpunkten im Straßennetz gibt es derzeit eine Wissenslücke bei der multivariaten statistischen Untersuchung von gemeinsam auftretenden Unfallbedingungen. Die amtliche Straßenverkehrsunfallstatistik in Österreich weist für jeden Straßenverkehrsunfall eine explizite Unfallursache (oder eine explizite Bedingung) aus (z.B. Geschwindigkeitsüberschreitung). Die Untersuchung von gleichzeitig auftretenden Bedingungen (z.B. "Geschwindigkeitsüberschreitung", "nasse Fahrbahn", "nicht angeschnallt" und "Probeführerschein") ist jedoch unerlässlich, wenn wir Unfälle als multikausale und nicht als monokausale Ereignisse betrachten. Es ist zwar nicht möglich alle möglichen Unfallbedingungen abzubilden, aber die offizielle österreichische Straßenverkehrsunfalldatenbank (UDM) bietet eine solide Quelle für die Identifizierung von gemeinsam auftretenden, unfallbezogenen Variablen. Die UDM enthält mehr als 100 unfallrelevante Variablen, die helfen können, Unfallbedingungen und -ursachen genauer zu verstehen. Ein vertieftes Wissen über die Unfallbedingungen kann von Interesse sein, um (zielgruppenspezifische) Präventionsmaßnahmen abzuleiten, um die verbleibende Zahl der tödlichen und schweren Straßenverkehrsunfälle in Österreich zu reduzieren. Ziel dieser Arbeit ist es, wiederkehrende Kombinationen von unfallbeschreibenden Variablen zu erkennen, die wir als Variablenmuster (blackpatterns) bezeichnen.Diese Arbeit wendet daher einen Mustererkennungsansatz bei Unfällen mit einem Fahrzeug mit Einzelbesetzung und Personenschaden an, die sich zwischen 2012 und 2019 auf dem österreichischen Straßennetz außerorts ereignet haben (n=20.293). Es werden fahrer-, fahrzeug-, straßen- und situationsbezogene Variablen verwendet, um wiederkehrende Variablenkombinationen (blackpatterns) zu erkennen. Diese Variablen (insgesamt über 100) sind Teil der offiziellen österreichischen Straßenverkehrsunfalldatenbank (UDM). Um mit den amtlichen Daten Mustererkennungsmethoden durchführen zu können, ist jedoch eine Neuaufbereitung der amtlichen Datenbank notwendig. Die Neuaufbereitung der Datenbank stellt daher einen zentralen Bestandteil dieser Arbeit dar. Es ist wichtig hervorzuheben, dass in dieser Arbeit historische Straßenverkehrsunfälle untersucht werden und kein Unfallvorhersagemodell vorgestellt wird. Die Arbeit bezieht auch keine Daten zum Verkehrsgeschehen oder zur Verkehrsleistung ein. Es können daher keine Aussagen über die generelle Eintrittswahrscheinlichkeit eines Straßenverkehrsunfalls abgeleitet werden.Die Motivation dieser Arbeit ist es, sich auf die allgemeine Anwendbarkeit der vor-geschlagenen Methoden zu konzentrieren. Zunächst wird auf die statistischen Eigenschaften von Straßenverkehrsunfalldaten hingewiesen (d.h. Unsicherheit, der sogenannte ‚evaluation bias‘, seltene Ereignisse, Heterogenität etc.). Zweitens werden bestehende Muster-erkennungsmethoden für Straßenverkehrsunfalldaten diskutiert. Drittens werden ausgewählte Mustererkennungsmethoden auf die Stichprobe der Straßenverkehrsunfälle angewandt. Diese Methoden umfassen binomiale logistische Regression, Entscheidungsbäume, Bayes'sche Netze und eine entwickelte Mustererkennungs-methode, die auf den Häufigkeiten von Variablenkombinationen basiert (PATTERMAX-Methode).Zunächst werden deskriptive statistische Analysen durchgeführt, um die Beziehung zwischen jeder erfassten unfallbezogenen Variable und der Zielvariable „schwere Unfälle“ (das sind Unfälle mit tödlichen oder schweren Verletzungen) zu schätzen. Es werden Kontingenztabellen erstellt, bedingte und gemeinsame Wahrscheinlichkeiten berechnet, der exakte Test nach Fisher angewandt und Phi-Koeffizienten geschätzt. Außerdem wird eine robuste Parameterschätzung durchgeführt (95 %-Konfidenzintervalle, welche die Wahrscheinlichkeit des Auftretens einer Variablen und schwerer Unfälle angeben), indem ein Bootstrap-Resampling-Verfahren auf die neu erstellte Unfalldatenbank angewandt wird. Weiters wird ein sogenannter höchster Kombinationswert als wichtiges Maß für die Erkennung von Variablenmustern berechnet. Dieser Wert gibt an, wie oft eine bestimmte Variable mit (einer) anderen unfallbezogenen Variable(n) gemeinsam vorkommt. Anschließend wird eine binomiale logistische Regression durchgeführt, um den Einfluss jeder Variable auf schwere und tödliche Straßenverkehrsunfälle mit einem Odds Ratio zu schätzen (d. h. die Stärke der Beziehung zwischen einer unfallbezogenen Variable und der Zielvariable „schwere Unfälle“ im Vergleich zu allen beobachteten Variablen). Mit den Schätzungen, welche Variable das Risiko eines schweren oder tödlichen Straßenverkehrsunfalls zu erhöhen scheint, kann anschließend die Gesamtwirkung der noch zu entdeckenden Variablenmuster (blackpatterns) eingestuft werden. Als nächsten Schritt zur Erkennung von Variablenmustern werden Entscheidungsbäume mit dem CHAID-Algorithmus erstellt. Bis zu diesem Punkt helfen die binomiale logistische Regression und die Entscheidungsbäume dabei, kritische Variablen zu identifizieren, die den Unfallhergang bzw. den Grad der Verletzung erhöhen. Da der Fokus jedoch darauf liegt, vertiefte Kenntnisse über wiederkehrende Variablenkombinationen zu erlangen, werden die zugrunde liegenden Datenstrukturen noch tiefer analysiert. Zu diesem Zweck werden Bayes'sches Netzwerke und eine entwickelte Methode zur Mustererkennung (PATTERMAX-Methode) auf die Daten angewandt. Mit diesen Ansätzen werden schließlich wiederkehrende Variablenkombinationen detektiert. Die statistische Auswertung, ob die detektierten Muster einen signifikanten Zusammenhang mit der Zielvariablen „schwere Unfälle“ aufweisen, schließt den Mustererkennungsprozess ab. Wie der Anfang, so das Ende, und es werden der exakte Test nach Fisher und der Phi-Koeffizient dazu verwendet.Im Diskussionskapitel werden die schwerwiegendsten unfallbezogenen Variablen und Muster zusammengefasst. Außerdem werden die angewandten Mustererkennungsmethoden diskutiert. Abschließend werden Vorteile und Grenzen der PATTERMAX-Methode in Kombination mit der binomialen logistischen Regression aufgezeigt, um vertiefte Erkenntnisse über das Unfallgeschehen zu gewinnen. Im Rahmen des Forschungsausblicks wird die Ausweitung der Methoden auf Unfälle mit mehreren Beteiligten vorgeschlagen. Die neu erstellte Unfalldatenbank könnte auch als zuverlässige Quelle für die Unfallvorhersage dienen. Insbesondere die geschätzten 95%-Konfidenzintervalle könnten für die Erstellung eines Vorhersagemodells von Interesse sein.
de
dc.description.abstract
Besides the designation of a major accident cause and accident blackspots (i.e., accident accumulation points on the road network), we currently face a knowledge gap in the multivariate statistical investigation of co-occurring accident conditions. Official road traffic accident statistics in Austria indicate one explicit accident cause (or one explicit condition) for each road traffic accident (e.g., speeding). However, investigating co-occurring conditions (e.g., 'speeding', 'wet road', 'no safety belt applied' and 'probationary driving licence') is essential if we consider accidents as multicausal instead of monocausal events. It is, of course, impossible to depict all potential accident-related conditions. Still, the official Austrian road traffic accident database (UDM) provides a solid source to identify co-occurring accident-related variables. The UDM includes more than 100 accident-related variables, which can help understand accident conditions and causes in more detail. In-depth knowledge of accident conditions may be of interest in deriving (target-group specific) prevention measures to deal with the remaining number of fatal and severe road traffic accidents in Austria. Therefore, this thesis aims to detect recurring combinations of accident-related variables, which we designate as blackpatterns.Consequently, this thesis applies a pattern recognition approach among single-vehicle accidents with single occupation and personal injury that occurred on the Austrian road network and outside the built-up area between 2012 and 2019 (n=20.293). It uses driver-, vehicle-, roadway- and situation-related variables to detect recurring variable combinations (blackpatterns). These variables (over 100 in total) are part of the official Austrian road traffic accident database (UDM). However, reprocessing the official database is essential to conduct pattern recognition methods with the data. It is to point out that this thesis explores blackpatterns underlying historical road traffic accident records. This thesis does not present an accident prediction model. It does not include data on traffic performance to derive statements on the overall probability of a road traffic accident.The motivation of this thesis is to focus on the general applicability of the proposed methods. Firstly, we point out statistical characteristics of road traffic accident data (i.e., uncertainty, noise and bias, rare events, heterogeneity, and over-dispersion). Secondly, we discuss existing pattern recognition methods for road traffic accident data. Thirdly, we apply selected pattern recognition methods on the road traffic accident sample. These methods comprise binomial logistic regression, decision trees, Bayesian networks and a developed pattern recognition method based on the frequencies of variable combinations (PATTERMAX-method).In a primary step, we conduct descriptive statistical analyses to estimate the relationship between each recorded accident-related variable and the target variable severe casualties (accidents with fatal or severe injury). We create contingency tables, calculate conditional and joint probabilities, apply Fisher's exact test and estimate the Phi coefficient. Also, we generate a robust parameter estimation (95% confidence intervals showing the likelihood of a variable and severe or fatal accidents to occur) by applying a bootstrap resampling method on the newly established accident database. We calculate a so-called maximum combination value as an important measure towards blackpattern detection. This value tells us how often a specific variable co-occurs with (an)other accident-related variable(s). We then use binomial logistic regression to estimate each variable's impact on severe road traffic accidents with an odds ratio (i.e., the strength of the relationship between an accident-related variable and the target variable severe casualties compared to all observed variables). By knowing which variable appears to increase the risk of a severe road traffic accident, we can assess the overall impact of the detected blackpatterns.As the next step towards blackpattern recognition, we grow decision trees using the CHAID-algorithm. Up to this point, binomial logistic regression and decision trees help us identify critical variables that aggravate an accident outcome and the degree of injury, respectively. However, since we are interested in gaining in-depth knowledge of recurring variable combinations (blackpatterns), we zoom further into the underlying data structures.That being the case, we apply a probabilistic Bayesian network paradigm and a developed pattern detection method (PATTERMAX-method) to the data. Using these approaches, we finally detect blackpatterns and conclude the pattern recognition process with a statistical evaluation of whether the detected blackpatterns show a significant relationship with the target variable severe casualties. Like the beginning, so the end, and we calculate Fisher's exact test and the Phi coefficient.We summarize the most aggravating accident-related variables and blackpatterns in the discussion chapter. Furthermore, we compare the applied pattern recognition methods. Finally, we highlight the advantages and limitations of the PATTERMAX-method in combination with binomial logistic regression to gain in-depth knowledge about accident circumstances. The combined application of both methods enables a precise detection and comparison of blackpatterns. For example, do blackpatterns among female drivers differ from blackpatterns among male drivers? Do accident patterns on regional roads within an 80 km/h speed limit differ from those on a 100 km/h speed limit? Additionally, the combined approach of the PATTERMAX-method and binomial logistics regression enables the assessment of the detected blackpatterns with the help of an odds ratio.Within the research outlook, we propose expanding the investigation towards accidents with several parties involved. The newly established accident database might also serve as a reliable source for accident prediction. Especially, the estimated 95% confidence intervals may be of interest to establish a prediction model.
en