Prager, L. (2021). Examining Austrian COVID-19 data in the context of linear regression [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.89063
E105 - Institut für Stochastik und Wirtschaftsmathematik
-
Date (published):
2021
-
Number of Pages:
44
-
Keywords:
Covid-19; Linear regression; Lasso
en
Abstract:
Hintergrund: Der neuartige Coronavirus SARS-CoV-2 ist nun schon seit mehr als einem Jahr ständiger Begleiter unseres täglichen Lebens. Aufgrund der wirtschaftlichen und gesundheitlichen Schäden der Pandemie ist eine Analyse der Fallzahlen unumgänglich. Methode: Mit Hilfe von linearen Regressionsmodellen werden Zusammenhänge zwischen der 7-Tage-Inzidenz in Österreich und anderen Variablen quantifiziert. Um eine Reihung der erklärenden Variablen nach Wichtigkeit zu erhalten, werden der p-Wert eines t-Tests, das adjustierte Bestimmtheitsmaß R^2_adj und LASSO Pfade betrachtet. Die Berechnungen werden mit Hilfe des Statistikprogramm R durchgeführt. Ergebnisse: Wichtige erklärende Variablen bei der Beschreibung der 7-Tage-Inzidenz sind die Anzahl der durchgeführten Tests, die Außentemperatur, der Schweregrad der Lockdownmaßnahmen, Homeschooling und das Vorhandensein von Ferien, während Mobilitätsdaten von Apple weniger bedeutende erklärende Variablen darstellen. Insgesamt beträgt das Gütemaß des Fits R^2_adj = 0,9555. Schlussfolgerungen: Obwohl das lineare Regressionsmodell aufgrund komplexer Beziehungen zwischen den einzelnen Variablen an seine Grenzen stößt, fällt der Fit insgesamt sehr gut aus. Die Wahl erklärender Variablen ist dabei jedoch schwierig.
de
Background: The novel coronavirus SARS-CoV-2 has been a constant companion in our daily lives for more than a year now. Due to the economic and health damage of the pandemic, an analysis of the corona figures is inevitable. Method: Linear regression models are used to quantify the relationship between the 7 day incidence in Austria and other variables. To obtain a ranking of explanatory variables by importance, the p-value of a t-test, the adjusted coefficient of determination R^2_adj and LASSO paths are considered. The statistic software R is used for calculation. Results: For describing the 7 day incidence, important explanatory variables are the number of tests performed, outdoor temperature, the severity of lockdown measures, homeschooling, and the presence of holidays, while mobility data from Apple show lower importance. Overall, the goodness of fit is R^2_adj = 0.9555. Conclusions: Although the linear regression model reaches its limits due to complex relationships among certain variables, the overall fit turns out to be very good. However, the choice of explanatory variables is difficult.