Lumplecker, T. (2007). Regression und Diskriminanzanalyse mit R [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/179401
Seit dem Beginn des Computer- und Informationszeitalters haben statistische Probleme in deren Groesse und Komplexitaet stark zugenommen. Die Menge der zu analysierenden Daten ist oft von enormen Umfang. Dadurch haben sich Vorgehensweisen entwickelt, die sich mit der Selektion, Untersuchung und dem Modellbau dieser Daten beschaeftigen und versuchen, die wesentlichen Strukturen und Muster aus diesen Daten herauszufiltern. Diese Arbeit beschaeftigt sich mit linearen und nichtlinearen Regressions- und Klassifikationsmethoden. Regressionsmethoden werden dazu verwendet, quantitative Werte vorauszusagen (z.B. Aktienpreis in 6 Monaten), waehrend Klassifkationsmethoden meist kategorische Eigenschaften zuorden (Herzinfarkt, kein Herzinfarkt). Zuerst wird auf die "'klassischen"' Methoden wie die Least Squares Regression und die Diskriminanzanalyse eingegangen. Anschlieszend werden modernere Methoden wie z.B. die "`General Additive Models"' behandelt, die sich durch die Herausforderung der oben geschilderten Probleme entwickelt haben und somit meist eine leichtere Handhabung ermoeglichen. Zu jeder der vorgestellten Methoden finden sich Beispiele aus der Praxis, welche in der Statistiksoftware R implementiert wurden. Es gibt je einen Datensatz zur Regression und Klassifikation, auf welche die verschiedenen Methoden angewandt und anschlieszend miteinander verglichen wurden.
de
With the start of the computer and information age, many statistical problems have tremendously grown in size and complexity. A lot of times, the amount of data which has to be analyzed is very large.<br />Therefore, new methods have been developped, whose aim lies in filtering the important patterns and modells through selection, exploration and modelling.<br /> This thesis describes linear and nonlinear regression and classification methods. Regression is used for predicting quantitative values (i.e. the value of a stock prize in 6 months) whereas classification deals with predicting categorial values(heart attack or no heart attack). First, classic methods like "Least Squares Regression" and "Discriminant Analysis" are introduced. Afterwards, more modern methods like "Generalized Additive Methods" are described, which allow an easier handling of large data. With all the introduced methods, examples in the statistical software R are introduced. There is a dataset each for regression and classification. The described methods are applied to the datasets and results are compared.