Kynclova, P. (2016). Methodological contributions to compositional data analysis [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2016.23559
In der heutigen Zeit beobachten wir mehr und mehr Daten, die analysiert werden können, um das Verhalten, die Struktur, innere Muster, oder wechselseitige Beziehungen in einer Vielzahl von Variablen zu verstehen, und eine Erklärung zu erhalten, wie die Dinge um uns generell zusammenhängen. Einige dieser Daten könnten jedoch von spezieller Natur sein und eine besondere Vorbehandlung benötigen, bevor Standardmethoden der Statistik angewandt werden. Dies ist der Fall bei sogenannten Kompositionsdaten. Kompositionsdaten repräsentieren einen Spezialfall von multivariaten Daten, die ausschließlich relative Information beinhalten, und sie können häufig in einer Vielzahl von Anwendungen gefunden werden. Die interessierende Information liegt in den entsprechenden Verhältnissen der kompositionellen Variablen, und die Daten sind oft ausgedrückt in Anteilen oder Prozenten, d.h. als Daten mit konstanter Summe. Das macht die statistische Analyse aufwändiger, weil Kompositionsdaten nicht der üblichen euklidischen Geometrie folgen, die den meisten statistischen Prozeduren zugrunde liegt. Obwohl viele Fortschritte zur Entwicklung einer neuen Geometrie gemacht wurden, gefolgt von der sogenannten log-ratio Methodik, gibt es noch immer viele offene Themen im Bereich der Analyse von Kompositionsdaten. Diese Dissertation ist ausschließ lich der Analyse von Kompositionsdaten gewidmet, mit ihren spezifischen Methoden und Werkzeugen, entwickelt und untersucht anhand der derzeitigen Bedürfnisse der Praxis. Das Ziel der Dissertation ist es, ein umfangreiches Konzept der statistischen Analyse von Kompositionsdaten zu präsentieren, und neue methodische Beiträge in den Bereichen Zeitreihenanalyse und Korrelationsanalyse zu liefern, sowie eine Erweiterung von kompositionellen Biplots. Alle neuen Konzepte werden auf Datenbeispiele angewendet, um den praktischen Nutzen der geeigneten Geometrie und der Methoden für Kompositionsdaten aufzuzeigen.
de
The world is full of a large amount of data that can be analyzed to understand the behavior, structure, inner patterns or mutual relations between various variables, explaining how the things around us principally work. Some of the data could, however, be specific and require a special treatment when applying standard statistical analysis. This is the case with so called compositional data. Compositional data represent a special type of multivariate data carrying exclusively relative information, and they can frequently be found in various experimental fields. The main information of interest is then given by the respective ratios between the compositional parts, and the data are often expressed as proportions or percentages, i.e. as data with a constant sum constraint. All this makes the corresponding statistical analysis difficult, because compositional data do not follow the standard Euclidean geometry, which is required for applying the usual statistical procedures. Despite the fact that a lot of progress has been made with defining a new geometry followed by the log-ratio methodology, there are still several open issues in the field of compositional data analysis. This thesis is exclusively dedicated to compositional data analysis and its specific methods and tools developed and investigated based on the current needs of practitioners. The aim of the thesis is to present a comprehensive concept of the statistical analysis for compositional data and to introduce new methodological contributions in the field of time series analysis, correlation analysis, and an extension of compositional biplots. All new concepts are demonstrated on data examples to see the practical impact of using the appropriate geometry and methods for compositional data.