E107 - Institut für Statistik und Wahrscheinlichkeitstherorie
-
Date (published):
2012
-
Number of Pages:
186
-
Keywords:
Spektren; Parafac; MCR-ALS; Spektrenzerlegung; Tucker Modell
de
Spektra; Parafac; MCR-ALS; Spectra Decomposition; Tucker Model
en
Abstract:
Diese Diplomarbeit handelt von sogenannten multi-way Daten und deren Zerlegung in Einzelkomponenten mittels der Techniken Multivariate Curve Resolution - Alternating Least Squares (MCR-ALS) und Parallel Factor Analysis (PARAFAC). Daten dieses Typs treten oft im Bereich der Analytischen Chemie als Ergebnis gekoppelter Techniken auf. Im einfachsten (zweidimensionalen) Fall bestehen diese Daten aus einer Matrix aus I Beobachtungen von jeweils J Variablen. Im dreidimensionalen Fall erhält man einen Daten-Quader, wie im Fall einer Zeitreihe bestehend aus einzelnen Anregungs-Emissions-Spektren, die die Emissionsintensität einer untersuchten Probe in Abhängigkeit der Anregungswellenlänge beschreiben. PARAFAC und MCR-ALS erlauben die Zerlegung eines Arrays X der Ordnung N in die Summe von n Arrays des Rangs 1. Das Ergebnis einer solchen Zerlegung sind die sogenannte Score- Matrix sowie Loading-Matrizen. Mit dieser Arbeit werden drei wesentliche Ziele verfolgt: 1. Die Implementierung der Methoden MCR-ALS und PARAFAC in R. 2. Die Untersuchung der Möglichkeiten und Grenzen der Algorithmen bei Anwendung derselben auf verschiedene Test-Datensätze. 3. Die Analyse eines realen Datensatzes bestehend aus einer Serie von Anregungs- Emissions-Spektren, die im Rahmen eines Protein-Produktionsprozesses aufgenommen wurden. Insgesamt wurden 13 zwei- und dreidimensionale Modell-Datensätze entworfen, um den Einfluß von homo- und heteroskedastischem Rauschen, von (zufällig oder systematisch) fehlenden Werten im Datensatz bzw. von Spektren mit unterschiedlichem Überlappungsgrad der Peaks auf das Verhalten des Algorithmus bzw. auf die erhaltenen Ergebnisse zu untersuchen. Kurz zusammengefasst ergaben sich für realistische Werte der eben genannten Faktoren sehr gute Übereinstimmungen der geschätzten mit den wahren Spektren bzw. Konzentrationsprofilen.
This diploma thesis deals with so-called multi-way data and their decomposition using Multivariate Curve Resolution - Alternating Least Squares (MCR-ALS) and Parallel Factor Analysis (PARAFAC). Data of this type are often the result of coupled techniques in analytical chemistry, such as liquid chromatography (LC)/diode-array detection (DAD) or gas chromatography (GC) coupled with mass spectrometry (MS). The simplest form of multi-way data are two-dimensional matrices displaying the scores of I samples on J variables. Adding one dimension results in data-cubes consisting of one sample-dimension and two variable modes. A typical example for such three-way data are a time- series of excitation-emission matrices, where the emission (intensity) of a sample in the UV-VIS range is detected as a function of the excitation-wavelength during e.g. a (bio)chemical reaction. MCR-ALS and PARAFAC are decomposition technique suited for such data. The results are a score matrix and two or more loading matrices. The three principal objectives pursued in this theses are 1. the implementation of the MCR- ALS and PARAFAC methods in R, 2. the application of these algorithms to model data sets and 3. the analysis of real data originating from a biochemical protein production process. The generated functions allow for a decomposition of the raw data array X with the number of components n as only mandatory input parameter. For a thorough analysis of the capabilites and limitations of the algorithms, model data sets are created to investigate the effects of homo- and heteroscedastic noise, randomly or systematically missing values in the raw data set, the resolution of the input data as well as the complexity of the peaks in the spectra-dimension on the decomposition results. For a realistic choice of these parameters both algorithms give excellent results for the model data sets.