Cencic, O. (2018). Probabilistic data reconciliation in material flow analysis [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2018.56632
E226 - Institut für Wassergüte und Ressourcenmanagement
-
Date (published):
2018
-
Number of Pages:
45
-
Keywords:
Materialflussanalyse
de
Material Flow Analysis
en
Abstract:
Die Materialflussanalyse (MFA) ist ein Werkzeug, das dabei hilft, die Flüsse und Lager eines zu untersuchenden Systems zu modellieren und zu quantifizieren. Auf Grund unvermeidlicher Mess- und Schätzfehler sind die erhobenen Daten im Widerspruch mit bekannten Zwangsbedingungen wie zum Beispiel dem Massenerhaltungsgesetz. Die grundlegende Idee des Datenausgleichs ist es, diese Widersprüche aufzulösen, indem die gesammelten Daten statistisch angepasst werden. Dabei wird angenommen, dass deren Unsicherheit durch eine Wahrscheinlichkeitsdichtefunktion beschrieben werden kann. Die meisten Lösungsverfahren, die in den letzten 60 Jahren entwickelt wurden, basieren auf einer Minimierung der gewichteten Quadrate der notwendigen Beobachtungsanpassungen (Methode der kleinsten Fehlerquadrate), bei der die zu erfüllenden Zwangsbedingungen beobachtete Variablen, unbekannte Variablen und fixe Größen enthalten können. Die zugrundeliegende Hauptannahme dieses Ansatzes ist, dass die Fehler der Beobachtungen normalverteilt sind, mit Mittelwert Null und bekannter Kovarianzmatrix. Dieser Ansatz wurde auch in STAN verwendet, einer frei erhältlichen Software für MFA, die die Berücksichtigung von Datenunsicherheiten unterstützt. Artikel 1 dieser kumulativen Dissertation behandelt die mathematischen Grundlagen des nichtlinearen Ausgleichsalgorithmus, der in STAN implementiert wurde und demonstriert seine Anwendung an einem hypothetischen Beispiel aus der MFA. In wissenschaftlichen Modellen im allgemeinen, und in MFA-Modellen im speziellen, sind die verwendeten Daten jedoch oft nicht normalverteilt. Deshalb wurde im Rahmen dieser Doktorarbeit ein alternativer Zugang zum Datenausgleich entwickelt, der auf bayesschen Schlussfolgerungen basiert und mit beliebigen stetigen Wahrscheinlichkeitsverteilungen umgehen kann. Die Hauptidee diese Ansatzes ist, die gemeinsame a-priori Wahrscheinlichkeitsverteilung der beobachteten Größen mit den Modellgleichungen einzuschränken, um die gemeinsame a-posteriori VIII Kurzfassung Wahrscheinlichkeitsverteilung zu erhalten. Da im allgemeinen die a-posteriori Verteilung nicht analytisch berechnet werden kann, wird gezeigt, dass es erhebliche Vorteile bringt, die a-posteriori Verteilung mittels eines Markov-Ketten-Monte-Carlo- Verfahrens (MCMC) zu beproben. Aus der resultierende Stichprobe können die gemeinsame Wahrscheinlichkeitsverteilung, sowie die a-posteriori Randverteilungen, Momente, Quantile und andere Charakteristika der beobachteten und unbekannten Variablen berechnet werden. Artikel 2 deckt den Fall der linearen Randbedingungen ab, während sich Artikel 3 mit nicht linearen Zwangsbedingungen beschäftigt. In beiden Artikeln werden Beispiele aus der MFA und der chemischen Literatur verwendet, um die Anwendung der entwickelten Methode zu demonstrieren. Zusätzlich enthält die Rahmenschrift dieser Doktorarbeit zwei Erweiterungen für den bayesschen Ansatz, die in den Artikeln 2 und 3 nicht behandelt wurden: (1) die Verwendung von Copulas für die Implementierung von korrelierten Beobachtungen und (2) die Verwendung von M-Schätzern, um eine Ausgleichsprozedur zu erhalten, die robust gegen Ausreißer ist und keine Annahmen über die Verteilung der Ausreißer benötigt.
de
Material Flow Analysis (MFA) is a tool that helps to model and quantify the flows and stocks of a system of interest. Due to unavoidable measurement or estimation errors, the observed values of flows and stocks are in conflict with known constraints such as the law of mass conservation. The basic idea of data reconciliation is to resolve these contradictions by statistically adjusting the collected data based on the assumption that their uncertainty is described by a probability density function (pdf). Most solving techniques that have been developed over the last 60 years are based on a weighted least-squares minimization of the measurement adjustments subject to constraints involving observed variables, unknown variables and fixed quantities. The underlying main assumption of this approach is that of normally distributed (Gaussian) observation errors, with zero mean and known covariance matrix. In STAN, a freely available software that supports MFA and allows to consider data uncertainties, this approach has been implemented. Paper 1 of this cumulative doctoral thesis covers the mathematical foundation of the nonlinear data reconciliation algorithm incorporated in STAN and demonstrates its use on a hypothetical example from MFA. In scientific models in general and in MFA models in particular, however, data is often not normally distributed. Thus, a different approach to data reconciliation, based on Bayesian reasoning, was developed within the scope of this thesis that can deal with arbitrary continuous probability distributions. Its main idea is to restrict the joint prior probability distribution of the observed variables with model constraints to get a joint posterior probability distribution. Because in general the posterior probability density function cannot be calculated analytically, it is shown that it has decisive advantages to sample from the posterior distribution by a Markov chain Monte Carlo (MCMC) method. From the resulting sample, the joint VI pdf of observed and unobserved variables and its moments can be estimated, along with the marginal posterior densities, moments, quantiles, and other characteristics. Paper 2 covers the case of linear constraints while paper 3 deals with nonlinear constraints. In both papers, the method is illustrated by examples from MFA and chemical engineering. Finally, the summary of this thesis contains two additional topics for the Bayesian approach, which haven’t been covered by the papers 2 and 3: it is shown how to use copulas to implement correlated observations, and how to use M-estimators to get a reconciliation procedure that is robust against outlying observations and does not require any prior assumptions on the distribution of the outliers.