Citation:
Piringer, H. (2011). Large data scalability in interactive visual analysis [Dissertation, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/160807
-
Publication Type:
Thesis - Dissertation
en
Hochschulschrift - Dissertation
de
Language:
English
-
Date (published):
2011
-
Number of Pages:
142
-
Keywords:
Visualisierung; Skalierbarkeit; Interaktion; Datenanalyse; Multi-Threading; Punktdiagramme; hohe Dimensionalität
de
Visualization; Scalability; Interaction; Data analysis; multi-threading; scatter plots; high dimensionality
en
Abstract:
In vielen Bereichen von Wissenschaft und Industrie wachsen die Datenmengen so rasch, dass sie oftmals nicht mehr ausgewertet werden können. Andererseits birgt die noch nie dagewesene Verfügbarkeit von Daten ein enormes Potential zur Unterstützung von Entscheidungsfindungen. Die datenbasierte Wissensgewinnung ist somit eine zentrale Herausforderung des 21. Jahrhunderts.
Dank der Leistungsfähigkeit des menschlichen Sehapparates ist Visualisierung ein geeignetes Mittel um große Datenmengen zu verstehen.
Speziell interaktive Visualisierungen ermöglichen einen Diskurs mit Daten, der es erlaubt, kognitive Aufgaben durch visuelle Wahrnehmung zu lösen. Allerdings umfasst die visuelle Analyse großer und komplexer Daten Herausforderungen sowohl was die Darstellung, als auch was die Berechnung angeht. Erstere betreffen perzeptuelle und kognitive Grenzen von Benutzern während letztere eng mit der Komplexität der eingesetzten Algorithmik zusammenhängen.
Ziel dieser Dissertation ist die Erweiterung des Stands der Technik im Bereich visueller Analyse bezüglich der Skalierbarkeit für große Datenmengen. Entsprechend der vielen Facetten des Themas Skalierbarkeit spannen die Innovationen dieser Dissertation einen weiten Bogen von berechnungsbezogener Skalierbarkeit über die Verbesserung der visuellen Skalierbarkeit ausgewählter Visualisierungsansätze bis hin zur Unterstützung einer Analyse hochdimensionaler Daten.
Hinsichtlich berechnungsbezogener Skalierbarkeit beschreibt diese Dissertation eine generische Architektur, um den Einsatz von Multithreading bei der Entwicklung interaktiver visueller Analysesysteme zu erleichtern. Kern der Architektur ist die Trennung des Hauptthreads der Applikation von speziellen Visualisierungsthreads sowie deren vorzeitigen Abbruch im Falle von Benutzerinteraktion. Eine quantitative Evaluierung belegt ein rasches visuelles Feedback während kontinuierlichen Interaktionen selbst bei Millionen von Datenwerten.
Zwei Varianten von Punktdiagrammen widmen sich der visuellen Skalierbarkeit verschiedener Arten von Daten und Aufgaben. Im Falle kontinuierlicher Daten beabsichtigt eine Kombination aus 2D und 3D Punktdiagrammen die Vorteile zweidimensionaler Interaktion und dreidimensionaler Visualisierung miteinander zu kombinieren. Diverse Erweiterungen verbessern die Tiefenwahrnehmung in 3D und widmen sich dem Problem einer nicht erkennbaren Datendichte sowohl in 2D als auch in 3D.
Für den Fall teilweiser kategorischer Daten beschreibt die Dissertation eine als hierarchische Differenz-Punktdiagramme (Hierarchical Difference Scatterplots) bezeichnete Technik. Zweck ist es, mehrere Hierarchiestufen miteinander in Bezug zu setzen und deren Unterschiede in Bezug auf diverse Aggregate explizit darzustellen.
Während Vergleiche in hierarchischen Differenz-Punktdiagrammen nur qualitativer Natur sind, stellt diese Dissertation auch einen quantitativen Ansatz vor, der darauf beruht, statistische Momente von Teilmengen der Daten für potentiell viele Dimensionen gleichzeitig zu ermitteln. Anwendungen dieses Ansatzes umfassen sowohl einen Überblick über die Gesamtdaten als auch einen quantitativen Vergleich lokaler Charakteristika wie beispielsweise Cluster.
Die Validierung von Regressionsmodellen ist eine wichtige Anwendung für eine visuelle Analyse, die eine Skalierung hinsichtlich höher dimensionaler Daten erfordert. Für diese Anwendung wird eine Designstudie eines als HyperMoVal bezeichneten Ansatzes beschrieben.
Kernidee ist es, n-dimensionale Skalarfunktionen mit bekannten Validierungsdaten in einen gemeinsamen visuellen Bezug zu bringen. Die Integration mit anderen multivariaten Darstellungen stellt dabei einen Schritt in Richtung eines Benutzer-basierten Modellbildungsprozesses dar.
Als Ergebnis einer Zusammenarbeit mit Experten im Bereich Motorenentwicklung zeigt HyperMoVal auch, dass visuelle Analyse geeignet ist, reale Aufgaben erheblich zu erleichtern. Positives Feedback seitens von Benutzern deutet die Bedeutung der Innovationen dieser Dissertation auch außerhalb der Forschungsgemeinde im Bereich Visualisierung an. Umso mehr, als die meisten Innovationen dieser Dissertation in einem gemeinsamen Softwareframework für Ingenieursanwendungen kommerziell vertriebenen werden. Es ist zu hoffen, dass dieses das Bewusstsein um die Möglichkeiten visueller Analyse und deren Anwendung in unterschiedlichen Bereichen steigern wird.
Dank der Leistungsfähigkeit des menschlichen Sehapparates ist Visualisierung ein geeignetes Mittel um große Datenmengen zu verstehen.
Speziell interaktive Visualisierungen ermöglichen einen Diskurs mit Daten, der es erlaubt, kognitive Aufgaben durch visuelle Wahrnehmung zu lösen. Allerdings umfasst die visuelle Analyse großer und komplexer Daten Herausforderungen sowohl was die Darstellung, als auch was die Berechnung angeht. Erstere betreffen perzeptuelle und kognitive Grenzen von Benutzern während letztere eng mit der Komplexität der eingesetzten Algorithmik zusammenhängen.
Ziel dieser Dissertation ist die Erweiterung des Stands der Technik im Bereich visueller Analyse bezüglich der Skalierbarkeit für große Datenmengen. Entsprechend der vielen Facetten des Themas Skalierbarkeit spannen die Innovationen dieser Dissertation einen weiten Bogen von berechnungsbezogener Skalierbarkeit über die Verbesserung der visuellen Skalierbarkeit ausgewählter Visualisierungsansätze bis hin zur Unterstützung einer Analyse hochdimensionaler Daten.
Hinsichtlich berechnungsbezogener Skalierbarkeit beschreibt diese Dissertation eine generische Architektur, um den Einsatz von Multithreading bei der Entwicklung interaktiver visueller Analysesysteme zu erleichtern. Kern der Architektur ist die Trennung des Hauptthreads der Applikation von speziellen Visualisierungsthreads sowie deren vorzeitigen Abbruch im Falle von Benutzerinteraktion. Eine quantitative Evaluierung belegt ein rasches visuelles Feedback während kontinuierlichen Interaktionen selbst bei Millionen von Datenwerten.
Zwei Varianten von Punktdiagrammen widmen sich der visuellen Skalierbarkeit verschiedener Arten von Daten und Aufgaben. Im Falle kontinuierlicher Daten beabsichtigt eine Kombination aus 2D und 3D Punktdiagrammen die Vorteile zweidimensionaler Interaktion und dreidimensionaler Visualisierung miteinander zu kombinieren. Diverse Erweiterungen verbessern die Tiefenwahrnehmung in 3D und widmen sich dem Problem einer nicht erkennbaren Datendichte sowohl in 2D als auch in 3D.
Für den Fall teilweiser kategorischer Daten beschreibt die Dissertation eine als hierarchische Differenz-Punktdiagramme (Hierarchical Difference Scatterplots) bezeichnete Technik. Zweck ist es, mehrere Hierarchiestufen miteinander in Bezug zu setzen und deren Unterschiede in Bezug auf diverse Aggregate explizit darzustellen.
Während Vergleiche in hierarchischen Differenz-Punktdiagrammen nur qualitativer Natur sind, stellt diese Dissertation auch einen quantitativen Ansatz vor, der darauf beruht, statistische Momente von Teilmengen der Daten für potentiell viele Dimensionen gleichzeitig zu ermitteln. Anwendungen dieses Ansatzes umfassen sowohl einen Überblick über die Gesamtdaten als auch einen quantitativen Vergleich lokaler Charakteristika wie beispielsweise Cluster.
Die Validierung von Regressionsmodellen ist eine wichtige Anwendung für eine visuelle Analyse, die eine Skalierung hinsichtlich höher dimensionaler Daten erfordert. Für diese Anwendung wird eine Designstudie eines als HyperMoVal bezeichneten Ansatzes beschrieben.
Kernidee ist es, n-dimensionale Skalarfunktionen mit bekannten Validierungsdaten in einen gemeinsamen visuellen Bezug zu bringen. Die Integration mit anderen multivariaten Darstellungen stellt dabei einen Schritt in Richtung eines Benutzer-basierten Modellbildungsprozesses dar.
Als Ergebnis einer Zusammenarbeit mit Experten im Bereich Motorenentwicklung zeigt HyperMoVal auch, dass visuelle Analyse geeignet ist, reale Aufgaben erheblich zu erleichtern. Positives Feedback seitens von Benutzern deutet die Bedeutung der Innovationen dieser Dissertation auch außerhalb der Forschungsgemeinde im Bereich Visualisierung an. Umso mehr, als die meisten Innovationen dieser Dissertation in einem gemeinsamen Softwareframework für Ingenieursanwendungen kommerziell vertriebenen werden. Es ist zu hoffen, dass dieses das Bewusstsein um die Möglichkeiten visueller Analyse und deren Anwendung in unterschiedlichen Bereichen steigern wird.
In many areas of science and industry, the amount of data is growing fast and often already exceeds the ability to evaluate it. On the other hand, the unprecedented amount of available data bears an enormous potential for supporting decision-making. Turning data into comprehensible knowledge is thus a key challenge of the 21st century.
The power of the human visual system makes visualization an appropriate method to comprehend large data. In particular interactive visualization enables a discourse between the human brain and the data that can transform a cognitive problem to a perceptual one. However, the visual analysis of large and complex datasets involves both visual and computational challenges. Visual limits involve perceptual and cognitive limitations of the user and restrictions of the display devices while computational limits are related to the computational complexity of the involved algorithms.
The goal of this thesis is to advance the state of the art in visual analysis with respect to the scalability to large datasets. Due to the multifaceted nature of scalability, the contributions span a broad range to enhance computational scalability, to improve the visual scalability of selected visualization approaches, and to support an analysis of high-dimensional data.
Concerning computational scalability, this thesis describes a generic architecture to facilitate the development of highly interactive visual analysis tools using multi-threading. The architecture builds on the separation of the main application thread and dedicated visualization threads, which can be cancelled early due to user interaction. A quantitative evaluation shows fast visual feedback during continuous interaction even for millions of entries.
Two variants of scatterplots address the visual scalability of different types of data and tasks. For continuous data, a combination of 2D and 3D scatterplots intends to combine the advantages of 2D interaction and 3D visualization. Several extensions improve the depth perception in 3D and address the problem of unrecognizable point densities in both 2D and 3D.
For partly categorical data, the thesis contributes Hierarchical Difference Scatterplots to relate multiple hierarchy levels and to explicitly visualize differences between them in the context of the absolute position of pivoted values.
While comparisons in Hierarchical Difference Scatterplots are only qualitative, this thesis also contributes an approach for quantifying subsets of the data by means of statistical moments for a potentially large number of dimensions. This approach has proven useful as an initial overview as well as for a quantitative comparison of local features like clusters.
As an important application of visual analysis, the validation of regression models also involves the scalability to multi-dimensional data. This thesis describes a design study of an approach called HyperMoVal for this task. The key idea is to visually relate n-dimensional scalar functions to known validation data within a combined visualization. The integration with other multivariate views is a step towards a user-centric workflow for model building.
Being the result of collaboration with experts in engine design, HyperMoVal demonstrates how visual analysis is suitable to significantly improve real-world tasks. Positive user feedback suggests a high impact of the contributions of this thesis also outside the visualization research community. Moreover, most contributions of this thesis have been combined in a commercially distributed software framework for engineering applications that will hopefully raise the awareness and promote the use of visual analysis in multiple application domains.
The power of the human visual system makes visualization an appropriate method to comprehend large data. In particular interactive visualization enables a discourse between the human brain and the data that can transform a cognitive problem to a perceptual one. However, the visual analysis of large and complex datasets involves both visual and computational challenges. Visual limits involve perceptual and cognitive limitations of the user and restrictions of the display devices while computational limits are related to the computational complexity of the involved algorithms.
The goal of this thesis is to advance the state of the art in visual analysis with respect to the scalability to large datasets. Due to the multifaceted nature of scalability, the contributions span a broad range to enhance computational scalability, to improve the visual scalability of selected visualization approaches, and to support an analysis of high-dimensional data.
Concerning computational scalability, this thesis describes a generic architecture to facilitate the development of highly interactive visual analysis tools using multi-threading. The architecture builds on the separation of the main application thread and dedicated visualization threads, which can be cancelled early due to user interaction. A quantitative evaluation shows fast visual feedback during continuous interaction even for millions of entries.
Two variants of scatterplots address the visual scalability of different types of data and tasks. For continuous data, a combination of 2D and 3D scatterplots intends to combine the advantages of 2D interaction and 3D visualization. Several extensions improve the depth perception in 3D and address the problem of unrecognizable point densities in both 2D and 3D.
For partly categorical data, the thesis contributes Hierarchical Difference Scatterplots to relate multiple hierarchy levels and to explicitly visualize differences between them in the context of the absolute position of pivoted values.
While comparisons in Hierarchical Difference Scatterplots are only qualitative, this thesis also contributes an approach for quantifying subsets of the data by means of statistical moments for a potentially large number of dimensions. This approach has proven useful as an initial overview as well as for a quantitative comparison of local features like clusters.
As an important application of visual analysis, the validation of regression models also involves the scalability to multi-dimensional data. This thesis describes a design study of an approach called HyperMoVal for this task. The key idea is to visually relate n-dimensional scalar functions to known validation data within a combined visualization. The integration with other multivariate views is a step towards a user-centric workflow for model building.
Being the result of collaboration with experts in engine design, HyperMoVal demonstrates how visual analysis is suitable to significantly improve real-world tasks. Positive user feedback suggests a high impact of the contributions of this thesis also outside the visualization research community. Moreover, most contributions of this thesis have been combined in a commercially distributed software framework for engineering applications that will hopefully raise the awareness and promote the use of visual analysis in multiple application domains.
en
Additional information:
Zsfassung in dt. Sprache
-
Appears in Collections:
Items in reposiTUm are protected by copyright, with all rights reserved, unless otherwise indicated.