Berger, W. (2008). Computationally assisted interactive visual analysis of large datasets [Master Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/186426
Visual Analytics; Ranking; High Dimensionality; Focus+Context
en
Abstract:
Informationsvisualisierung nutzt die außergewöhnlichen visuellen Fähigkeiten des Menschen für die Untersuchung von abstrakten Daten, welche meist durch mehrdimensionale Tabellen repräsentiert sind und keine einfache geometrische Interpretation zulassen. Beispiele hierfür sind Daten aus Volksbefragungen oder Musikdatenbanken. Des-halb werden Visualisierungsansätze angewandt, die solche abstrakten Daten in visuelle Strukturen überführen mit denen der Benutzer vertraut ist.<br />Kombiniert mit interaktiven Methoden ermöglichen sie intuitives Verständnis der angezeigten Daten und Herauslösen von Information.<br />Dieser explorative Ansatz begünstigt außerdem das Auffinden unerwarteter, aber dennoch potenziell interessanter Information.<br />Allerdings wird es mit steigender Dimensionalität zunehmend schwierig, klare Visualisierungen zu finden, welche einerseits alle Dimensionen berücksichtigem, um für einen kompletten überblick sorgen, und andererseits genug Details bieten, um den Benutzer auf möglicherweise interessante, erforschenswerte Unterbereiche des Datensatzes hinzuweisen.<br />Weiters sind heutzutage statistische Methoden gebräuchlich und in der Lage, große Datensätze mittels klarer numerischer Zusammenfassungen zu charakterisieren. Ein ebenfalls wichtiger Fakt ist, dass viele dieser Charakteristiken mit aktueller Standardhardware sogar für Millionen von Werten nahezu in Echtzeit berechnet werden können.<br />Daher kombiniert diese Masterarbeit interaktive und automatische Methoden, um den Workflow der visuellen Datenexploration zu verbessern, indem sie den Benutzer durch einen hochdimensionalen Datensatz führt.<br />Sie basiert auf den Konzept der "Ranking Features" und verwendet beschreibende Statistik, um Attribute bzw. Attributkombinationen hervorzuheben, welche die jeweils geforderten Eigenschaften für eine weitergehende Untersuchung aufweisen. Der wahrscheinlich wichtigste Beitrag dieser Arbeit ist die Möglichkeit, weiterhin in der Informationsvisualisierung gebräuchliche Interaktionsmechanismen zu verwenden, sodass die Chance auf das Entdecken unerwarteter Erkenntnisse und Einsichten bestehen bleibt. Dies ist mit ausschließlich automatischen Mechanismen in der Regel nicht möglich. Die hier präsentierte Lösung leitet sämtliche Kalkulationen statistischer Momente von interaktiv definierbaren Teilmengen des Originaldatensatzes ab und lässt so iterative Analyseprozesse zu, was ein leistungsstarker Ansatz für die Charakterisierung gewisser isolierter Datenbereiche ist.<br />Außerdem wurde sie in ein bestehendes InfoVis-System integriert und gewinnt durch die mögliche Kombination mit anderen Visualisierungen weiter an Nutzen.<br />Schließlich war Skalierbarkeit hinsichtlich der Datenmengen eine wichtige Anforderung, weshalb die Implementierung Millionen von Einträgen effizient handhaben kann.<br />
de
Information visualization (InfoVis) aims at using human perceptual abilities for analyzing data. A frequent kind of data are multidimensional tables, which do not allow for straightforward mapping to any geometry, like census data or music databases. Therefore various approaches visualize such data by transforming it into visual structures that are expected to be meaningful to the viewer. Along with a strong emphasis on interactive exploration, InfoVis supports understanding the data, it enables the user to extract information, and also allows for discovering unexpected facts. However, with rising dimensionality it becomes increasingly difficult to visualize the data in a way that sufficiently considers all dimensions in order to provide a complete overview without being too complex. Furthermore, mechanisms which guide the user to possibly interesting data subsets are important.<br />On the other hand, statistics is well known and able to condense large datasets to concise numerical summaries. Furthermore, many characteristics can be calculated in near real-time on current off-the-shelf computer systems even for millions of values.<br />Consequently, this thesis combines interactive and automatic techniques to improve the visual data exploration workflow by guiding the user through a high-dimensional dataset. It is based on the concept of ranking features and it also uses descriptive statistics to provide a starting point for hinting at potentially interesting (combinations of) attributes, which in turn may be subject to further interactive investigation. However, while automatic methods for analyzing the dataset are adopted, the user still has the possibility to apply common interaction techniques from the area of information visualization. This conserves the possibility to gain unexpected insight, which is generally not supported by non-interactive approaches. The solution presented in this thesis allows for calculating statistical moments on interactively defined subsets of the data and therefore supports an iterative analysis, which is a powerful approach for characterizing separate parts of the dataset. Integrating it into an existing InfoVis system and thus combining it with several other views makes it even more valuable.<br />Furthermore, scalability with respect to the amount of data has been an important requirement so that the implementation can handle millions of entries efficiently.