Alsallakh, B. (2014). Visual analytics of large homogeneous data : categorical, set-typed, and classification data [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2014.25524
Information visualization; visual analytics; Data Analysis
en
Abstract:
Homogene multivariate Daten umfassen eine Vielzahl an Variablen mit ähnlichem Verhalten/ ähnlicher Struktur. Diese Variablen können Unterschiedliches repräsentieren - zum Beispiel die Wahrscheinlichkeit, mit der ein Element in eine bestimmte Gruppe gehört, oder die Zuordnung eines Elementes zu einer Reihe von Mengen. In vielen Anwendungsgebieten werden solche Daten genutzt, um die Zugehörigkeit von einer relativ großen Menge an Elementen zu einer relativ kleinen Anzahl an Gruppen oder Kategorien zu beschreiben. Eine homogene Tabelle zeigt beispielsweise, welche Gene (Zeilen) in welchem Individuum (Spalten) vorkommen, oder wie oft ein Buch (Zeilen) in verschiedenen Ländern (Spalten) verkauft wurde. Die Analyse solcher Zusammenhänge ermöglicht es, Muster in den Daten zu erkennen - etwa Gene, die oft oder nie zusammen vorkommen, oder Bücher, die hauptsächlich in bestimmten Ländern verkauft werden. Für die Untersuchung derartiger Muster in großen homogenen Datenmengen wurden bereits automatisierte Methoden und Visualisierungen angewandt. Allerdings mangelt es selbst bei der Verwendung neuester Visualisierungstechniken an der Skalierbarkeit in Bezug auf die Anzahl von Elementen, und an der fehlenden Miteinbeziehung der speziellen Eigenschaften, die verschiedene Gruppen homogener Daten, bezogen auf die konkreten Aufgabenstellungen, haben. In dieser Dissertation stelle ich neue visuelle Metaphern und interaktive Explorationsumgebungen für die Analyse großer homogener Daten vor. Die vorgeschlagene Rad-Metapher ermöglicht es, basierend auf den Zusammenhängen mit anderen Spalten, Elemente auszuwählen und zu untersuchen. Darüber hinaus liegt das Hauptaugenmerk der Visualisierung auf den Spaltenvariablen und den Relationen zwischen den Spalten. Dieser Fokus ermöglicht die Analyse dieser Beziehungen basierend auf den Zeileneinträgen, die diese Relationen definieren. Die interaktive Explorationsumgebung erlaubt es, verschiedene Aspekte der Daten und der Element-Attribute in verschiedenen Detailgraden zu betrachten. Ich veranschauliche meinen Ansatz mit drei unterschiedlichen Arten von homogenen Daten: mengenartige Daten, wahrscheinlichkeitstheoretische Klassifikationsdaten, und kategorische Daten. Jede dieser drei Gruppen weist bestimmte Charakteristika in den Daten auf, wie etwa spezielle Anforderungen und Aufgaben. Damit zeige ich, dass die visuelle Metapher ausreichend flexibel und erweiterbar ist, um diese Aufgaben skalierbar zu lösen. Ich belege die Anwendbarkeit meines Ansatzes anhand von Usage-Szenarien, Insight-Studien und Fallstudien mit unterschiedlichen Daten aus mehreren Domänen. Zur Beurteilung der Brauchbarkeit der vorgestellten Methoden wurden Benutzerstudien und Interviews mit Experten durchgeführt. Die größten Vorteile der visuellen Metapher sind die Skalierbarkeit in Bezug auf die Anzahl der Elemente anhand von geeigneten Aggregationsmethoden für homogene Daten, sowie die zahlreichen Interaktionsmöglichkeiten, um die Auswahl der Daten basierend auf einer Vielzahl von Kriterien zu unterstützen. Nachteile zeigen sich in der Komplexität der visuellen Metapher, welche es für den Benutzer notwendig macht, diese ausreichend zu erlernen, in der limitierten Skalierbarkeit in Bezug auf die Anzahl der Spalten und in der niedrigen Sensitivität, kleine Unterschiede in den Relationen zu analysieren. Dennoch ist die Rad-Metapher geeignet, die Limitierungen mit komplementären analytischen Methoden, Interaktionen und koordinierten Ansichten zu überbrücken und damit einen Überblick über große homogene Daten zu erlangen. Als Ergebnis entstehen neuartige Analysemöglichkeiten sowie neuartige Erkenntnisse in den Daten, und zwar über den aktuellen Stand der Technik hinaus.
de
A multidimensional data set is homogeneous when the dimensions have the same nature. For instance, these dimensions can represent the probabilities for a sample to belong to different classes, or item memberships of multiple sets. Such data appear very often in different domains to describe how a relatively large number of items are related to a relatively small number of classes or categories. For examples, a homogeneous data set might record which genes (rows) appear in which individuals (columns), or how many times books (rows) are sold in different countries (columns). Analyzing these relations reveals several patterns in the data such as genes that are observed frequently or never together, or books that sell mostly in a specific country. Both automated methods and visualization have been applied to analyze homogeneous data. However, state-of-the-art visualization techniques are lacking either in scalability with the number of data points or in addressing the specific nature of different classes of homogeneous data, and the tasks associated with them. In this dissertation, I propose novel visual metaphor and interactive exploration environment for analyzing large homogeneous data. The proposed wheel metaphor allows analyzing and selecting the data points based on their relations with the different dimensions. Moreover, it emphasizes the dimensions and the relations between them as the central part of the visualization, and allows analyzing these relations based on the data points defining them. The proposed interactive exploration environment allows analyzing different aspects of the data at multiple levels of detail. I illustrate how the proposed approach can be applied to analyze three classes of homogeneous data: set-typed data, probabilistic classification data, and categorical data. Each class has its own characteristics that imply specific requirements and tasks. These different tasks are supported by the proposed approach, thanks to its flexibility and extensibility. I demonstrate the applicability of my approach by means of usage scenarios and case studies with various datasets from multiple domains. Also, both user studies and interviews with domain experts were conducted to assess the utility of the proposed methods. The major advantages of the proposed visual metaphor is its scalability in the number of data points, thanks to dedicated aggregation methods for homogeneous data, and to the rich sets of interactions it supports to select the data based on a variety of criteria. The major disadvantages are the complexity of the visual metaphor that requires sufficient user training, the limited scalability in the number of dimensions, and the low sensitivity to small differences in the data being analyzed. Nevertheless, the wheel metaphor is suited to gain an overview of large homogeneous data, with complementary analytical methods, interactions, and coordinated views being used to cope with the limitations. As a result, novel analysis possibilities and insights in the data are possible, beyond state-of-the-art techniques.
en
Additional information:
Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers Zsfassung in dt. Sprache