Freiler, W. (2008). Set type enabled information visualization [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/186419
Information Visualization; Visualization; Data Analysis; Set-Typed Data
en
Abstract:
Information Visualization is a research area in the field of computer graphics that deals with visual representations of abstract and usually multidimensional data. This data can origin from questionnaires, elections, measurements or simulations. Apart from specialized tools, that are made for a special purpose, there are general purpose tools, that can be used to analyze many kinds of different data.<br />These tools are made to handle different data types, like numeric or categorical values, some also support more advanced data types, like time series data or hierarchical data. In this document, the data type "set" will be introduced into the general purpose visualization tool ComVis. A set is a collection of multiple elements, that can also be empty. In many cases, a dimension with the data type set can replace multiple categorical dimensions and make data analysis and exploration more efficient and complex datasets easier to understand.<br />This work will not only explain, how to use sets to explore datasets, but also introduce a new specialized view based on a histogram view, that is dedicated to the use of sets. Of course, most of the already existing views have been modified to use sets, otherwise the newly added data type would be difficult to use either. Especially views that can display multiple dimensions were a challenge, because they allow the user to mix sets with other data types. Apart from the use of sets in various views, some additional topics are covered in this document. The conversion of existing categorical data is a very important feature, as well as a fast and efficient data structure. The existing methods for user interaction like "brushing" and "linked coordinated views" have to work as expected for all supported data types.<br />A set should not be seen as a new artificial data type, that we have to convert existing data to, but as the natural data type in many applications. Instead of introducing another conversion step for our data, we can avoid converting data with multiple related attributes to a range of categorical dimensions. Using sets is also an efficient way of dimension reduction, and can reduce the complexity of a dataset, as well as the amount of views needed for exploration.<br />Additionally, there are some examples on how to take advantage of sets when analyzing a real-world dataset. Some special features of this dataset as well as some erroneous entries are easier to find by using sets and views that support them.<br />
de
Informationsvisualisierung ist ein Forschungsgebiet der Computergraphik, das sich mit der visuellen Repräsentation von abstrakten und meist multidimensionalen Daten beschäftigt. Diese Daten können aus Befragungen, Wahlen, Messungen oder Simulationen stammen.<br />Neben spezialisierten Programmen, die für einen bestimmten Anwendungszweck geschaffen wurden, gibt es universelle Werkzeuge, die für die Analyse von vielen verschiedenen Arten von Daten geeignet sind.<br />Diese Programme können verschiedene Datentypen, wie numerische oder kategorische Daten verarbeiten, manche unterstützen auch weitere Datentypen, wie Zeitserien oder hierarchische Daten. In diesem Dokument wird das universelle Visualisierungsprogramm ComVis um den Datentyp "Set" (Menge) erweitert. Eine Menge ist eine Sammlung von mehreren Elementen, die auch leer sein kann. In vielen Fällen kann eine Dimension mit dem Datentyp Menge mehrere kategorische Dimensionen ersetzen und die Untersuchung und Analyse von Daten effizienter und verständlicher machen.<br />Diese Arbeit wird nicht nur erklären, wie Mengen zur Untersuchung von Daten genutzt werden können, sondern auch eine neue auf einem Histogram basierende Visualisierungstechnik, die speziell für Mengen gedacht ist, erläutern. Natürlich müssen auch die bereits vorhandenen Visualisierungen für die Darstellung von Mengen modifiziert werden, da dessen Nutzung sonst sehr eingeschränkt wäre. Besonders die Visualisierungen, die mehrere verschiedene Dimensionen darstellen können, sind eine Herausforderung, da hier die bestehenden Datentypen mit Mengen gemischt werden können. Abgesehen von der Visualisierung von Mengen beschäftigt sich dieses Dokument mit einigen verwandten Themen.<br />Die Konvertierung von bestehenden kategorischen Daten ist ein wichtiges Thema, genauso wie eine schnelle und effiziente Datenstruktur zu Speicherung. Die existierenden Interaktionsmethoden, wie "Brushing" oder "Linked Coordinated Views" müssen natürlich für alle Datentypen einwandfrei funktionieren.<br />Eine Menge sollte allerdings nicht als ein künstlicher Datentyp angesehen werden, der zusätzlichen Aufwand durch Konvertierungen erfordert, sondern als den für viele Anwendungen natürlichen Datentyp.<br />Anstatt eine Konvertierungsstufe für Daten einzuführen, kann die Verwendung von Mengen Konvertierungen von Daten, die mehrere verwandte Attribute enthalten, ersparen. Die Verwendung von Mengen ist eine effiziente Möglichkeit, um die Anzahl der Dimensionen und der zur Darstellung notwendigen Fenster zu reduzieren, was die Analyse von Datensätzen sehr vereinfachen kann.<br />Außerdem werden in dieser Arbeit einige Beispiele zur Untersuchung von Daten mit der Hilfe von Mengen erläutert. Einige Details dieses Datensatzes lassen sich mit Mengen und den neuen Visualisierungsmethoden sehr einfach aufspüren. Auch einige fehlerhafte Datensätze konnten hiermit entdeckt werden.