Gusenbauer, M. (2018). Bitstream : eine bottom-up/top-down Methode für intteraktive Bitcoin-Visualisierungen : a bottom-up/top-down approxach to data loading for interactive bitcoin visualizations [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2018.49040
E186 - Institut für Computergraphik und Algorithmen
-
Date (published):
2018
-
Number of Pages:
103
-
Keywords:
big-data; Visualisierung
de
big-data; visualization
en
Abstract:
Die Analyse großer Datenmengen is ein immer größer werdendes Problem. Bitcoin hat mehr Daten erzeugt, als es möglich ist zu analysieren. Um diese Schwierigkeiten zu kompensieren, wurden verschiedenste Ideen, zum Beispiel Datenaggregation oder Datenminimierung, vorgeschlagen. Wiederum andere Arbeiten konzentrieren sich auch auf die Einführung neuer Visualisierungstypen, die auf die neuartige Visualisierung von Daten ausgerichtet sind. Die Visualisierung von Graphen durch Node-Link-Diagramme bleibt jedoch eine schwierige Herausforderung. Die Analyse des Bitcoin-Transaktionsgraphen ist aufgrund des Bitcoin-Protokolls und der Datenmenge ein schwieriges Problem. Diese Arbeit kombiniert zwei Datenverarbeitungsstrategien, um große Netzwerkdaten auf Standardhardware zu visualisieren. Durch Visualisierung werden Muster identifiziert, mit denen man Transaktionen deanonymisieren kann. Ein Proxy-Server vorverarbeitet Daten bevor sie auf einem Web-Client visualisiert werden. Der Proxy nutzt parallele Datenverarbeitung, um schnell genug für die interaktive Visualisierung zu sein. Dies geschieht durch inkrementelles Laden (Bottom-Up), was es ermöglicht, Daten sofort ohne (Vor-)Verarbeitung zu visualisieren. Die Blockchain als zentraler Datenspeicher von Bitcoin ist über 163 Gigabyte groß. Der daraus resultierende Graph hat mehr als 800 Millionen Knoten. Da diese Informationen zu groß sind, um sie zu visualisieren, verwenden wir auch einen Top-Down-Ansatz der Datenaggregation und Graphminimierung des Transaktionsgraphen. Mit dieser Methodik werden Probleme langer Verzögerungen gelöst. Das System wird durch den Dialog mit Sicherheitsexperten, im Bereich Crypto-Währungen, konzipiert und implementiert. Die explorative Analyse eines großen Datensatzes, wie etwa Bitcoin, wird durch die in dieser Arbeit vorgestellte Methodik ermöglicht. Weiters hilft es Sicherheitsexperten, den Geldfluss in einem Finanznetzwerk zu analysieren, das von Kriminellen wegen seiner Anonymität genutzt wird. Wir bewerten das Ergebnis anhand der Verarbeitungsleistung und der Rückmeldung dieser Sicherheitsexperten und vergleichen das Leistungsverhalten mit aktuellen, bewährten Vorgangsweisen.
de
Analyzing large amounts of data is becoming an ever increasing problem. Bitcoin as an example has produced more data than is possible to analyze. In order to compensate for these difficulties, creative ideas that employ data aggregation or minimization have been proposed. Other work also focuses on introducing novel visualization types that are geared towards the visualization of blockchain data. However, visualization of graphs through node-link diagrams remains a difficult challenge. Analysis of the Bitcoin transaction graph to follow bitcoin transactions poses a difficult problem due to the Bitcoin protocol and the amount of data. This thesis combines two data processing strategies to visualize big network data on commodity hardware. The idea is to use visualization as a technique to analyze a data-set containing Bitcoin transaction information. Criminals use Bitcoin as a means of payment because of its guaranteed pseudonymity. Through visualization we aim to identify patterns that will allow us to deanonymize transactions. To do so we use a proxy server that does data preprocessing before they are visualized on a web client. The proxy leverages parallel computing to be able to do top-down and bottom-up data processing fast enough for interactive visualization. This is done through incremental loading (bottom-up), which enables to visualize data immediately without a (pre-)processing delay. The database containing the public Bitcoin ledger is over 163 gigabytes in size. The resulting graph has more than 800 million nodes. As this information is too much to be visualized, we also employ a top-down approach of data aggregation and graph minimization of the transactional graph. Through this methodology we intend to solve performance problems of long processing delays and the problem of fractured data where the data is shown only partially in the visualization. We collaborate with security experts who share insights into their expertise through a continuously ongoing dialog. Exploratory analysis on a big data-set such as the Bitcoin ledger, enabled through the methodology presented in this thesis, will help security experts to analyze the money flow in a financial network that is used by criminals for its anonymity. We evaluate the result through the performance and feedback of these security experts as well as benchmark the performance against current best practice approaches.