Bors, C., & Krejci, R. (2013). Storage and visualization of heterogeneous data from online social networks [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/159741
NoSQL; Heterogeneous Data; Online Social Networks; Digital Forensics; Graph Visualization; Social Network Analysis
en
Abstract:
Online Social Networks (OSNs) befinden sich unter den meistbesuchten Websites im Internet. Die Analyse der Informationen die von den Benutzern im Netzwerk zur Verfügung gestellt werden ist einerseits umfangreich und aufwendig, andererseits verlieren die Nutzer Kontrolle darüber, welche persönlichen Informationen über sie im Netzwerk aufzufinden sind. Kriminelle können diesen Umstand zu ihren Gunsten nutzen, dies gilt jedoch auch für ihr Pendant, forensische Ermittler. Im Rahmen dieser Diplomarbeit wird eine Software entwickelt, die die Analyse von sogenannten Social Snapshots erleichtert. Diese ist über zwei Hauptmodule verteilt: Eine Lösung zum Speichern der Daten sowie ein Modul zur weiteren Verarbeitung und Visualisierung. Mit einer fortgeschrittenen Datenbankanwendung werden die üblicherweise komplexen Datensätze gespeichert und bereit gestellt. In Hinsicht auf die Visualisierung der Daten werden automatisch generierte Graphdarstellungen von sozialen Netzwerken in den Vordergrund gestellt.<br />Zusätzlich können einzelne snapshots in einem umfassenden Report exportiert werden. Um solch heterogene Datensätze effizient zu verwalten wurde sowohl eine klassische relationale Datenbank sowie eine moderne NoSQL Datenbank implementiert um eine optimale Lösung in Hinsicht auf Performance und Verfügbarkeit des Systems zu gewährleisten. Ein abstraktes Zugriffsmodell liefert den nachfolgenden Verarbeitungsmodulen die angeforderten Daten wobei die zugrunde liegende physische Verbindung zur Datenbank für den Programmierer irrelevant ist. Die Analyse der Daten sowie die Erstellung der Visualisierungen wird als Plugin in Gephi, einem umfassenden Tool zur Visualisierung von Graphen, realisiert. Durch effiziente Darstellung und Clustering Methoden erhält der Benutzer eine verständliche Übersicht des sozialen Netwerks. Nach Beendigung der Analyse eines social snapshots hat der Benutzer die Möglichkeit semi-automatisch einen umfangreichen Report zu exportieren der allgemeine Informationen zum Schnappschuss, Visualisierungen und statistische Auswertungen enthält.<br />Als Abschluss der Arbeit wird das vorgestellte Framework in Hinsicht auf die Laufzeitperformance der Datenspeichermodule, der Informationsgehalt der verfügbaren Visualisierungen und die Benützbarkeit des Benutzerschnittstelle bewertet.<br />
de
Online Social Networks (OSNs) are in the verge of becoming one of the Internet's most visited sites. Analyzing the information provided by the users is on the one hand a tedious task but on the other hand people lose control of the information they have shared with the network, this leaves the door open for criminals and their counterpart:<br />Forensic investigators. The context of this thesis is to develop a software tool which facilitates analysis of so-called Social Snapshots split up into two major modules, the first one being a storage solution and the other one dealing with visualization and analysis assignments. Utilizing a sophisticated database solution we make the usually complex data set easily accessible and available to be further processed. In terms of visualization we are focusing on automated graph representations of social networks providing high usability. This is paired with an export functionality generating comprehensive reports of a single social snapshot.<br />To store and access such a heterogeneous set of data efficiently we assess different database concepts and implement a traditional relational database as well as a modern NoSQL database to determine an optimal solution regarding performance and accessibility. An abstract access model delivers queried data to the - visualization as well as statistics related - processing modules, coverting the underlying physical database connection. These processing modules are integrated into Gephi, a comprehensive graph visualization tool, harboring all snapshot analysis related functionality. Efficient graph representations and clustering methods provide an easily comprehensible social network overview. After having analyzed a social snapshot the user can choose to generate a comprehensive report containing general snapshot information, graph visualizations and statistic results.<br />The thesis is finalized with an evaluation of the proposed function set emphasizing the performance of the storage modules, the information content of the provided visualizations and the usability of the user interface.<br />