Fodor, T. B. (2023). Analysing the internet aas a graph [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.105646
In den Anfangszeiten des Internets bestand dieses aus einigen wenigen Geräten, welche sich gegenseitig kannten. Der Datenfluss war leicht nachzuvollziehen. Heutzutage ist das Internet stark angewachsen, was es schwierig macht, die Pfade der Daten zu verstehen. Zudem machte der begrenzte Adressraum von IPv4 den Einsatz von Technologien zur Einsparung von Adressen erforderlich. In dieser Arbeit analysieren wir das Routing im heutigen Internet. Zu diesem Zweck verwenden wir Datensets aus zwei verschiedenen Quellen (Vienna-Monitor, CAIDA-Monitors) sowohl für IPv4 als auch für IPv6 zu unterschiedlichen Zeitpunkten. Wir konstruieren ein Framework, um die Rohdaten in einen Graphen zu verarbeiten und Knotengrad-Statistiken sowie die Betweenness-Zentralität (betweenness centrality) für die Knoten im Graphen zu berechnen. Unsere Analyse hat ergeben, dass das Routing für IPv6 zentralisierter ist als jenes für IPv4, allerdings mehr Redundanz auf lokaler Ebene aufweist. Der dezentrale Scan-Ansatz vom CAIDA Datenset führte zu kürzeren Pfaden, jedoch insgesamt zu einer stärkeren Zentralisierung als bei den Scans vom einzelnen Vienna-Monitor. Außerdem haben wir festgestellt, dass es bei IPv4 praktisch keine Veränderungen im Laufe der Zeit gibt, während IPv6 mit jeder Messung eine Tendenz zu mehr Zentralisierung zeigt. Darüber hinaus haben wir die Zentralisierung speziell anhand des Gini-Koeffizienten quantifiziert. Wir haben festgestellt, dass eingehende Verbindungen weniger konzentriert sind als ausgehende Verbindungen. Die Betweenness-Zentralität zeigt für alle Messungen ein hohes Maß an Zentralisierung.
de
In the early times of the internet, it consisted of a handful of devices which knew each other, and understanding the data flow was trivial. Nowadays, the internet has grown tremendously, making the task of understanding the paths the data is taking difficult. Additionally, the limited address space of IPv4 made the use of technologies necessary to save addresses. In this work, we analyse routing on today's internet. In order to achieve this, we use datasets from two different sources (Vienna monitor, CAIDA monitors) for both IPv4 and IPv6 from different points in time. We construct a framework for processing the raw data into a graph and calculate degree statistics as well as betweenness centrality for the nodes in the graph. Our analysis has shown that routing for IPv6 is more centralized than for IPv4, but also employs more redundancy on a local level. The distributed scan approach of CAIDA resulted in shorter paths, yet more centralization than the scans from the single Vienna monitor. We furthermore found that while for IPv4 there is virtually no change over time, IPv6 shows a tendency to more centralization with each measurement. In addition to that, we quantified centralization specifically using the Gini coefficient. We found that incoming connections are less concentrated than outgoing connections. Betweenness centrality shows a high degree of centralization for all measurements.