Learning representations from crowdsourced network benchmarks

Eller, Lukas

doi:10.34726/hss.2020.78925

Record link:

https://doi.org/10.34726/hss.2020.78925
http://hdl.handle.net/20.500.12708/15214

Title:

Learning representations from crowdsourced network benchmarks

Citation:

Eller, L. (2020). Learning representations from crowdsourced network benchmarks [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2020.78925

reposiTUm DOI:

10.34726/hss.2020.78925

CatalogPlus:

AC15703914

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Eller, Lukas

Advisor:

Rupp, Markus

Co-advisor:

Svoboda, Philipp

Organisational Unit:

E389 - Telecommunications

Date (published):

2020

Number of Pages:

133

Keywords:

Machine Learning; NN; LTE; Matlab; Crowdsourcing

Abstract:

In recent years there has been increased adoption of crowdsourced approaches in the realm of mobile network benchmarking. Compared to controlled drive tests, such approaches offer increased coverage — both in the spatial and temporal domain. However, obtaining fair network benchmarks from user measurements requires additional context information, as crowdsourced measurements are, by definition, not conducted under controlled conditions. Such context information might include tariff-limits, indoor/outdoor detection, or whether a user was static or moving during the measurement. The inference of such indicators tends to be challenging due to the limited availability of parameters and the tedious process of collecting labeled measurements. Based on a data set I collect in a reference LTE eNodeB, this work tackles one of the critical aspects in the realm of context inference — the detection of tariff-limited measurements. This is achieved following a two-step approach: First, I process the raw measurements into a vector consisting of carefully selected features that allow for separation of the training data set almost without error. I further deploy a semi-supervised machine learning algorithm operating on this feature vector. This approach based on label spreading can also make use of unlabeled tests — thus tackling the limited availability of labeled measurements. Results show that the classifier achieves an accuracy of 99% when validated on a self-collected representative outdoor data set. After applying the classifier to a crowdsourced data set and removing the limited tests, I obtain an operator benchmark from the network view.In a second step, I evaluate the application of autoencoders for representation learning in this field. Using deep learning techniques to process network measurements in an unsupervised setup, tackles the limited availability of labeled samples in a comprehensive way. The obtained latent space representation allows for large scale analysis of high-dimensional data sets and can act as the basis for a subsequent learning task. Evaluation of the 2D latent space shows that the autoencoder learns a representation that separates the collected data sets into limited and unlimited tests. When applied to crowdsourced data, the autoencoder highlights the tariff-structure of different mobile network operators.By following this two-step approach, this work covers the topic comprehensively. Besides tackling the particular challenge of tariff-detection in crowdsourced network benchmark, it also acts as a case study on how to conduct inference in an environment with only a small number of labeled samples and a limited availability of parameters.

Zur Erstellung von Benchmarks von Mobilfunknetzen wird seit einigen Jahren verstärkt auf Crowdsourcing zurückgegriffen. Da Crowdsourcing per Definition nicht unter kontrollierten Bedingungen durchgeführt wird, ist es jedoch erforderlich den Kontext einer Messung zu berücksichtigen um faire Network-Benchmarks zu erhalten. Ausgehend von einer Sammlung an selbst-durchgeführten Messungen an einem Referenz LTE eNodeB, befasst sich diese Arbeit mit einem der kritischen Aspekte im Bereich der Kontextbestimmung- die Klassifizierung einzelner Messungen in tarif-limitert oder unlimitiert. Dafür werden zunächst die relevanten Merkmale einzelner Messungen in einem Feature-Vector mit niedriger Dimension gebündelt. Es stellt sich heraus, dass diese Merkmale bereits eine annährend fehlerfreie Klassifizierung des Trainingsdatensatzes ermöglichen. Dieser Feature-Vector fungiert ferner als Grundlage für eine Klassifizierung basierend auf Label-Spreading. Als Semi-Supervised Algorithmus bietet Label-Spreading die Möglichkeitauch nicht-gelabelte Daten während des Trainingsprozess zu berücksichtigen. Durch die somit erhöhte Anzahl an Trainingsdaten kann eine Accuracy von 99% erreicht werden. Die Anschliessende Klassifizierung der Crowdsourcing-Daten ermöglicht die Entfernungtarif-limitierted Messungen — die übrigen Tests dienen somit als Grundlage für ein Netzbetreiber Ranking, das unabhängig von der jeweilgen Tarifstruktur ist. Der zweite Teil dieser Arbeit beschäftigt sich mit der Verarbeitung von Crowdsourcing-Messungen mithilfe von Autoencodern. Die Verwendung von Deep-Learning-Techniken zur Verarbeitung von Network-Benchmarks in einem Unsupervised-Setup adressiert die begrenzte Verfügbarkeit von gelabelten Messungen. Die erhaltene Latent-Space Darstellung ermöglicht die Auswertung von hochdimensionalen Datensätzen und kann als Grundlage für nachfolgende Inference-Tasks dienen. Die Auswertung eines 2-D-Latent-Space zeigt, dass der Autoencoder eine Darstellung lernt, die die gesammelten Datensätze in limitierte und unlimitierte Tests unterteilt. Des Weiteren, hebt der Autoencoder bei Anwendung auf Crowdsourcing-Daten die Tarifstruktur verschiedener Mobilfunknetzbetreiber hervor. Durch diesen zweistufigen Ansatz wird das Thema umfassend behandelt. Neben der Klassifizierung von Tarifflimitierungen in Crowdsourcing Network-Benchmarks dient die Arbeit somit auch als Fallstudie zur Durchführung von Regressions- oder Klassifizierungs-Aufgaben in einer Umgebung mit nur wenig gelabelten Datensätzen und einer begrenzter Verfügbarkeit von Parametern.

Additional information:

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

License:

In Copyright

Appears in Collections:

Thesis