E194 - Institut für Information Systems Engineering
-
Date (published):
2026
-
Number of Pages:
60
-
Keywords:
Poverty Mapping; Transfer Learning; Country Similarity; CatBoost; Tabular Machine Learning; Missing Data Handling
en
Abstract:
Maschinelles Lernen bietet eine vielversprechende Lösung für die Erstellung hochauflösender Armutskarten, doch wird seine Anwendung in datenarmen Regionen wie Subsahara-Afrika häufig durch begrenzte verfügbare Erhebungsdaten und unvollständige Geodaten erschwert. Diese Arbeit befasst sich mit diesen Herausforderungen, indem Strategien untersucht werden, um die Übertragbarkeit von Modellen zwischen Ländern zu verbessern und den Umgang mit fehlenden Daten für eine präzise Armutsschätzung zu optimieren. Anhand von Daten aus sechs unterschiedlichen subsaharischen Ländern und vier Datenquellen (Nachtlichter, Bevölkerung, Mobilfunk und Infrastruktur) werden CatBoost-Modelle eingesetzt, um die Rolle der Ländersimilarität für den Modelltransfer zu evaluieren, optimale Strategien zum Umgang mit fehlenden Daten zu bestimmen und die Wirksamkeit verschiedener Transfer-Learning-Techniken zu vergleichen.Die Ergebnisse zeigen, dass die Transferleistung stark von der Ländersimilarität abhängt, wobei der Jones Country Similarity Index besonders aussagekräftig ist. Zudem spielt die Auswahl der Länder, die für das Modelltraining genutzt werden, eine zentrale Rolle: Die Hinzunahme ähnlicher Länder kann die Leistung verbessern, während die Einbeziehung unähnlicher häufig zu negativem Transfer führt. Die Modelle zeigten eine hohe Robustheit gegenüber teilweisem Datenverlust, während sich die Rekonstruktion fehlender Featurekategorien als weniger wirksam erweist. Unter den Transfer-Learning-Methoden zeigte Feature Augmentation die höchste Wirksamkeit und übertraf in fünf von sechs Ländern die Baseline-Ergebnisse. Die Ergebnisse sind in einem praxisnahen Entscheidungsrahmenwerk für die Armutskartierung in datenarmen Umgebungen zusammengefasst.
de
Machine learning offers a promising solution for high-resolution poverty mapping, but its application in data-scarce regions like sub-Saharan Africa is often hampered by limited ground-truth survey data and incomplete geospatial features. This thesis addresses these challenges by investigating strategies to enhance model transferability and manage missing data for accurate poverty estimation. Using data from six diverse sub-Saharan African countries and four feature sources (nighttime lights, population, cell towers, and infrastructure), this study employs CatBoost models to evaluate the role of country similarity in model transfer, determine optimal strategies for handling missing data, and benchmark the effectiveness of various transfer learning techniques.The findings show that transfer performance is strongly influenced by country similarity, with the Jones Country Similarity Index proving most predictive. Moreover, the choice of source countries matters greatly: adding data from similar countries can improve performance, whereas including dissimilar ones often introduces negative transfer. Retraining on available features consistently outperformed reconstructing missing ones, indicating model robustness to partial data loss. Among transfer learning methods, Feature Augmentation was most effective, outperforming within-country baselines in five of six countries. The study contributes a practical framework for poverty mapping in data-scarce environments.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers