Vargas Rivera, C. A. (2025). Hearing the Forest: Machine Learning for Biodiversity Monitoring Using Soundscapes [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.126900
Die Agenda 2030 der Vereinten Nationen für nachhaltige Entwicklung hebt die dringende Notwendigkeit hervor, den Verlust der biologischen Vielfalt und die Degradierung von Land zu bekämpfen, die weltweit Ökosysteme und Lebensgrundlagen bedrohen. Diese Arbeit leistet hierzu einen Beitrag, indem sie das Payment for Environmental Services (PSA)-Programm in Costa Rica als Fallstudie für ein groß angelegtes biodiversitätsbezogenes Passive Acoustic Monitoring (PAM) unterstützt. Wir schlagen das FramewOrk for featuRe Extraction, viSualisation, and classificaTion of Soundscapes (FOREST) vor, ein modulares, Python-basiertes Framework, das die Vorverarbeitung, Datensatzkuratierung, Merkmalsextraktion, Visualisierung und prädiktive Klassifikation ökologischer Audioaufnahmen integriert. Zunächst entwickeln wir eine Pipeline, die Klanglandschaften in PyTorch-Tensoren transformiert, einen kuratierten Datensatz der Form 249,660 × 6,016 konsolidiert und fünf (5) statistische Skalare sowie elf (11) Ecological Acoustic Indices (EAIs) extrahiert. Zweitens entwickeln wir ein Evaluationsframework mit 3,577 experimentellen Durchläufen, um systematisch den Einfluss einzelner Merkmale und ihrer Kombinationen auf die Modellleistung zu analysieren. Die Ergebnisse zeigen, dass eine Teilmenge von fünf (5) EAIs, nämlich NPP, BET, HTP, AEI und HFQ, eine robuste und präzise Klassifikation ermöglicht. Ergänzende Spinnennetz-Visualisierungen zeigen deutliche ökoakustische Profile über die vier (4) untersuchten Ökosystem-Regions (Reference Forest, Pasture, Natural Regeneration, and Plantation) hinweg und stützen die Interpretation spezifischer EAIs als Proxy-Indikatoren für Biodiversität. Drittens entwerfen und vergleichen wir drei (3) hybride, Deep Learning (DL)-basierte prädiktive Modelle, nämlich ParaNet-CNN-LSTM, SeqNet-CNN-LSTM und SeqNet-LSTM-CNN, mit Basismodellen wie Simple-SVM, Simple-CNN, Simple-LSTM und ResNet1D. Die vergleichende Analyse zeigt, dass ParaNet-CNN-LSTM die konsistenteste und verlässlichste Leistung erzielt, mit Median-Accuracy-Werten über 90% und Maximum-Werten über 97.5% im optimalen Bereich von 10–13 Eingangsmerkmalen. Das FOREST-Framework fasst diese Beiträge in einer quelloffenen, webbasierten Anwendung zusammen, die unter www.soundforest.app zugänglich ist. Auch wenn der Ansatz durch ein unausgeglichenes Datenset, zeitliche Annahmen, fehlende Metadaten und die Einschränkung auf das PSA-Programm begrenzt ist, bietet die Methodik eine solide Grundlage. Diese Arbeit zeigt, dass die Kombination von EAIs mit DL-basierten hybriden Architekturen eine präzise Klassifikation ökologischer Klanglandschaften ermöglicht und einen skalierbaren Ansatz für das zukünftige Biodiversitätsmonitoring in unterschiedlichen Ökosystemen bietet.
de
The 2030 United Nations Agenda for Sustainable Development highlights the urgent need to address biodiversity loss and land degradation, which threaten ecosystems and livelihoods worldwide. This thesis contributes to these efforts by supporting the Payment for Environmental Services (PSA) program in Costa Rica as a case study for large-scale biodiversity Passive Acoustic Monitoring (PAM). We propose the FramewOrk for featuRe Extraction, viSualisation, and classificaTion of Soundscapes (FOREST), a modular Python-based framework that integrates preprocessing, dataset curation, feature extraction, visualisation, and predictive classification of ecological audio recordings. First, we establish a pipeline that transforms soundscapes into PyTorch tensors, consolidating a curated dataset of shape 249,660 × 6,016 and extracting five (5) statistical scalars and eleven (11) Ecological Acoustic Indices (EAIs). Second, we develop an evaluation framework comprising 3,577 experimental runs to systematically analyse the impact of individual features and their combinations on model performance. The results show that a subset of five (5) EAIs, namely NPP, BET, HTP, AEI, and HFQ, achieves robust and accurate classification. Complementary spidernet visualisations reveal distinct ecoacoustic profiles across the four (4) studied ecosystem regions (Reference Forest, Pasture, Natural Regeneration, and Plantation), supporting the interpretation of specific EAIs as proxy indicators of biodiversity. Third, we design and benchmark three (3) hybrid Deep Learning (DL)-based predictive models, ParaNet-CNN-LSTM, SeqNet-CNN-LSTM, and SeqNet-LSTM-CNN, against baseline models including Simple-SVM, Simple-CNN, Simple-LSTM, and ResNet1D. The comparative analysis shows that ParaNet-CNN-LSTM achieves the most consistent and reliable performance, with median accuracy values above 90% and maximum values exceeding 97.5% in the optimal range of 10–13 input features. The FOREST framework consolidates these contributions into an open-source, web-based application accessible at www.soundforest.app. While the approach is constrained by dataset imbalance, temporal assumptions, absence of metadata, and its limitation to the PSA program, the methodology provides a rigorous foundation. This thesis demonstrates that combining EAIs with DL-based hybrid architectures enables accurate classification of ecological soundscapes and offers a scalable path for future biodiversity monitoring across diverse ecosystems.
en
Weitere Information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers