Prüller, A. (2024). Influence of sparse data on PV power prediction accuracy using machine-learning models [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.116921
Photovoltaik-Anlagen spielen eine zunehmende Rolle in der zukünftigen Energieversorgung mittels erneuerbarer Energien. Diese dezentrale Form von Kraftwerken birgt Herausforderungen für das Stromnetz und eine möglichst präzise Vorhersage von Leistungserträgen ist für die Bewältigung essentiell. Maschinelles Lernen hat mehrfach gezeigt, dass es dieser Aufgabe gewachsen ist, jedoch ist dieses besonders von Eingabedaten abhängig. Das Ziel dieser Arbeit ist es den Einfluss von verrauschten und spärlich verfügbaren Daten auf die Vorhersagequalität zu bestimmen. Dafür werden vier Szenarien untersucht: verrauschte Daten, fehlende Parameter, reduzierte Anzahl an historischen Daten und gestückelte Datensets. Diese Fälle werden an zwei verschiedenen PV-Anlagen nahe Wien getestet, für zwei Arten von maschinellem Lernen (decision tree und neuronales Netzwerk) implementiert und gemäß zwei verschiedenen Fehlermaßen ausgewertet. Die Vorhersagequalität zeigt wenig bis keinen Unterschied für verrauschte Daten, aber eine signifikante Verschlechterung für fehlende Parameter, insbesondere bei fehlenden Einstrahlungswerten. Für das Maschinelle Lernen erweist sich das Training mit der maximalen Menge an Daten als nachteilig für die Vorhersage, während die Einbeziehung einiger Ausreißerdaten vorteilhaft sein kann. Das unterstreicht die Bedeutung ausgewogener Eingabedaten. Insgesamt erweist sich ein künstliches neuronales Netzwerk als effektiver und widerstandsfähiger für die Vorhersagemodellierung. Die Ergebnisse dieser Arbeit beleuchten die Einflüsse und Einschränkungen, die durch eine schlechte Datenqualität und eine reduzierte Datenverfügbarkeit entstehen, und eröffnen Wege für verbesserte Strategien im Umgang mit unvollkommenen Datensätzen und zur Verbesserung der Zuverlässigkeit von Prognosesystemen für erneuerbare Energien.
de
The accurate power prediction of photovoltaic (PV) power plants is an integral part of the future energy transition and management of grid capacities. The concept of using machine-learning methods for forecasting future power yield has been shown on various occasions. What sets this thesis aside, is the investigation of poor data quality and availability on power output predictions. Four different scenarios, representing common real-world data issues are tested: Sparse or noisy data, missing parameters, little historical data, and interrupted data. These cases are tested at two different PV power plants and implemented for two types of machine-learning models (decision tree and neural network) and evaluated according to two different error matrices. The prediction quality shows little to no difference for noisy data, but significant worsening for missing parameters, especially missing irradiance values. Feeding a machine-learning model the maximum amount of data proves disadvantageous for forecasting while the inclusion of some outlier data can be beneficial, thus indicating the importance of balanced input data. Overall, an artificial neural network proved to be more effective and resilient for predictive modeling. Our findings shed light on the influences and limitations posed by poor data quality and reduced data availability, opening ways for improved strategies in handling imperfect datasets and enhancing the reliability of renewable energy forecasting systems.