Foidl, R. (2022). Flexible and efficient querying of time series data [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.98682
temporal query languages; domain-specific languages; formal languages; declarative modelling; time series; sensor data; time series analysis; temporal databases
en
Abstract:
Das Sammeln großer Mengen von Sensordaten, die von Maschinen erfasst werden - z. B. in Produktionsanlagen -, ist mittlerweile allgegenwärtig. Diese Sensordaten verknüpfen Werte mit der Zeit, zu der sie gemessen wurden, weshalb sie oft auch als Zeitreihendaten bezeichnet werden. Durch die Analyse solcher Aufzeichnungen, die das Verhalten und den Energieverbrauch von Maschinen detailliert beschreibe...
Das Sammeln großer Mengen von Sensordaten, die von Maschinen erfasst werden - z. B. in Produktionsanlagen -, ist mittlerweile allgegenwärtig. Diese Sensordaten verknüpfen Werte mit der Zeit, zu der sie gemessen wurden, weshalb sie oft auch als Zeitreihendaten bezeichnet werden. Durch die Analyse solcher Aufzeichnungen, die das Verhalten und den Energieverbrauch von Maschinen detailliert beschreiben, können Ineffizienzen und Anomalien aufgedeckt und anschließend zumindest abgeschwächt werden. Um diese Vorteile von Zeitreihendaten nutzen zu können, sind Mittel zum effizienten Speichern sowie Abfragen eben dieser erforderlich. Es bestehen zwar speziell entwickelte Zeitreihen-Datenbanken, die leistungsstarkes Abspeichern und Verwalten von Zeitreihendaten unterstützen, doch sind ihre nativen Abfrage-Fähigkeiten im Allgemeinen eher grundlegender Natur und operieren auf niedrigem Abstraktionsniveau. Es existieren auch leistungsfähigere Ansätze zur Abfrage von Zeitreihendaten, die unabhängig von konkreten Datenbanken sind. Diese sind jedoch oft konzeptionell komplex und es fehlt ihnen an Werkzeug-Unterstützung, wodurch sie für den Einsatz in industriellen Umfeldern ungeeignet sind. Deshalb wird in dieser Arbeit DTSQL vorgestellt, eine neue deklarative Zeitreihen-Abfragesprache, deren Kernfunktionalitäten in Zusammenarbeit mit auf Energieeffizienz spezialisierten Domänen-Experten identifiziert wurden. Sowohl ihre Syntax als auch ihre Semantik wurden auf präzise Weise formal definiert und operieren auf hohem Abstraktionsniveau, was es Domänen-Experten ermöglicht, zielgerichtete Abfragen zu formulieren. Darüber hinaus ist sie insofern generisch, als sie unabhängig von spezifischen Zeitreihen-Datenbanken ist. Konkret ist es damit möglich, die Vorteile einer Datenbank zu nutzen und gleichzeitig, mithilfe einer klar definierten Schnittstelle für Datenbankzugriffe, die vorgestellte Abfragesprache zu verwenden. Sowohl die Spezifikation der vorgeschlagenen Abfragesprache als auch ihre Referenzimplementierung wurden danach bewertet, wie effizient und akkurat sie die während des Anforderungserfassungsprozesses identifizierten Anwendungsfälle abdecken. Die Ergebnisse waren sowohl für die Sprachspezifikation als auch für den implementierten Prototypen recht positiv. Abfragen konnten innerhalb von akzeptablen Zeitspannen ausgewertet werden und ihre Ergebnisse stimmten annähernd mit der von Menschen durchgeführten Bewertung derselben Eingabe-Zeitreihe überein.
de
The practice of collecting large volumes of sensor data captured by machines - e.g., in production plants - has become ubiquitous. These sensor data link values with the time they were measured, which is why they are often also referred to as time series data. By analyzing such records detailing the behavior and energy consumption of machines, inefficiencies as well as anomalies can be detected an...
The practice of collecting large volumes of sensor data captured by machines - e.g., in production plants - has become ubiquitous. These sensor data link values with the time they were measured, which is why they are often also referred to as time series data. By analyzing such records detailing the behavior and energy consumption of machines, inefficiencies as well as anomalies can be detected and subsequently mitigated.In order to derive these benefits from time series data, efficient means of storing and querying them are required. While there are specifically designed temporal databases supporting high-performance ingestion and storage of time series data, their native query capabilities are generally rather basic and operate on a low abstraction level. There exist more powerful approaches to querying time series data, independent of concrete temporal databases. They often are, however, conceptually rather complex, lack tool support and therefore, are not suitable for use in industrial environments.Therefore, this thesis proposes DTSQL, a novel declarative time series query language whose core features have been identified in collaboration with domain experts specializing in energy efficiency. Its syntax and semantics were precisely and formally defined and provide a high level of abstraction, allowing domain experts to formulate target-oriented queries. Furthermore, it is generic in the sense that it is agnostic to specific temporal databases. More specifically, it possible to leverage the efficiency of a database while also utilizing the proposed query language by means of a predefined interface responsible for storage accesses.The proposed query language specification and its reference implementation were evaluated according to how efficiently and accurately they cover the use cases identified during the requirement collection process. The results for both the language specification and the implemented prototype system were fairly positive. Query results were obtained within an acceptable amount of time and approximately coincided with the assessment of the same input time series conducted by humans.