Kovar, M. (2025). On the influence of dataset quality on chemical reaction machine learning [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.130421
Die Anwendung von Machine Learning (ML) zur Vorhersage chemischer Reaktionen ist grundlegend durch die Qualität und Relevanz der verfügbaren Datensätze für deren Training begrenzt. In dieser Arbeit wird systematisch der Einfluss der Datensatzqualität auf ML-Modelle zur Vorhersage chemischer Reaktionen, insbesondere deren Aktivierungsenergien und Übergangszustandsgeometrien untersucht. Durch eine detaillierte Analyse von aktuellen Datensätzen konnte gezeigt werden, dass ein signifikanter Anteil der Datenpunkte chemisch unplausibel bzw. unphysikalisch ist, was sich als Rauschen auf das Modell auswirkt und dessen Leistung somit limitiert. Ein vielfältiges Verfahren zur Datenbereinigung wurde entwickelt, um jede Reaktion systematisch auf chemische Plausibilität zu prüfen.Aufbauend auf diesen Erkenntnissen wurde ein modulares Framework zur Kuratierung hochwertiger Reaktionsdatensätze entwickelt und anhand der prototypischen SN2 Reaktionen implementiert. Unser Ansatz betont dabei die systematische Variation von Nucleophilen, Abgangsgruppen und Substituenten, um chemische Trends und Grenzfälle in den Datensatz zu inkludieren. Inspiriert wurde dies stark vom Aufbau eines Lehrplans oder -buches, wie er einem Chemiestudierenden begegnet. Die Datenpunkte wurden mittels quantenchemischer Rechnungen errechnet, was physikalische Plausibilität und Reproduzierbarkeit sicherstellt. Darüber hinaus werden in dieser Arbeit allgemeine Leitlinien für die systematische Generierung und Kuratierung von Reaktionsdatensätzen vorgestellt, die über die hier behandelte Fallstudie hinaus anwendbar sind.Erste ML-Experimente an einer kleineren Teilmenge des SN2-Datensatzes zeigen, dass Modelle mit derartigen Daten die erwarteten chemischen Trends reproduzieren und für Aktivierungsenergien angemessene Vorhersagegenauigkeiten erzielen können. Aufgrund der begrenzten Größe des aktuellen Datensatzes infolge aufwändiger Rechnungen sind jedoch noch keine allgemeinen Aussagen möglich. Der in dieser Arbeit entwickelte Ansatz für den Umgang mit und die Erstellung von Datensätzen soll eine solide Grundlage für zukünftige Arbeiten bieten, einschließlich der Erweiterung auf andere Reaktionstypen und dem Einsatz generativer ML-Modelle zur Vorhersage von Übergangszustandstrukturen. Letztlich wird die fortlaufende Entwicklung besserer Datensätze ein entscheidender Faktor dafür sein, zukünftig ML-Modelle als verlässliche Assistenten für experimentelle Chemikerinnen und Chemiker zu etablieren.
de
The application of machine learning (ML) to chemical reaction prediction is fundamentally limited by the quality and relevance of available datasets. This thesis systematically investigates the influence of dataset quality on ML models for chemical reaction prediction, with a particular focus on activation energy and transition state geometry. Through a detailed analysis of state-of-the-art datasets, it is shown that a significant proportion of data points are chemically implausible or unphysical, acting as noise and limiting model performance. A multi-faceted data cleaning protocol was developed to scrutinize each reaction for chemical plausibility.Building on these insights, a modular framework for the curation of high-quality reaction datasets was established and implemented for the prototypical SN2 reaction type. This approach emphasizes the systematic variation of nucleophiles, leaving groups, and substituents to incorporate chemical trends and edge cases in the dataset as an inductive bias, inspired by the structure of a chemistry student's curriculum. Data points are computed via quantum chemical calculations, ensuring physical plausibility and reproducibility. In addition, this thesis provides general guidelines for the systematic generation and curation of reaction datasets, which are applicable beyond the specific case studies presented here. Preliminary ML experiments on a subset of the curated SN2 indicate that, with high-quality data, models can reproduce expected chemical trends and achieve reasonable prediction errors for activation energies. However, the limited size of the current dataset due to expensive computations precludes strong general conclusions. The workflow and datasets developed in this thesis provide a foundation for future work, including the extension to other reaction types and the use of generative ML models for transition state prediction. Ultimately, the continued development of better, chemically informed datasets will be a key factor in enabling ML models to serve as reliable assistants for wet-lab chemists in the future.