Cernocky, T. (2025). Computational Design On Protein Crystals [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.133257
protein design; symmetry group; cyclic assembly; graph neural network
en
Abstract:
Heutzutage wird an die Entwicklung vieler Medikamente mittels Designs von neuen Proteinstrukturen herangegangen, welche an einen aktiven Stoff binden und diesen dann an die gewünschte Stelle in unserem Körper transportieren. Daneben kommen kristallisierende Proteine für Laborexperimente in Frage, weil sie stabil sind. Da Proteine, welche symmetrische Zusammenstellungen sponntan im Lösungsmittel bilden, wohl kristallisieren, sind diese von großer Bedeutung. In den letzten Jahren hat es sich herausgestellt, dass es in den Proteinen Muster gibt, die die aktuellen Machine Learning Sprachmodele lernen können. Sie wurden daher schnell als ein Hilfsmittel genommen zur Entlastung bei teuren und zeitaufwändigen chemischen Laborexperimenten beim Proteindesign. Es stellt sich nun der Bedarf ein, diese Modele an die symmetrischen Proteine anzupassen. In der vorliegenden Arbeit wird ein auf einem Graph Neural Network aufgebautes Model erklärt, das das structure-to-sequence Problem löst, das also für eine Proteinstruktur ihre Folge von Aminosäuren vorschlägt. Dieses Model wurde erweitert, damit es die zyklischen Zusammenstellungen von Proteins effizienter verarbeitet. Unter Verwendung von zwei Architekturen der Sprachmodele wurde die neue Version des Models trainiert und getestet auf zyklischen Zusammenstellungen von Proteins. Die Testergebnisse zeigen, dass unsere Erwei-terung noch nicht das Niveau des Referencemodels erreicht, aber interessanterweise liefert eine der untersuchten Architekturen bessere Vorhersagen als die andere, im Widerspruch zu bisherigen Ergebnissen in der Literatur. Am Ende stellt unsere Version des Models einen guten Ausgangspunkt zur Erweiterung auf die Proteinkristalle dar.
de
Nowadays, a frequent way to design new drugs is to construct a protein to which an active matter binds, and the whole compound then flows through our body to the designated spot. The construction of the protein is one of the main challenges in biochemistry because often one has additional constraints, such as being able to crystallize. Crystalline proteins are better to handle in laboratory due to their stability. A general result has been known, that proteins which group themselves in the solvent, water, into symmetric assemblies often crystallize. As deep-learning methods have revolutionized computational biology in the recent years, they can serve as a tool predicting candidates for expensive and time-consuming laboratory experiments. Nevertheless, not all of the software has been developed for symmetric assemblies or crystalline proteins. The aim of this work is thus to extend one model solving the structure-to-sequence problem, that is it predicts from the protein structure the sequence of amino acids in the protein, to the cyclic assemblies of proteins. We train and test several versions of our extension on a data set of cyclic assemblies. Test results show that our extension is still behind the reference model, but interestingly one of our tested architectures, the transformer architecture, performs better than the second, multi-layer perceptron based architecture, which is in contrary with the results in the literature. Finally, our contribution can be a good benchmark to extend the model further to symmetries occurring in protein crystals.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers