Singer, B. (2023). Antibody structure prediction using a sequence-only data set [Diploma Thesis, Technische Universität Wien; University of Washington]. reposiTUm. https://doi.org/10.34726/hss.2023.101343
E164 - Institut für Chemische Technologien und Analytik
-
Date (published):
2023
-
Number of Pages:
40
-
Keywords:
Bioinformatik; Modellierung; Protein Design
de
Bioinformatics; Molecular Modelling; Protein Design
en
Abstract:
Die Vorhersage der Struktur von Antikörper-Antigen-Komplexen bleibt eine schwierige Aufgabe, da die komplementäritätsbestimmenden Regionen (engl. complementarity determining regions - CDR), die die Interaktion des Antikörpers bestimmen, einzigartig und unstrukturiert sind. Außerdem sind wenig koevolutionären Informationen über die Antikörper vorhanden, wasdie Strukturvorhersage zu einem schwierigen Problem macht. Eine zusätzliche Herausforderung in dieser Hinsicht stellt der Mangel an Strukturen von Antikörpern in der Proteindatenbank (PDB) dar. Die Fülle an experimentellen Daten zu Antikörpern, die nicht die Struktur betreffen, jedoch eine vielversprechende Ressource für die Erforschung, indem diese Daten in die Strukturvorhersage integriert werden können. Eine Art von Daten sind experimentelle Bindungsdaten,die eine zusätzliche Dimension zur Integration und schließlich zur Unterstützungder Strukturvorhersage bieten. Die Hypothese für dieses Projekt bestand darin, diese Art von Daten in ein neuronales Netzwerk zur Strukturvorhersage einzubeziehen und zu untersuchen, ob die korrekte Vorhersage einer spezifischenAntigen-Antikörper-Interaktion auch die Gesamtstrukturvorhersage verbessern kann; ein Problem von enormem pharmakologischen Interesse. Konkret haben wir eine Bibliothek von Antikörpern verwendet, von denen bekannt ist, dass sie das Spike-Protein von SARS-CoV-2 binden, einschließlich Informationen darüber, ob der Antikörper an die mutierte Rezeptorbindungsdomäne (RBD) des Proteins bindet. Dieser Ansatz der Zusammenführung von Sequenzdaten und Bindungsdaten wurde unseres Wissens bisher noch nicht angewandt. Wir haben uns überlegt, dass die Erkenntnis, ob ein Antikörper an eine bestimmte RBD-Mutante bindet oder nicht, dem Modell ein besseres strukturelles Verständnis von Antigen-Antikörper-Komplexen abverlangt und damit die Strukturvorhersage innerhalb eines Netzwerks verbessern könnte. Ziel dieser Arbeit ist es, die mit den Daten verbundenen Herausforderungen und Verzerrungen zu beschreiben und zu ermitteln, wie man mit diesen Daten trainieren kann.Das Endergebnis des Projekts war, dass sich die Ableitung dieser Informationen über die Bindungsschnittstelle als kritisch erwies, die aus Daten des Deep Mutational Scanning (DMS) abgeleitet wurden. Die Ergebnisse deuten darauf hin, dass die Vorhersage von Antikörperstrukturen und Antikörper-Antigen-Bindungsschnittstellen wenig bis gar nicht verbessert werden konnte und eine anspruchsvolle Aufgabe bleibt. Zukünftige Ansätze können eine bessere Verfeinerung der Datensätze und eine verbesserte Ableitung der Informationen über die Bindungsschnittstelle umfassen. Darüber hinaus ist es wichtig zu betonen, dass die Diversifizierung von Trainingsdatensätzen und die Einbeziehung von Antikörpersequenzdaten von mehreren Zielproteinen einige der in dieser Arbeit entdeckten Probleme entschärfen kann.
de
Antibody-antigen complex structure prediction remains a challenging task due to the unique unstructured nature inherent to the complementarity-determining regions (CDR) which determine the interaction of the antibody. Furthermore, co-evolutionary information on antibodies is sparse which makes it a challenging problem for structure prediction. An additional challenge on that aspect is posed by the lack of solved structures containing antibodies in the Protein Database (PDB). However, the abundance of non-structural experimental data on antibodies offers a promising resource for exploration by potentially integrating this data into structureprediction. One kind of data is experimental binding data which offers an additional dimension to integrate and eventually aid the structure prediction.The hypothesis for this project was to incorporate this type of data into a structure-prediction neural network and investigate whether correctly predicting a specific target-antibody interaction can also improve overall structure prediction; a problem of enormous pharmacological interest. Specifically, we incorporated a library of antibodies known to bind the spike protein of SARSCoV- 2, including information on whether the antibody is binding to the mutated receptor binding domain (RBD) of the protein. This approach of amalgamation of sequence data and binding data has not, to our knowledge, been done previously. We reasoned that to learn whether ornot an antibody would bind to a particular RBD mutant would require the model to learn a stronger structural understanding of antigen-antibody complexes, and thereby could improve structure prediction within a network. This thesis aims to describe and identify the challenges and biases associated with the data and how to train on it. The final outcome of the project was that generating privileged information about the binding interface proved to be critical, which was derived from deep mutational scanning (DMS) data. The findings suggest that little to no improvement in the prediction of antibody structures and antibody antigen binding interfaces could be achieved and it remains a challenging task. Future work includes better data set refinement and improved derivation for the privileged information. Moreover, it is important to emphasize that diversifying training data sets and incorporating antibody sequence data from multiple targets can mitigate some of the issues discovered in this thesis.