Priselac, K. (2023). Analysis of colorectal cancer and adenoma microbiome signatures and the application of machine learning classification as a potential screening tool [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.96664
E166 - Institut für Verfahrenstechnik, Umwelttechnik und technische Biowissenschaften
-
Date (published):
2023
-
Number of Pages:
79
-
Keywords:
Intestial Microbiom; Metagenomics; Microbiomics; Cancer Diagnostics
en
Abstract:
Jüngste Studien haben einen Zusammenhang zwischen der Entwicklung von Darmkrebs (CRC) und der Zusammensetzung des Darmmikrobioms der Patienten gezeigt. Ziel dieser Arbeit war es, mikrobielle Signaturen im Darmmikrobiom zu identifizieren, die mit Darmkrebs und Krebsvorstufen (Adenomen) assoziiert sind, und maschinelle Lernmodelle für das Screening dieser Krankheiten auf der Grundlage der Zusammensetzung des Stuhlmikrobioms zu entwickeln. Ein Meta-Analyse-Datensatz mit 1786 Proben von gesunden Personen, Adenom- und Darmkrebs-Patienten wurde aus öffentlich zugänglichen Quellen beschafft. Die differenzielle Abundanzanalyse (DAA) wurde durchgeführt, um die Biomarker mit drei Methoden zu erkennen: ALDEx2, ANCOM-BC und MaAsLin2. Modelle für maschinelles Lernen zur Unterscheidung zwischen gesunden Personen und CRC- oder Adenom-Patienten wurden auf 80% des Datensatzes trainiert und auf den verbleibenden 20% getestet, wobei mehrere Parameteroptionen zur Optimierung der Leistung verwendet wurden. Die DAA von Darmkrebs im Vergleich zu gesunden Proben ergab insgesamt 39 differenziell abundante Taxa, die mit allen drei Methoden identifiziert wurden. Beim Vergleich von Adenomen und gesunden Proben wurden 111 DA-Taxa von ALDEx2 und ANCOM-BC erkannt. Die beste maschinelle Lernleistung für die Klassifizierung von CRC-gesund wurde mit einem Support Vector Machine Modell mit einem radialen Kernel auf Gattungsebene mit MaAsLin2-Variablenauswahl erzielt. Dieses Modell ergab eine Fläche unter der Kurve (AUC) von 0.84 für die Kreuzvalidierung und 0.80 für den Testdatensatz. Für die Unterscheidung zwischen Adenomen und gesunden Proben erreichte das Light Gradient-Boosting Maschine Modell unter Verwendung der 50 ausgewählten Arten eine AUC von 0.85 bei der Kreuzvalidierung und 0.72 im Testdatensatz. Die maschinellen Lernmodelle schnitten bei der Erkennung von kolorektalen Karzinomen vergleichbar gut und bei der Erkennung von Adenomen besser ab als die derzeit verwendeten Fäkaltests. Zum ersten Mal wurde ein großer Meta-Analyse-Datensatz erfolgreich genutzt, um die Eignung von Algorithmen des maschinellen Lernens für die Identifizierung bakterieller Biomarker und die Entwicklung mikrobiombasierter Diagnoselösungen für Darmkrebs und Adenome zu demonstrieren. Die entwickelten Modelle waren in der Lage, diese Krankheiten nicht-invasiv (auf der Grundlage von Stuhlproben) und bereits mit recht hoher Genauigkeit zu erkennen. Bei weiterer Optimierung könnten solche Tests in Zukunft als Ergänzung zur Darmspiegelung in regelmäßigen Vorsorgeprogrammen für Darmkrebs eingesetzt werden.
de
Recent studies have shown an association between the development of colorectal cancer (CRC) and the composition of the patients' gut microbiome. The aims of this thesis were to identify microbial signatures in the gut microbiome associated with CRC and cancer precursor (adenoma), and to develop machine learning models for the screening of these diseases based on the composition of the stool microbiome. Meta-analysis dataset containing 1786 samples from healthy individuals and adenoma and CRC patients was obtained from publicly available repositories. Differential abundance analysis (DAA) was performed to detect biomarkers using three methods: ALDEx2, ANCOM-BC, and MaAsLin2. Machine learning models for distinguishing healthy individuals and CRC or adenoma patients were trained on 80% of the dataset and tested on the remaining 20%, with several parameter options to optimise the performance. DAA of CRC compared with healthy samples revealed a total of 39 differentially abundant taxa identified by all three methods. Comparison of adenoma and healthy samples resulted in 111 detected DA taxa by ALDEx2 and ANCOM-BC. The best machine learning performance for CRC-healthy classification was obtained using a support vector machine model with a radial kernel on a genus level with MaAsLin2 feature selection. This model yielded an area under the curve (AUC) of 0.84 for cross-validation and 0.80 for the test dataset. For the distinction between adenoma and healthy samples, the light gradient-boosting machine model using the 50 highest scoring species achieved an AUC of 0.85 for cross-validation and 0.72 for the test dataset. Machine learning models performed comparably well in detecting CRC and better in detecting adenomas than the currently used fecal tests. For the first time, a large meta-analysis dataset was successfully used to demonstrate the suitability of machine learning algorithms for the identification of bacterial biomarkers and the development of microbiome-based diagnostic solutions for CRC and adenoma. The developed models were able to screen for these diseases non-invasively - based on stool samples, and with fairly high accuracy already. With further optimization, such tools could be used in the future to accompany colonoscopy in regular screening programs for colorectal cancer.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers