<div class="csl-bib-body">
<div class="csl-entry">Priselac, K. (2023). <i>Analysis of colorectal cancer and adenoma microbiome signatures and the application of machine learning classification as a potential screening tool</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.96664</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2023.96664
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/187258
-
dc.description
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
-
dc.description.abstract
Jüngste Studien haben einen Zusammenhang zwischen der Entwicklung von Darmkrebs (CRC) und der Zusammensetzung des Darmmikrobioms der Patienten gezeigt. Ziel dieser Arbeit war es, mikrobielle Signaturen im Darmmikrobiom zu identifizieren, die mit Darmkrebs und Krebsvorstufen (Adenomen) assoziiert sind, und maschinelle Lernmodelle für das Screening dieser Krankheiten auf der Grundlage der Zusammensetzung des Stuhlmikrobioms zu entwickeln. Ein Meta-Analyse-Datensatz mit 1786 Proben von gesunden Personen, Adenom- und Darmkrebs-Patienten wurde aus öffentlich zugänglichen Quellen beschafft. Die differenzielle Abundanzanalyse (DAA) wurde durchgeführt, um die Biomarker mit drei Methoden zu erkennen: ALDEx2, ANCOM-BC und MaAsLin2. Modelle für maschinelles Lernen zur Unterscheidung zwischen gesunden Personen und CRC- oder Adenom-Patienten wurden auf 80% des Datensatzes trainiert und auf den verbleibenden 20% getestet, wobei mehrere Parameteroptionen zur Optimierung der Leistung verwendet wurden. Die DAA von Darmkrebs im Vergleich zu gesunden Proben ergab insgesamt 39 differenziell abundante Taxa, die mit allen drei Methoden identifiziert wurden. Beim Vergleich von Adenomen und gesunden Proben wurden 111 DA-Taxa von ALDEx2 und ANCOM-BC erkannt. Die beste maschinelle Lernleistung für die Klassifizierung von CRC-gesund wurde mit einem Support Vector Machine Modell mit einem radialen Kernel auf Gattungsebene mit MaAsLin2-Variablenauswahl erzielt. Dieses Modell ergab eine Fläche unter der Kurve (AUC) von 0.84 für die Kreuzvalidierung und 0.80 für den Testdatensatz. Für die Unterscheidung zwischen Adenomen und gesunden Proben erreichte das Light Gradient-Boosting Maschine Modell unter Verwendung der 50 ausgewählten Arten eine AUC von 0.85 bei der Kreuzvalidierung und 0.72 im Testdatensatz. Die maschinellen Lernmodelle schnitten bei der Erkennung von kolorektalen Karzinomen vergleichbar gut und bei der Erkennung von Adenomen besser ab als die derzeit verwendeten Fäkaltests. Zum ersten Mal wurde ein großer Meta-Analyse-Datensatz erfolgreich genutzt, um die Eignung von Algorithmen des maschinellen Lernens für die Identifizierung bakterieller Biomarker und die Entwicklung mikrobiombasierter Diagnoselösungen für Darmkrebs und Adenome zu demonstrieren. Die entwickelten Modelle waren in der Lage, diese Krankheiten nicht-invasiv (auf der Grundlage von Stuhlproben) und bereits mit recht hoher Genauigkeit zu erkennen. Bei weiterer Optimierung könnten solche Tests in Zukunft als Ergänzung zur Darmspiegelung in regelmäßigen Vorsorgeprogrammen für Darmkrebs eingesetzt werden.
de
dc.description.abstract
Recent studies have shown an association between the development of colorectal cancer (CRC) and the composition of the patients' gut microbiome. The aims of this thesis were to identify microbial signatures in the gut microbiome associated with CRC and cancer precursor (adenoma), and to develop machine learning models for the screening of these diseases based on the composition of the stool microbiome. Meta-analysis dataset containing 1786 samples from healthy individuals and adenoma and CRC patients was obtained from publicly available repositories. Differential abundance analysis (DAA) was performed to detect biomarkers using three methods: ALDEx2, ANCOM-BC, and MaAsLin2. Machine learning models for distinguishing healthy individuals and CRC or adenoma patients were trained on 80% of the dataset and tested on the remaining 20%, with several parameter options to optimise the performance. DAA of CRC compared with healthy samples revealed a total of 39 differentially abundant taxa identified by all three methods. Comparison of adenoma and healthy samples resulted in 111 detected DA taxa by ALDEx2 and ANCOM-BC. The best machine learning performance for CRC-healthy classification was obtained using a support vector machine model with a radial kernel on a genus level with MaAsLin2 feature selection. This model yielded an area under the curve (AUC) of 0.84 for cross-validation and 0.80 for the test dataset. For the distinction between adenoma and healthy samples, the light gradient-boosting machine model using the 50 highest scoring species achieved an AUC of 0.85 for cross-validation and 0.72 for the test dataset. Machine learning models performed comparably well in detecting CRC and better in detecting adenomas than the currently used fecal tests. For the first time, a large meta-analysis dataset was successfully used to demonstrate the suitability of machine learning algorithms for the identification of bacterial biomarkers and the development of microbiome-based diagnostic solutions for CRC and adenoma. The developed models were able to screen for these diseases non-invasively - based on stool samples, and with fairly high accuracy already. With further optimization, such tools could be used in the future to accompany colonoscopy in regular screening programs for colorectal cancer.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Intestial Microbiom
en
dc.subject
Metagenomics
en
dc.subject
Microbiomics
en
dc.subject
Cancer Diagnostics
en
dc.title
Analysis of colorectal cancer and adenoma microbiome signatures and the application of machine learning classification as a potential screening tool
en
dc.title.alternative
Analyse von Darmkrebs und Darmpolyp Mikrobiom-Signaturen und die Anwendung der machinellen Klassifikation als potenzielles Screening-Tool
de
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2023.96664
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Katarina Priselac
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
dc.contributor.assistant
Reischer, Georg
-
tuw.publication.orgunit
E166 - Institut für Verfahrenstechnik, Umwelttechnik und technische Biowissenschaften
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC16882890
-
dc.description.numberOfPages
79
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
tuw.author.orcid
0009-0004-0740-9068
-
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
tuw.assistant.staffStatus
staff
-
tuw.assistant.orcid
0000-0002-3962-8685
-
item.languageiso639-1
en
-
item.grantfulltext
open
-
item.cerifentitytype
Publications
-
item.openairetype
master thesis
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.fulltext
with Fulltext
-
item.mimetype
application/pdf
-
item.openaccessfulltext
Open Access
-
crisitem.author.dept
E166-05-3 - Forschungsgruppe Umweltmikrobiologie and Molekulare Diagnostik
-
crisitem.author.orcid
0009-0004-0740-9068
-
crisitem.author.parentorg
E166-05 - Forschungsbereich Biochemische Technologie