Vignolle, G. A. (2021). Modeling novel bioinformatics approaches to investigate bioactive substance production based on genomics and transcriptomics [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.64100
Genome mining and bioinformatics technologies have become essential to the discovery process of novel secondary metabolites (SMs). SMs are a vast group of compounds with different structures and properties. Enzymes whose corresponding genes are co-localized in the genome, organized in biosynthetic gene clusters (BGCs), readily produce them. The identification and search of BGCs is a key aspect of natural product bioinformatics. Further, the detection of novel SM classes in the genomes of fungi, so termed “dark-matter” BGCs, is an ongoing subject of research. In this thesis, various topics were addressed for the ultimate goal to facilitate the detection and analysis of exotic biosynthetic pathways of SMs. These different subjects are connected by the search for and description of SM BGCs. This thesis encloses several published and submitted studies and orders them thematically. The first issue addressed is the identification of novel BGCs in fungi, a novel method to mine fungal genomes for ribosomally synthesized and post-translationally modified peptides (RiPPs) by combining and adapting existing tools followed by extensive manual curation based on conserved domain identification, (comparative) phylogenetic analysis, and RNASeq data was introduced for this purpose. RiPPs are a highly diverse group of SM and have been recently started to be studied in more depth in fungal genomes. Genes involved in the biosynthesis of fungal RiPPs, as for many other SMs, are packed in BGCs. The presented publication is the first report of the potential of the fungal genus Trichoderma to produce RiPPs and the clusters detected by this novel method encode genes that ultimately lead to novel uncharacterized fungal RiPPs. Besides the aspect to search for novel BGCs, the in depth analysis of detected BGCs was a target. BGCs may contain so-called gap genes, which are not involved in the biosynthesis of the SM. To differentiate gap genes from genes involved in the biosynthesis is a lengthy, expensive and arduous task. This topic was addressed by two studies the first describing and introducing the Functional Order tool (FunOrder), as a semi-automated method for the identification of co-evolutionary linked genes in BGCs. The results suggest that protein family co-evolution can be leveraged for the differentiation of gap genes from genes involved in the biosynthesis of a SM. In the subsequent study, the improved and fully automated FunOrder 2 is presented, where previous limitations were address by introducing a fully automated and enhanced determination of co-evolved genes. The automated detection of co-evolving genes uses several mathematical indices to determine the optimal number of gene groups in the FunOrder output and the implementation of k-means clustering based on the first three principal components (PC) of a principal component analysis (PCA) detects them. FunOrder 2 can be seen as a major improvement over its predecessor, especially considering the unbiased automated analysis and the adaptation to larger databases. The last theme is the topic of sequencing, assembly and analysis of novel uncharacterized fungal species primarily for the search and analysis of their slumbering SM production potential. Four genomes have been sequenced included in two studies that address the final topic in this thesis. First, the genome sequence of the black yeast-like strain Aureobasidium pullulans var. aubasidani CBS 100524 with industrial relevance due to excreted extracellular polysaccharides is introduced and briefly described. This is followed by a study performing an in depth comparative genomic analysis and phylogenetic replacement of three sequenced Wardomyces moseri strains. W. Gams first described the ascomycete W. moseri in 1995. During a phylogenetic study in 2016 W. moseri was suggested to be phylogenetically misplaced and should therefore be re-evaluated. The metabolic potential of this historic fungus was analyzed and its taxonomy re-evaluated, by sequencing the genomes of the ex-isotype strain W. moseri CBS 164.80 and two isolates from the opposite side of the world, W. moseri TUCIM 5827 and TUCIM 5799. It could be demonstrated how historic strains from already existing collections can be used for the search of novel natural products.Finally listed in the appendix, are interdisciplinary studies fruited from collaborations with different working groups
en
Genome-Mining- und Bioinformatik-Technologien sind in der heutigen Zeit für die Suche nach neuartigen Sekundärmetaboliten (SM) unverzichtbar geworden. SM sind eine große Gruppe von Verbindungen mit unterschiedlichen Strukturen und Eigenschaften. Sie werden meist von Enzymen produziert, deren entsprechende Gene im Genom kolokalisiert sind und in biosynthetischen Genclustern (BGC) organisiert sind. Die Identifizierung und Suche von BGC ist ein Schlüsselaspekt der Naturstoffbioinformatik geworden. Darüber hinaus ist die Entdeckung neuer SM-Klassen in den Genomen von Pilzen, sogenannter „Dark Matter“-BGC, ein Gegenstand derzeitiger Forschung. In dieser Dissertation wurden verschiedene Themen mit dem Ziel behandelt, den Nachweis und die Analyse exotischer Biosynthesewege von SM zu erleichtern. Diese verschiedenen Themen besitzen als gemeinsamen roten Faden die Suche und Beschreibung von SM-BGC. Diese Doktorarbeit umfasst mehrere veröffentlichte und eingereichte Studien, die in einer angemessenen Reihenfolge thematisch geordnet sind. Das erste angesprochene Thema ist die Identifizierung neuer BGC in Pilzen. Zu diesem Zweck wurde eine neue Methode zum Analysieren von Pilzgenomen eingeführt, diese detektiert ribosomal synthetisierte und posttranslational modifizierte Peptide (RiPPs) durch Kombination und Anpassung vorhandener Werkzeuge, gefolgt von einer umfangreichen manuellen Kurierung basierend auf der Identifizierung konservierter Domänen, (vergleichende) phylogenetische Analysen und durch die Anwendung von RNASeq-Daten. RiPPs sind eine sehr vielfältige Gruppe von SM und wurden vor kurzem in Pilzgenomen eingehend untersucht. Gene, die an der Biosynthese von RiPPs in Pilzen beteiligt sind, wie für viele andere SM, sind in BGC gepackt. Die vorliegende Veröffentlichung ist der erste Bericht über das Potenzial der Pilzgattung Trichoderma zur Produktion von RiPPs. Erwähnenswert ist, dass die mit dieser neuartigen Methode entdeckten Cluster, Gene beinhalten die Enzyme kodieren für den Biosyntheseweg für neuartige uncharakterisierte Pilz-RiPPs. Neben dem Aspekt, nach neuartigen BGCs zu suchen, war die eingehende Analyse der gefundenen BGC ein Ziel. BGC können sogenannte Gap-Gene enthalten, die nicht an der Biosynthese des SM beteiligt sind. Gap-Gene von Genen zu unterscheiden, die an der Biosynthese beteiligt sind, ist eine langwierige, teure und mühsame Aufgabe. Diesem Thema widmeten sich zwei Studien, von denen die erste das Functional Order Tool (FunOrder) als halbautomatische Methode zur Identifizierung koevolutionär verknüpfter Gene in BGC vorstellte. Die Ergebnisse legen nahe, dass die Koevolution von Proteinfamilien für die Differenzierung von Gap-Genen von biosynthetisch aktiven Genen genutzt werden kann. In der anschließenden Studie wird das verbesserte und vollautomatisierte FundOrder 2 vorgestellt, bei den früheren Einschränkungen durch die Einführung einer vollautomatisierten und verbesserten Bestimmung von koevolvierten Genen behoben wurden. Der automatisierte Nachweis koevolvierender Gene verwendet mehrere mathematische Indizes, um die optimale Anzahl von Gengruppen in den FunOrder-Daten zu bestimmen und die Implementierung von k-Means-Clustering basierend auf den ersten drei Hauptkomponenten (PC) einer Hauptkomponentenanalyse (PCA) bestimmt diese. FunOrder 2 kann als wesentliche Verbesserung gegenüber seinem Vorgänger angesehen werden, insbesondere durch die automatisierte Analyse ohne Bias und die Anpassung an größere Datenbanken. Im weiterer Folge wird Sequenzierung, Assemblierung und Analyse neuartiger uncharakterisierter Pilzarten thematisiert, mit dem Hauptfokus auf die Suche und Analyse ihres SM-Produktionspotenzials. Vier Genome wurden sequenziert und in zwei Studien präsentiert, die das letzte Thema dieser Arbeit behandeln. Zunächst wird die Genomsequenz des schwarzen hefeähnlichen Pilz Aureobasidium pullulans var. aubasidani CBS 100524, mit industrieller Relevanz durch ausgeschiedene extrazelluläre Polysaccharide, vorgestellt und kurz beschrieben. Darauf folgt eine Studie, die eine eingehende vergleichende Genomanalyse und die phylogenetische Reklassifizierung von drei sequenzierten Wardomyces moseri Stämmen durchführt. W. Gams beschrieb den Ascomyceten W. moseri erstmals 1995. Während einer phylogenetischen Studie im Jahr 2016 wurde W. moseri als phylogenetisch fehlplaziert beschrieben und sollte daher neu bewertet werden. Das metabolische Potenzial dieses historischen Pilzes wurde analysiert und seine Taxonomie neu bewertet, indem die Genome des Ex-Isotyp-Stamms W. moseri CBS 164.80 und zwei Isolate von der anderen Seite der Welt, W. moseri TUCIM 5827 und TUCIM 5799, sequenziert wurden. Es konnte gezeigt werden, wie historische Stämme aus bereits bestehenden Stamm-Sammlungen für die Suche nach neuartigen Naturstoffen benutzt werden können. Im Anhang aufgeführt sind abschließend interdisziplinäre Studien, die aus Kooperationen mit verschiedenen Arbeitsgruppen hervorgegangen sind.
de
Additional information:
Zusammenfassung in deutscher Sprache Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers Kumulative Dissertation aus sieben Artikeln