Data analysis of HT-SELEX against complex targets

Aschl, Ulrich Josef

doi:10.34726/hss.2021.72192

Record link:

https://doi.org/10.34726/hss.2021.72192
http://hdl.handle.net/20.500.12708/19188

Title:

Data analysis of HT-SELEX against complex targets

Citation:

Aschl, U. J. (2021). Data analysis of HT-SELEX against complex targets [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.72192

reposiTUm DOI:

10.34726/hss.2021.72192

CatalogPlus:

AC16406095

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Aschl, Ulrich Josef

Advisor:

Farnleitner, Andreas

Co-advisor:

Reischer, Georg

Organisational Unit:

E166 - Institut für Verfahrenstechnik, Umwelttechnik und technische Biowissenschaften

Date (published):

2021

Number of Pages:

Keywords:

Biinformatik; Molekulare Diagnostik; DNA Aptamere

bioinformatics; molecular diagnostics; DNA aptamers

Abstract:

In dieser Arbeit werden aktuelle bioinformatische Tools und Methoden zurAnalyse von HT-SELEX Experimenten umgesetzt. SELEX (Systematic Evolution of Ligands by Exponential Enrichment) ist ein in vitro Prozess derzur sequentiellen evolutionären Entwicklung von Aptameren genutzt wird. InHigh-Throughput-SELEX (HT-SELEX) wird SELEX mit Next Generation Sequencing kombiniert, wodurch große Datensätze (10^6-10^8) entstehen welche spezielle rechen intensive Analysemethoden erfordern. Aptamere sind kurze einstränge DNA- oder RNA-Oligonukleotide, welche aufgrund einzigartiger Faltung an spezifische Zielstrukturen binden können. Sie funktionieren ähnlich wie Antikörper und können beispielsweise als Nachweis in der Umweltanalytik dienen.Für diese Arbeit sollten Datensätze dreier bakterieller Zell-SELEX Experimentemit dem Ziel-Bakterium Enterococcus faecalis analysiert werden. Das Ziel dieserArbeit war es Aptamerkandidaten auszuwählen, welche voraussichtlich gut an die Zielstruktur binden könnten und daher charakterisiert werden sollten. Ebenfalls sollten qPCR-basierte Schmelzkurvenanalysen, die für das Monitoring von bakteriellen Zell-SELEX entwickelt wurden, validiert werden.Vier bioinformatische Workflows wurden entwickelt. Selex-ngs-prep bereitet Rohdaten auf und gibt Information über Datenqualität. Selex-assess führt rudimentären SELEX-spezifische Datenanalysen aus und gibt Listen mit den am stärksten replizierten Sequenzen aus. Selex-blaster clustert die Daten anhand von Sekundärstrukturen, basierend auf ungebundenen und daher für eine Bindung verfügbaren Strängen, und gibt für jeden Cluster Sequenzen und gehäufte Motive aus. Selex-kmer versucht die Bindungsaffinität von Sequenzen anhand der enthaltenen K-mere zu bewerten.Die Workflow konnten zuverlässig anzeigen ob SELEX Experimente erfolgreich und weitere Datenanalysen indiziert waren. Anhand der Ergebnisse konnten Fehlerquellen gefunden und SELEX- und Sequencing-Experimente optimiertwerden. Dabei konnte auch gezeigt werden, dass eine qPCR-basierteSchmelzkurvenanalyse in Bezug auf SELEX zuverlässig Ab- und Anreicherungenvon ssDNA anzeigen kann. Es wurden Sequenzen für eine weiterführendeCharakterisierung anhand von Anreicherung, K-mer Bewertung und Clusteringermittelt. Aptamer EF05-508, der sich unter den ausgewählten Sequenzenbefand, zeigte hohe Spezifität und Affinität für E. faecalis.

In this thesis current data analysis tools and methods for analyzing HT-SELEXexperiments were employed. SELEX (Systematic Evolution of Ligands by Exponential Enrichment) is an in vitro process that is used to develop aptamers in a sequential, evolution-like fashion. In High-throughput-SELEX (HT-SELEX),SELEX is combined with next generation sequencing, resulting in large data sets(10^6-10^8) that require specialized computational approaches for data analysis.Aptamers are short single-stranded DNA or RNA oligonucleotides, folding intounique structures and binding to a specific target. They work in a similar fashionas antibodies, and can be used i.e. to detect targets in environmental analysis.For this work data sets generated in three bacterial cell-SELEX experiments targeted at the bacterium Enter ococcus faecalis were to be analysed. The aim was to prepare the data sets generated by sequencing and choose aptamer candidates for further characterization. Also, qPCR-based remelting curve analyses methods developed for monitoring the bacterial whole cell-SELEXprocess needed to be validated.Four bioinformatic pipelines were developed to perform the analyses.Selex-ngs-prep performs data preprocessing and NGS quality analysis.Selex-assess was developed for rudimentary SELEX-specific data analysis tasks and returns lists of the most abundant sequences. In Selex-blaster an attempt was made to perform clustering based on unbound subsequences (looping regions), which are thought to be the target-specific parts of aptamers, and provide sequences and enriched motifs for every cluster. In Selex-kmer anattempt was made to predict binding affinity based on k-mer enrichment.The pipelines were used to show whether SELEX experiments were successful and thus more thorough data analysis was indicated. They have proven helpful for determining error sources and consequently in optimizing SELEX and sequencing experiments. Moreover, NGS-based data analyses confirmed that qPCR-based remelting curve analyses of qPCR products during SELEX reliablyindicate changes in ssDNA sequence diversity. Aptamer candidates were provided for further characterization using replication counts, k-mer-basedscoring and clusterings. Amongst the aptamer candidates identified, aptamer EF05-508 was found to provide high binding and specificity against E. faecalis.

Additional information:

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

License:

In Copyright

Appears in Collections:

Thesis