Etl, C. (2019). Sequence reconstruction in nanopore sequencing [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2019.63429
Nanopore; DNA sequencing; recurrent neural network
en
Abstract:
In dieser Diplomarbeit geht es um Nanopore-Sequenzierung. Bei dieser Methode wird ein einsträngiges DNA-Oligomer durch eine winzige Pore gezogen. Elektrischer Strom fließt anschließend durch diese Pore und wird durch die darin befindlichen Basen unterschiedlich stark moduliert. Wird dieser Strom gemessen, so kann man anhand der Messwerte auf die DNA-Sequenz zurückrechnen. Dieser Vorgang wird Basecalling genannt. Das Ziel dieser Diplomarbeit ist es, Algorithmen für das Basecalling mit einer möglichst hohen Genauigkeit zu entwickeln, zu implementieren und auszuwerten. Derzeit liegt diese bei ungefähr 80% für einen einzelnen Read. Durch mehrfaches Sequenzieren desselben Abschnittes können Genauigkeiten von über 99% erreicht werden. Um den Basecaller zu entwickeln, werden in dieser Arbeit bidirektionale rekurrente neurale Netze (kurz RNN) verwendet. Neben deren Implementierung müssen zusätzlich die optimalen Hyperparameter, wie z.B. die Größe und Anzahl der Schichten, der Optimierer, die Verlustfunktion etc. bestimmt werden. Um das RNN trainieren zu können, muss zuvor ein Trainings-Datensatz erstellt werden. Dafür muss für jeden Read der zugehörige Abschnitt in der Referenzsequenz ermittelt werden, um die tatsächlichen Basen dem Read zuordnen zu können. Da die Basen mit unterschiedlichen Geschwindigkeiten durch die Pore wandern, muss man zuvor anhand der Rohdaten feststellen, wann eine Base die Pore erreicht. Dazu wird eine Break Point Detection durchgeführt. Diese erkennt, wenn sich ein Signal signikant ändert. Als Methode wurde für diese Arbeit ein Window-based Break Point Detection-Algorithmus verwendet, der sich durch seine hohe Geschwindigkeit auszeichnet. Die Auswertungen der erhaltenen Testdaten haben gezeigt, dass die Präzision des erstellten Basecallers die des von Oxford Nanopore mitgelieferten Basecallers Metrichor nicht übersteigt. Durch die Verwendung eines anderen Break Point Detection-Algorithmus könnte eine Verbesserung erzielt werden.
de
This master thesis is about nanopore sequencing. In this method, a single-stranded DNA oligomer is pulled through a tiny pore. Electric current flows through the pore and is modulated to different degrees by the different bases contained therein. By measuring the current one can draw conclusions on the DNA sequence. This process is called basecalling. The goal of this thesis is to develop, implement and evaluate algorithms for basecalling. Currently this value is about 80% for a single read. By sequencing the same section multiple times an accuracy of over 99% can be reached. In order to develop a basecaller bidirectional recurrent neural networks are used in this thesis. In addition to their implementation, the optimal hyperparameters, e.g. the size and number of layers, the optimizer, the loss function, etc. are determined. To train the RNN a training dataset must be created first. For each read, the corresponding section in the reference sequence must be determined in order to assign the actual bases to the read. Since the bases translate the pore at different speeds, it is necessary to first determine from the raw data when a base reaches the pore. Therefore a break point detection is applied. This method detects when the current changes significantly. The method used for this work is a window-based break point detection algorithm, which is characterized by its high speed. The evaluations of the test data obtained have shown that the precision of the developed basecaller does not exceed the precision of the basecaller Metrichor, supplied by Oxford Nanopore. An improvement could be achieved by using a different break point detection algorithm.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers