Albl, A. (2010). Ein schlankes Workflow-Tool für Bioinformatik [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-38645
Arbeitsabläufe im Umfeld der Bioinformatik-Forschung unterliegen diversen Problemen, die in ihrer speziellen Kombination in keinem anderen Umfeld auftreten. Große Datenmengen an sequenzierten Genomen in unterschiedlichen Formaten müssen oftmals bearbeitet werden, und darüber hinaus im Sinne der wissenschaftlichen Nachvollziehbarkeit über einen langen Zeitraum gespeichert werden. Spezielle Fragestellungen der Forscher des Chairs of Bioinformatics der Universität für Bodenkultur Wien erfordern die stichprobenartige Analyse von Genen oder Genomen von Mäusen zur Identifizierung von Kontaminierungen mit verschiedenen Bakterien, etwa Escherichia coli.<br />Dabei werden unter oftmaliger Veränderung bzw. Neueinführung von Parametern die Daten in grundsätzlich gleichen Arbeitsabläufen untersucht und mit Referenzdatensätzen verglichen. Aktuell erfolgt diese Arbeit mit hohem Personalaufwand, da es keine Möglichkeit gibt, die Tätigkeit durch genormte Arbeitsabläufe mit Unterstützung von Parametern und Resultatsvergleichen zu vereinfachen.<br />Bestehende Systeme aus dem Geschäftsprozessmanagement genauso wie bestehende Applikationen für die Bearbeitung von wissenschaftlichen Workflows bauen konsequent auf die Nutzung einer graphischen Benutzeroberfläche auf, ein leichtgewichtigerer Ansatz zur koordinierten Ausführung und Speicherung der Arbeitsabläufe ist zum aktuellen Zeitpunkt nicht bekannt. Darüber hinaus besteht die Notwendigkeit, bestehende Skripte und andere Applikationen weiterhin zu verwenden.<br />In dieser Arbeit wird auf diese Problematik eingegangen, indem ein neu entwickeltes Framework vorgestellt wird, dass die Forscher des Vienna Science Chair of Bioinformatics der Universität für Bodenkultur Wien dabei unterstützt, ihre vorhandenen sowie zukünftige Arbeitsabläufe in einer standardisierten Form zu beschreiben, diese in einer vorgegebenen Umgebung ablaufen zu lassen, und die Ergebnisse zu historisieren. Als Beschreibungssprache kommt dabei eine selbst entwickelte XML-Syntax zum Einsatz, die mithilfe eines beliebigen Editors auf einfache Art und Weise erstellt werden kann. Die Historisierung der Daten erfolgt über den Zugriff auf ein zentrales Subversion-Repository, sodass Änderungen an Arbeitsabläufen in einer standardisierten Form nachvollziehbar sind.<br />Zur Evaluierung der erstellten Applikation wird ein Workflow aus der wissenschaftlichen Praxis herangezogen, dessen Aufgaben beispielhaft für einen Großteil der erwarteten Problemstellungen sind. Dieser Arbeitsablauf sieht vor, mehrere Datensets von unterschiedlichen Datenbanken herunterzuladen (sofern diese Daten lokal noch nicht verfügbar sind), diese weiters durch mehrere Transformationsschritte aufzubereiten und anschließend auf Kontaminierungen mit E.<br />coli-Bakterien zu untersuchen. Die Transformationen beinhalten die Bearbeitung mit einem extern verfügbaren Skript zur Erstellung von Indizes, darüber hinaus werden die Daten zur parallelen Bearbeitung in mehrere Teile aufgesplittet. Die Ergebnisse werden abschließend mit einem Ausblick auf zukünftige Versionen bewertet.<br />
de
Additional information:
Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers Zsfassung in engl. Sprache