Citation:
Wiesinger, M. (2012). An open schema database for distributed biomedical research projects [Dissertation, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/160036
-
Publication Type:
Thesis - Dissertation
en
Language:
English
-
Date (published):
2012
-
Number of Pages:
97
-
Keywords:
data repository; predictive toxicology
de
data repository; predictive toxicology
en
Abstract:
Die Entschlüsselung des Humanen Genoms im Jahr 2001 ist eine aussergewöhnliche wissenschaftliche Errungenschaft. Dieser Meilenstein ist die Grundlage zur Entschlüsselung biologischer Schaltkreise, um ein besseres Verständnis von Krankheiten zu erhalten, mit dem Ziel, die therapeutischen Möglichkeiten zu verbessern. Um diesem Anspruch gerecht zu werden, wurde in den letzten beiden Jahrzehnten eine Vielzahl an potenten Methoden zur hochdimensionalen Messung der molekularen Zusammensetzung von biologischen Proben entwickelt. Diese Omics Technologien werden zur Identifikation und Quantifizierung von Molekülen auf verschiedenen Ebenen der biologischen Organisation (etwa Proteine, Transkripte und Metaboliten) in einem Hochdurchsatzverfahren eingesetzt.<br />Die daraus resultierenden Datenmengen müssen entsprechend prozessiert und abgelegt werden.<br />Zu diesem Zwecke existiert zu jeder dieser Technologien ein breites Angebot an online Werkzeugen und Datenbanken. Der Einsatzbereich dieser Lösungen ist allerdings meist auf direkt mit den entsprechenden Experimenten in Zusammenhang stehenden Daten und Informationen beschränkt. Dementsprechend müssen in Projekten, in denen verschiedene Omics Verfahren gleichzeitig zum Einsatz kommen, mehrere Datenbanklösungen gepflegt werden. Da die eingesetzten Produkte meistens nicht standardmässig miteinander verknüpft werden können entsteht die Anforderung nach zusätzlichen Werkzeugen, die einen Überblick über die laufenden Experimente sowie die Zusammenhänge untereinander abbilden können. Die Umsetzung einer Lösung, die alle Aspekte dieses Prozesses entsprechend berücksichtigt, ist für sich selbst genommen bereits sehr aufwändig und überschreitet die Ressourcen, die öffentlich geförderten Forschungsprojekten zur Verfügung stehen.<br />Mit dem in dieser Arbeit vorgestellten Record Konzept lassen sich Daten aus verschiedenen Omics-Bereichen in ein einheitliches zentrales System integrieren und im jeweiligen Projektkontext abbilden. Mit dem Einsatz von ``Java Enterprise'' Technologien und dem ``Java Content Repository'' Framework wurde dieses Konzept in Form einer Web Plattform implementiert. Die Umsetzung des ``open-schema'' Paradigmas führt zu einem flexiblen Datenmodell, welches durch gewöhnliche Benutzer entsprechend den sich ändernden Projektanforderungen während dem Betrieb der Software angepasst werden kann, entsprechende Änderungen am Programmcode sind in solchen Fällen überflüssig. Nebst Dateiverwaltung können Verknüpfungen zwischen Datensätzen im System ähnlich wie in relationalen Datenbanken abgebildet werden. Diese Voraussetzungen erlauben eine kontext-sensitive Verwaltung von Information, welche über die von konventionellen Dateisystemen dargebotenen Möglichkeiten der Dateiorganisation in Verzeichnishierarchien hinausgeht. Verknüpfungen zwischen verschiedenen Informationsquellen stellen wertvolle Ressourcen dar, aus denen neues Wissen generiert werden kann.<br />Unter Verwendung von öffentlichen Datenquellen wird gezeigt, wie die Annotation von Genen zu Literatureinträgen aus der PubMed Bibliothek dazu verwendet werden können, um biologische Pathways zu identifizieren, die von toxischen Mechanismen unter unterschiedlichen experimentellen Bedingungen betroffen sind. In dieser Meta-Analyse wurden durch toxische Effekte beeinträchtigte funktionale Prozesse im Tiermodell und in der Zellkultur identifiziert und miteinander verglichen. Die Ergebnisse können in die vorgestellte Datenbank integriert werden und dienen als Referenzdatensatz für laufende Studien innerhalb des Forschungsprojektes.<br />
de
Decoding the human genome sequence in 2001 is an outstanding achievement of modern scientific efforts. This milestone is the foundation for deciphering biological circuitry for gaining a better understanding of human disease, with the ultimate goal to improve therapeutic options. Serving that purpose, a broad range of potent methods allowing for high-dimensional recording of the molecular composition of biological samples were invented and further refined during the last two decades. These Omics technologies are used for identification and quantification of molecules at different levels of biological organization (e.g. proteins, transcripts and metabolites) in a high-throughput manner, yielding a tremendous heap of data to be processed and filed properly.<br />Each technology is complemented with an individual set of tools and databases, fostering data processing and deposition. The scope of these solutions is usually restricted to data and information directly associated with individual assays, such as annotation of experimental conditions. Accordingly, projects involving multiple Omics technologies are forced to maintain multiple databases simultaneously. A lack of out-of-the-box interfaces among these systems raises the need for additional tools that provide a general overview about ongoing experiments and their interdependencies. The implementation of an appropriate solution covering all aspects of such a process implies tremendous efforts in itself, exceeding the resources available to typical publicly funded research projects by far.<br />Addressing this situation, I propose a Record concept integrating the versatile data management requirements of publicly funded research projects into a unified data repository hub. A contemporary web platform was built on the foundation of the Java Content Repository framework and Java Enterprise technology. Incorporating the open-schema paradigm allows the data model to be designed by the user, i.e. changes to the data model as demanded by evolving project requirements can be applied during application runtime come to effect immediately. This approach omits customizations at the program code level through professional consultants in such cases.<br />In addition to storing files, the record entries in the system can be interconnected in a way similar to relational database systems, fostering context-sensitive information storage going beyond the file-and-folder paradigm of conventional filesystems. This functionality permits convenient ways of data retrieval by means of complex database queries and direct navigation capabilities.<br />Linking entities of diverging data resources can be a fruitful approach for inferring novel knowledge. Tapping public database resources, I provide an example where the annotation of genes to the citations recorded in the PubMed library was leveraged to identify biological pathways perturbed by toxic effects under different experimental conditions, revealing differences between in vitro and in vivo toxicology. Integrated with the data repository system, the results serve as reference data sets for ongoing research within the project.<br />
en
Additional information:
Zsfassung in dt. Sprache
-
Appears in Collections: