Gottardi, R. (2010). Complex digital object preservation [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/160864
Diese Arbeit analysiert die Problematik der langfristigen Bewahrung von elektronischen Dokumenten. Eine neue Herausforderung im Bereich der digitalen Langzeitarchivierung betrifft komplexen Objekte, die aus mehrerem einzelnen Objekten bestehen. Um die Erhaltung und Verwendung dieser Objekte sicherzustellen, müssen deren einzelne Teile analysiert und falls erforderlich behandelt werden. Eine weitverbreitete Strategie für die Langzeitarchivierung ist die Migration von Objekten. Das Problem der langfristigen Bewahrung von digitalen Objekten ist, den Zugriff auf diese unbegrenzt zu sichern. Falls die Programme für den Zugriff auf diese Unterelemente nicht mehr verfügbar sind und es keine Spezifikation des Formates gibt, geht der Inhalt und die Informationen, die im Objekt gespeichert sind, verloren. Alle Teile im Dokument, die sich in obsoleten oder proprietären Formaten befinden, werden für die langfristige Verwendung in bevorzugte und geeignetere Formate migriert. Diese Formate sind üblicherweise freie Formate mit einer offenen Spezifikation. Die verfügbaren Werkzeuge für Migration, behandeln derzeit nicht vollständig die komplexen Objekte durch den beschriebenen Workflow und gefährden deshalb die Vollständigkeit und Authentizität des Objektes bei einer Migration. Diese Arbeit beschäftigt sich mit der Langzeitarchivierung von komplexen Objekten. Im ersten Teil wird der Prozess der extrahierung der einzelnen Elementen des komplexen Objektes beschrieben. Diese werden extrahiert und auf deren Eignung für langfristige Speicherungen analysiert. Danach werden die Objekte migriert und in ein neues komplexes Objekt des gleichen Formats wie das Ausgangsobjekt zusammengesetzt. Diese Arbeit betrachtet die Wahlmöglichkeiten des Umgangs mit den Unterelementen anders und welche Auswirkung sie auf das Endergebnis haben. DieWiedereingliederung der Elemente wird in einer Kopie des ursprünglichen Dokuments gemacht, ohne die originale Datei zu beschädingen. Der zweite Teil der Arbeit zeigt einen Musterfall, wo unterschiedliche Dokumente in ODF oder ooXML Format mit verschiedenen Alternativen, einschließlich der Migration mit dem COP Plug-in, migriert werden. Das COP Plug-in ist ein selbst implementiertes Plug-in für jHove, das die Standard-Features wie die jHove Identifizierung, Validierung und Charakterisierung der digitalen Dokumente auf ODF oder ooXML Format einschliesst. Außerdem ermöglicht die Software die Extraktion der Struktur der Formate und die Herauslösung kritischer Objekte aus dem komplexen Objekt. Die Ergebnisse dieses Experimentes zeigen, dass wenn das digitale Dokument als ein komplexes Element behandelt wird, die Qualität der Migration für eine lang-zeit Archivierung erhöht wird. Dies ist möglich, weil das originale Format bewahrt bleibt und die Probleme der Unterlemente individuell gelöst werden oder in einen neuen Format unmgewandelt werden können. Die verschiedenen Möglichkeiten, die man hat, einen komplexes Objekt zu behandeln, regen zukünftige Analysen über die Struktur eines komplexen digitalen Objektes, über neue Anwendungen und über die möglichen Transformationen an. Diese Anwendungen können in das COP Plug-in integriert werden oder können als Startpunkt für einen mehr komplexen Programm verwendet werden. Das COP Plug-in könnte auch in den neuen Jhove 2 integriert werden.
This work analyses the problem of long-term preservation of electronic documents. A new challenge in the field of digital preservation are complex objects that consist of several individual objects. These objects should be analysed and handled differently to ensure long-term conservation. The most widely used strategies for long-term archiving of digital objects are migration and emulation. Emulation tries to create a simulation of an old hardware/software environment where to execute or access obsolete files or programs, on the other side migration tries to assure that the migrated object is in a format which is better suited for a long term preservation and access. A common problem in a long-term preservation action is that if the programs for accessing these objects are no longer available and there is no specification that describes their format, the content and information stored in them is lost. For objects that are in obsolete or proprietary formats the preference in a migration is to transform them into a more appropriate format for long-term archiving allowing them to be accessed in the future even if some software of hardware decay. These formats are usually free format with an open specification. The available tools for migration currently do not treat complex objects and therefore endanger the integrity and authenticity of the object itself during a migration. This work will concentrate with preservation of complex objects. In the first part we describe the process from the extraction of the internal elements, to their transformation and successively to their reintegration in the resulting file. An important aspect of this transformation is to preserve the entire contents of the complex digital object. This work considers the possible choices in handling the internal elements differently and what repercussions this has on the final result. The last step of the process consists in the reintegration of the elements which results in a copy of the original document. The second part of the work consists in migrating the document considering different alternatives that handle it as single or as a complex digital object. The complex digital object alternative is performed by the COP Plug-in. This is a self-implemented plug-in for jHove extending the standard jHove features such as identification, validation and characterisation for digital documents in ODF or ooXML format. In the final step an evaluation of the results is done in order to compare each transformations and get its advantages and disadvantages. Successively, the migration of the parts of a complex digital object is performed on a collection of different documents in ODF or ooXML format applying the COP Plug-in alternative. The results of the experiment show that considering the digital document as a complex element increases the quality of preservation. This is possible because it maintains intact the original format fixing the internal incompatible elements or migrating them into a more durable format defined by user preferences. Most migrations actually transform the digital object without fixing the errors in its internal elements that could be incompatible, damaged or incomplete. Considering the digital objects as complex elements makes it possible to solve this problem because each class of element can be handled differently. Future work should be done in order to study each digital object in depth and create tools able to migrate its internal elements following the suggestions described in this work. These tools could also be modules that extend current COP plug-in implementation or extension modules for jHove 2.