Historical documents comprise all kind of information that can be used to gain knowledge about certain periods in time. Art exhibition catalogues represent a special type of historical documents that contains information valuable for the research on the history of art. The research project "Exhibitions of Modern European Painting 1905-1915" at the University of Vienna thrives to gather and digitize art exhibition catalogues in order to perform research on the history of modern painting. The project deals with a collection of more than 1300 catalogues. The manual digitization of this collection is a cumbersome process even when utilizing additional state-of-the-art software like Tesseract. In thisthesis an automated system for the extraction of specific information is proposed. The system is limited to the collection of exhibition catalogues and provides means to improve the digitization process in combination with Tesseract. The first step of the system is a page segmentation. For this purpose, an approach based on Maximally Stable Extremal Regions and a subsequent text region grouping is used. The resulting text regions are then further refined by applying a word level font style classification. This classification is done using a texture analysis of the word regions based on Gabor filtering. The computed font style information of text regions is then utilized in order to identify specific categories of information that are formatted using a unique font style. Finally, by combining these steps with the optical character recognition methodology of Tesseract it is possible to automatically extract different categories of information from the catalogues. The proposed page segmentation methodology is evaluated on the data set of the ICDAR2013 Competition on Historical Book Recognition and is able to outperform the segmentation results of Tesseract. In addition, the proposed Gabor filtering approach used for font style classification is evaluated using varying exhibition catalogues and achieves recognition rates above 90% for cropped word images. By using the proposed stages in combination with the optical character recognition of Tesseract it is possible to ease the recognition of the exhibition catalogues and reduce the need for manual effort in the digitization process.
en
Historische Dokumente enthalten verschiedenste Arten von Informationen, die zum besseren Verständnis bestimmter Zeitabschnitte der Geschichte genutzt werden können. Kunstausstellungskataloge stellen eine spezielle Art von historischen Dokumenten dar, die wertvolle Informationen über die Kunstgeschichte enthalten. Das Forschungsprojekt "Ausstellungen moderner europäischer Malerei 1905-1915" der Universität Wien bemüht sich um die Sammlung und Digitalisierung von Kunstausstellungskatalogen, um die Geschichte der modernen Malerei zu erforschen. Das Projekt befasst sich mit einer Sammlung von mehr als 1300 Katalogen. Die manuelle Digitalisierung dieser Sammlung ist ein aufwendiger Prozess, selbst wenn zusätzliche Software wie Tesseract verwendet wird. In dieser Arbeit wird ein automatisiertes System für die Extraktion von spezifischen Informationen vorgestellt. Das System beschränkt sich auf die Sammlung von Ausstellungskatalogen und vereinfacht den Digitalisierungsprozess in Kombination mit Tesseract. Der erste Schritt des Systems ist eine Seitensegmentierung. Zu diesem Zweck wird ein Ansatz basierend auf "Maximally Stable Extremal Regions" und eine anschließende Gruppierung der Textregionen verwendet. Die dabei entstandenen Textbereiche werden durch Anwendung einer Fontklassifikation auf Wortebene weiter verfeinert. Diese Klassifizierung erfolgt mittels einer Texturanalyse der Wortregionen basierend auf Gabor-Filterung. Die dadurch erlangten Fontinformationen werden dann verwendet, um bestimmte Kategorien von Informationen zu identifizieren, die sich durch eindeutige Fontstile unterscheiden. Schließlich ist es durch die Kombination dieser Schritte mit der optischen Texterkennung von Tesseract möglich, automatisiert verschiedene Kategorien von Informationen aus den Katalogen zu extrahieren. Die vorgeschlagene Methode zur Seitensegmentierung wird anhand des Datensatzes der ICDAR2013 Competition on Historical Book Recognition evaluiert und ist in der Lage, die Segmentierungsergebnisse von Tesseract zu übertreffen. Darüber hinaus wird der Gabor-Filteransatz, der für die Klassifizierung von Fonts verwendet wird, anhand unterschiedlicher Ausstellungskataloge evaluiert und erreicht eine Erkennungsrate von über 90% für zugeschnittene Wortbilder. Durch die Verwendung der vorgeschlagenen Schritte in Kombination mit der Texterkennung von Tesseract ist es möglich, die digitale Erfassung der Ausstellungskataloge zu erleichtern und den manuellen Aufwand im Digitalisierungsprozess zu reduzieren.