Obwohl moderne Zeitungen digital erstellt werden, sind explizite Informationen über ihr Layout oft nicht vorhanden, wenn sie nicht getrennt abgespeichert und mit veröffentlicht werden. Die Beschaffenheit des Layouts kann, je nach Dateiformat, aus dem digital gespeicherten Inhalt des Dokuments rekonstruiert oder aus dem Dokumentenbild erschlossen werden. Die vorliegende Arbeit stellt eine einfache Methode vor, um rechteckige Regionsgrenzen vom Typ Text oder Bild, die aus Zeitungen und anderen Dokumenten im PDF-Format extrahiert werden können, zu benutzen, um korrekte und nach Typ klassifizierte Regionsbeschreibungen zu erhalten. Notwendig ist dies, da der Inhalt von PDF-Dokumenten nur nach Text- und Bildkomponenten unterschieden werden kann, und dabei vor allem beim Auslesen der Bilder wegen Schnittmasken je nach angewandter Methode Fehler entstehen können, wodurch die resultierenden Regionsgrenzen nicht mehr mit den Grenzen der sichtbaren Bilder im Dokument übereinstimmen. Daher werden die extrahierten Regionsgrenzen, welche sich überlappen oder zu groß sein können, in Kombination mit dem Dokumentenbild benutzt, um sie an die tatsächlichen inhaltlichen Komponenten des Dokuments anzupassen. Um die Regionen anschließend klassifizieren zu können, wird ein auf HOG Features basierender Random Forest Klassifikator an einem manuell annotierten Datensatz trainiert. Für die Klassifizierung zwischen Text- und Tabellenregionen wird dabei eine error rate von 0.05 und für die Unterscheidung zwischen Bild- und Diagrammregionen eine von 0.1 erzielt. Die Segmentierung, welche nur die extrahierten Bild-Regionen betrifft, wird zuerst nach dem Maß der flächenmäßigen Überlappung zwischen annotierten und segmentierten Regionen evaluiert, womit ein Recall und eine Precision von 0.77 und 0.94 erzielt werden. Zusätzlich wird sie danach evaluiert, wie viele segmentierte bzw. annotierte Regionen genau (mit einer variablen Toleranz) einer oder mehreren annotierten Regionen aus dem jeweils anderen Datensatz entsprechen. Je nach Toleranz ergeben sich dabei F1-Werte zwischen 0.37 und 0.45, wobei sich herausstellt, dass die Segmentierung bei Diagrammregionen wesentlich öfter scheitert als bei Bildern. Die Evaluierung des Gesamtsystems wird erneut doppelt vollzogen: nach Überlappungsfläche und nach der Anzahl sich entsprechender Regionen. Auch dabei schneiden bei der flächenbasierten Evaluierung Diagrammregionen mit einem F1-Wert von 0.21 deutlich schlechter ab als die Regionen der anderen Klassen. Schließlich wird die Methode noch mit Tesseract hinsichtlich der Segmentierung und Klassifizierung von Text-, Bild- und Tabellenregionen verglichen. Dabei erzielt die vorgestellte Methode hinsichtlich aller Klassen einen höheren F1-Score.
de
Even though modern newspapers are born digitally, layout information is often not available if it is not stored separately and distributed alongside them. Depending on the data format, the layout structure can either be reconstructed from the content stored in the digital file or from the document image. This work proposes a method for using rectangular region bounding boxes, which can be extracted from PDF documents, in order to obtain correctly segmented and classified region descriptions. This is necessary because the content extracted from PDF files can only be distinguished as being of the text or image type, and because of clipping masks for image components, the resulting boundaries may not match the visible images in the documents, depending on the extraction method. Therefore, the resulting region boundaries, which may be too large or overlapping, are used in combination with the document image to fit them to the visible component boundaries. In order to classify the regions afterwards, a random forest classifier is trained on a manually annotated dataset using HOG features. The resulting error rates are 0.05 for the distinction between text and table regions, and 0.1 for the classification between image and chart regions. The segmentation, which is only performed on the extracted image regions, is first measured according to the amounts of area overlap between annotated and segmented regions, resulting in a recall value of 0.77 and a precision of 0.94. The second kind of segmentation evaluation consists of counting how many regions of one dataset (segmented or ground-truth) fit a region of the respective other dataset, according to a variable tolerance value. Depending on this value, the resulting F1 scores lie between 0.37 and 0.45. This evaluation also reveals that the segmentation fails significantly more often for chart regions than for images. Both measurements, region overlap and fitting region counts, are again used in the evaluation of the complete system, which shows once more that chart regions are segmented significantly worse than other classes with an overall area-based F1 score of 0.21. The last measurement is a comparison of the proposed technique to Tesseract in terms of segmentation and classification of text, image and table regions, where the proposed system performs better in terms of F1 scores for all classes.