Keglevic, M. (2013). Automatic recognition of weather records [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/159736
handwritten digit recognition; weather records; form analysis; document analysis
en
Abstract:
Schon vor der Erfindung von Computer wurden meteorologische Daten zum Zweck der statistischen Auswertung aufgezeichnet. Zusätzlich zu diesen, in historischen Archiven bewahrten, handgeschriebenen Aufzeichnungen, gibt es heute noch Prozesse, wie zum Beispiel das Eintragen von Messwerten in Formulare, die auf die Verwendung von Stift und Papier angewiesen sind. Die manuelle Digitalisierung dieser Daten zur digitalen Weiterverarbeitung ist jedoch zeitraubend. Um diesen Prozess zu erleichtern, wird in dieser Arbeit eine automatische Digitalisierung handschriftlich ausgefüllter Wetterberichte vorgestellt.<br />Die Wetterberichte im Fokus dieser Arbeit bestehen aus Formularen mit einer vordefinierten Struktur in die meteorologische Messungen handschriftlich eingetragen wurden, wobei das Ziel die Erkennung der verschiedenen Temperaturwerte der Messungen morgens, mittags und abends ist. Die Lokalisierung der numerischen Daten erfolgt im ersten Schritt durch die Rekonstruierung der tabulären Struktur der Formulare, wobei hierfür horizontale und vertikale Projektionsprofile verwendet werden, um die Formularlinien zu finden. Allerdings beruht diese Methodik auf gerade ausgerichtete Bilder, wovon in Folge des Scan- und Druckprozesses leider nicht ausgegangen werden kann. Daher wird in einem vorhergehenden Schritt die Rotation mittels eines Richtungshistograms der Gradientenvektoren korrigiert. Verbleibende Fehler, die bei der Rekonstruktion der Formularstruktur auftreten, werden durch Zusatzinformation über deren Beschaffenheit ausgebessert. Zusätzlich, um den Einfluss von störenden horizontalen und vertikalen Linien auf die Ziffernerkennung einzuschränken, werden diese entfernt. Dazu wird ein, auf die Rekonstruktion von Gradientenbildern basierendes Verfahren, verwendet, dass zwar die Linien entfernt, gleichzeitig jedoch die zu den Ziffern gehörenden Striche beibehält. Die Extrahierung der Ziffern und Vorzeichen erfolgt danach mittels Binarisierung, basierend auf dem Savakis Filter und der Analyse von zusammenhängenden Komponenten. Die Merkmale der Ziffern und Vorzeichen werden mittels einer PCA Filterbank extrahiert, wobei die Klassifizierung durch mehrere SVMs mit RBF Kernel erfolgt. Um unsichere Ergebnisse zu erkennen, werden zusätzlich die Klassenwahrscheinlichkeiten in einem weiteren Schritt geschätzt. Für die Evaluierung wurden einerseits drei verschiedene Datenbanken mit handgeschriebenen Ziffern verwendet, andererseits wurde für die Evaluierung der Linienentfernung ein Datensatz mit synthetisch Linien erstellt. Schlussendlich wurden Wetterberichte von fünf verschiedenen Messstationen in Niederösterreich verwendet, um das System als Ganzes zu testen. Für einen Datensatz mit Wetterberichten von allen fünf Stationen wird eine Erkennungsrate von 93% pro Ziffer erreicht. Bei zusätzlicher Einschränkung auf eine Messstation, bzw. einen Schreiber, kann dieses Ergebnis noch auf 99% verbessert werden.
de
Even before the use of computers, meteorological data was recorded for statistics by means of handwritten notes. In addition to those handwritten documents stored in historic archives, processes, as manually filling in measurement values into forms, still depend on pen and paper. However, manually digitizing this data for further processing is cumbersome. In this thesis, a character recognition system for automatically digitizing handwritten weather records is proposed. The weather record dataset regarded in this thesis consists of known printed forms with handwritten meteorological measurements. The scope of this thesis are the numeric temperature values which are measured at three different points of time, i.e. temperature in the morning, at noon and in the evening.<br />The localization of the numerical data is achieved by first reconstructing the tabular structure of the form. Using vertical and horizontal projection profiles, the rough positions of the lines building up the table are found. However, this approach depends on axis-aligned images and due to the scanning and printing process the documents may not be aligned upright. Therefore the rotation is corrected using an orientation histogram of the gradient vectors. Errors in the layout analysis are corrected using a-propri information of the form. Additionally, to reduce the influence of spurious lines, a stroke preserving line removal method is proposed which is based on the reconstruction of gradient images using a Wiener filter. The extraction of the digits and signs is done using a binarization based on the Savakis filter and subsequent connected component analysis. Using a trained PCA basis as a filterbank the features of the digits and signs are extracted and subsequently classified with multiple SVM with RBF kernels. Moreover, to allow an identification of uncertain prediction results, the class probabilities are estimated. The evaluation was conducted using three different digit databases with manually annotated ground truth, synthetically generated digit images with spurious lines and weather records from five different measurement stations located in Lower Austria with manually transcribed temperature values. On a dataset with weather records from five different measurement stations an accuracy of 93% per digit is achieved.<br />Furthermore, on a dataset containing only weather records from a single writer the performance is improved to over 99%.