<div class="csl-bib-body">
<div class="csl-entry">Keglevic, M. (2013). <i>Automatic recognition of weather records</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/159736</div>
</div>
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/159736
-
dc.description
Zsfassung in dt. Sprache
-
dc.description.abstract
Schon vor der Erfindung von Computer wurden meteorologische Daten zum Zweck der statistischen Auswertung aufgezeichnet. Zusätzlich zu diesen, in historischen Archiven bewahrten, handgeschriebenen Aufzeichnungen, gibt es heute noch Prozesse, wie zum Beispiel das Eintragen von Messwerten in Formulare, die auf die Verwendung von Stift und Papier angewiesen sind. Die manuelle Digitalisierung dieser Daten zur digitalen Weiterverarbeitung ist jedoch zeitraubend. Um diesen Prozess zu erleichtern, wird in dieser Arbeit eine automatische Digitalisierung handschriftlich ausgefüllter Wetterberichte vorgestellt.<br />Die Wetterberichte im Fokus dieser Arbeit bestehen aus Formularen mit einer vordefinierten Struktur in die meteorologische Messungen handschriftlich eingetragen wurden, wobei das Ziel die Erkennung der verschiedenen Temperaturwerte der Messungen morgens, mittags und abends ist. Die Lokalisierung der numerischen Daten erfolgt im ersten Schritt durch die Rekonstruierung der tabulären Struktur der Formulare, wobei hierfür horizontale und vertikale Projektionsprofile verwendet werden, um die Formularlinien zu finden. Allerdings beruht diese Methodik auf gerade ausgerichtete Bilder, wovon in Folge des Scan- und Druckprozesses leider nicht ausgegangen werden kann. Daher wird in einem vorhergehenden Schritt die Rotation mittels eines Richtungshistograms der Gradientenvektoren korrigiert. Verbleibende Fehler, die bei der Rekonstruktion der Formularstruktur auftreten, werden durch Zusatzinformation über deren Beschaffenheit ausgebessert. Zusätzlich, um den Einfluss von störenden horizontalen und vertikalen Linien auf die Ziffernerkennung einzuschränken, werden diese entfernt. Dazu wird ein, auf die Rekonstruktion von Gradientenbildern basierendes Verfahren, verwendet, dass zwar die Linien entfernt, gleichzeitig jedoch die zu den Ziffern gehörenden Striche beibehält. Die Extrahierung der Ziffern und Vorzeichen erfolgt danach mittels Binarisierung, basierend auf dem Savakis Filter und der Analyse von zusammenhängenden Komponenten. Die Merkmale der Ziffern und Vorzeichen werden mittels einer PCA Filterbank extrahiert, wobei die Klassifizierung durch mehrere SVMs mit RBF Kernel erfolgt. Um unsichere Ergebnisse zu erkennen, werden zusätzlich die Klassenwahrscheinlichkeiten in einem weiteren Schritt geschätzt. Für die Evaluierung wurden einerseits drei verschiedene Datenbanken mit handgeschriebenen Ziffern verwendet, andererseits wurde für die Evaluierung der Linienentfernung ein Datensatz mit synthetisch Linien erstellt. Schlussendlich wurden Wetterberichte von fünf verschiedenen Messstationen in Niederösterreich verwendet, um das System als Ganzes zu testen. Für einen Datensatz mit Wetterberichten von allen fünf Stationen wird eine Erkennungsrate von 93% pro Ziffer erreicht. Bei zusätzlicher Einschränkung auf eine Messstation, bzw. einen Schreiber, kann dieses Ergebnis noch auf 99% verbessert werden.
de
dc.description.abstract
Even before the use of computers, meteorological data was recorded for statistics by means of handwritten notes. In addition to those handwritten documents stored in historic archives, processes, as manually filling in measurement values into forms, still depend on pen and paper. However, manually digitizing this data for further processing is cumbersome. In this thesis, a character recognition system for automatically digitizing handwritten weather records is proposed. The weather record dataset regarded in this thesis consists of known printed forms with handwritten meteorological measurements. The scope of this thesis are the numeric temperature values which are measured at three different points of time, i.e. temperature in the morning, at noon and in the evening.<br />The localization of the numerical data is achieved by first reconstructing the tabular structure of the form. Using vertical and horizontal projection profiles, the rough positions of the lines building up the table are found. However, this approach depends on axis-aligned images and due to the scanning and printing process the documents may not be aligned upright. Therefore the rotation is corrected using an orientation histogram of the gradient vectors. Errors in the layout analysis are corrected using a-propri information of the form. Additionally, to reduce the influence of spurious lines, a stroke preserving line removal method is proposed which is based on the reconstruction of gradient images using a Wiener filter. The extraction of the digits and signs is done using a binarization based on the Savakis filter and subsequent connected component analysis. Using a trained PCA basis as a filterbank the features of the digits and signs are extracted and subsequently classified with multiple SVM with RBF kernels. Moreover, to allow an identification of uncertain prediction results, the class probabilities are estimated. The evaluation was conducted using three different digit databases with manually annotated ground truth, synthetically generated digit images with spurious lines and weather records from five different measurement stations located in Lower Austria with manually transcribed temperature values. On a dataset with weather records from five different measurement stations an accuracy of 93% per digit is achieved.<br />Furthermore, on a dataset containing only weather records from a single writer the performance is improved to over 99%.
en
dc.language
English
-
dc.language.iso
en
-
dc.subject
Erkennung handschriftlicher Ziffern
de
dc.subject
Wetterberichte
de
dc.subject
Formularanalyse
de
dc.subject
Dokumentanalyse
de
dc.subject
handwritten digit recognition
en
dc.subject
weather records
en
dc.subject
form analysis
en
dc.subject
document analysis
en
dc.title
Automatic recognition of weather records
en
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.contributor.affiliation
TU Wien, Österreich
-
tuw.thesisinformation
Technische Universität Wien
-
dc.contributor.assistant
Diem, Markus
-
tuw.publication.orgunit
E183 - Institut für Rechnergestützte Automation
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC10774529
-
dc.description.numberOfPages
77
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
tuw.author.orcid
0000-0002-4644-2723
-
tuw.advisor.staffStatus
staff
-
tuw.assistant.staffStatus
exstaff
-
tuw.advisor.orcid
0000-0003-4195-1593
-
item.grantfulltext
none
-
item.languageiso639-1
en
-
item.fulltext
no Fulltext
-
item.cerifentitytype
Publications
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.openairetype
master thesis
-
crisitem.author.dept
E193-01 - Forschungsbereich Computer Vision
-
crisitem.author.orcid
0000-0002-4644-2723
-
crisitem.author.parentorg
E193 - Institut für Visual Computing and Human-Centered Technology