Recognizing degraded handwritten characters

Diem, Markus

DC Field

Value

Language

dc.contributor.advisor

Sablatnig, Robert

dc.contributor.author

Diem, Markus

dc.date.accessioned

2020-06-30T16:39:54Z

dc.date.issued

2010

dc.date.submitted

2010-03

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Diem, M. (2010). <i>Recognizing degraded handwritten characters</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-32660</div> </div>

dc.identifier.uri

https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-32660

dc.identifier.uri

http://hdl.handle.net/20.500.12708/13113

dc.description

Zsfassung in dt. Sprache

dc.description.abstract

In dieser Diplomarbeit wird ein neues Character Recognition System für schlecht erhaltene Manuskripte vorgestellt. Im Gegensatz zu aktuellen OCR Systemen, welche Information durch eine frühzeitige Binarisierung verwerfen, wird eine Methodik implementiert, die sich an aktuellen Objekterkennungs-Algorithmen orientiert. Um die Bildinformation aufzubereiten, werden Interest Points berechnet, die Bildbereiche markieren, welche Struktur enthalten. Mit Hilfe von Interest Points können dann lokale Deskriptoren, sozusagen hochdimensionale Feature Vektoren, berechnet werden. Eine SVM klassifiziert die lokalen Deskriptoren.<br />Mit dieser Methodik werden auch ausgebleichte Buchstaben erkannt. Die Lokalisierung der Buchstaben muss aufgrund der nicht durchgeführten Binarisierung durch die Interest Points realisiert werden.<br />Dafür werden Interest Points, die ganze Buchstaben beschreiben durch ein Scale Distribution Histogram segmentiert. Diese Interest Points dienen zur Initialisierung eines k-means Clusterings, welches lokale Deskriptoren eines Buchstabens gruppiert. Für die endgültige Klassifizierung der Buchstaben werden die Wahrscheinlichkeiten aller lokaler Deskriptoren eines Clusters, welche mit der SVM bestimmt wurden, durch ein Voting Schema akkumuliert.<br />Das System wurde mit drei Datensätzen evaluiert: generierte lateinische Buchstaben, schlecht erhaltene glagolitische Buchstaben und Dokumentseiten des Cod. Sin. Slav. 5N. Auf ganzen Dokumentseiten wird ein F score von 0.77 erreicht.<br />

dc.description.abstract

In this thesis, a character recognition system is proposed that handles degraded manuscript documents which were discovered at the St.<br />Catherine's Monastery. In contrast to state-of-the-art OCR systems, no early decision, namely the image binarization, needs to be performed.<br />Thus, an object recognition methodology is adapted for the recognition of ancient manuscripts. Therefore, interest points are extracted which allow for the computation of local descriptors. These are directly classified using a SVM with one against all tests. In order to localize characters, interest points that represent characters are found by means of a scale distribution histogram. Then, the remaining interest points are clustered using a k-means which is initialized with the previously selected interest points. Finally a voting scheme is applied where the local descriptors' class probabilities are accumulated to a probability histogram for each character cluster. This histogram does not solely allow for a hard decision, but can be presented to human experts who can decide the character class for hardly readable characters according to the probabilities obtained.<br />The system was evaluated on three different datasets, namely a synthetic with Latin script, degraded characters and real world data. The system achieves a F score of 0.77 on the last dataset mentioned.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

ocr, local descriptors, image processing, pattern recognition

dc.subject

OCR

dc.subject

Lokale Deskriptoren

dc.subject

Bildverarbeitung

dc.subject

Mustererkennung

dc.title

Recognizing degraded handwritten characters

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Markus Diem

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E183 - Institut für Rechnergestützte Automation

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC07806954

dc.description.numberOfPages

dc.identifier.urn

urn:nbn:at:at-ubtuw:1-32660

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.orcid

0000-0003-4195-1593

item.languageiso639-1

item.openairetype

master thesis

item.grantfulltext

open

item.fulltext

with Fulltext

item.cerifentitytype

Publications

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.openaccessfulltext

Open Access

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(4.53 MB)

In Copyright

Show simple item record

Google Scholar^TM

Check

Google ScholarTM

Google Scholar^TM