Title: | Optimizing text classification for the medical domain; identification of papers on off-label drug use | Language: | English | Authors: | Dünser, Johannes | Qualification level: | Diploma | Keywords: | Textklassifikation; Maschinelles Lernen; Medizinische Informationsbeschaffung text classification; text categorization; machine learning; medical information retrieval |
Advisor: | Rauber, Andreas | Issue Date: | 2012 | Number of Pages: | 76 | Qualification level: | Diploma | Abstract: | Systeme zur automatischen Textklassifikation sind weit verbreitet und werden für viele Appli- kationen erfolgreich eingesetzt. Besonders bei Texten mit sehr spezifischem Inhalt liefern die- se Systeme jedoch oft nicht die optimale Leistung. Eine domänenspezifische Optimierung ist notwendig. Das Ziel der vorliegenden Arbeit ist die Optimierung eines Systems zur automa- tischen Textklassifikation am Beispiel des medizinischen Fachbereichs. Im Besonderen sollen Artikel welche sich mit der Thematik 'off-label drug use' (zu Deutsch 'zulassungsüberschrei- tende Anwendung') beschäftigen erkannt werden. Die Integration des Unified Medical Langua- ge System (UMLS) als medizinische Ontologie erlaubt die Reduktion von synonymen Begrif- fen, das Anreichern der Dokumente mit Oberbegriffen und das kontextsensitive Ersetzen von mehrdeutigen Konzepten. Die Auswertung des optimierten Systems im Vergleich zur Prototyp- Applikation zeigt eine Verbesserung der Genauigkeit um 11.7% und eine Verbesserung der Tref- ferquote um 2.5%. Obwohl die erzielten Resultate eine eindeutige Weiterentwicklung gegenüber dem Prototyp aufzeigen, besteht noch offenes Potential. Die inhaltliche Komplexität der verwen- deten Ontologie verursacht Probleme bei der Anreicherung der Dokumente mit Oberbegriffen. Eine Analyse des verwendeten Stemming-Algorithmus und der Stopwort-Liste zeigt, dass eine domänenspezifische Anpassung sinnvoll wäre. Um eine weitere Verbesserung zu erreichen, müs- sen dieses und die anderen offenen Probleme im Rahmen von zukünftigen Forschungsarbeiten geklärt werden. Automated text classification is a well studied field and is successfully utilized for many differ- ent applications. General-purpose text classification systems can handle any kind of natural lan- guage text. However, with increasing specificity of the content the effectiveness of such a system deteriorates. A domain specific optimization is necessary to increase the performance further. This thesis is focused on optimizing a text classification system for the medical domain and, in particular, to detect articles originating from a biomedical literature database which discuss the topic 'off-label drug use'. The integration of the Unified Medical Language System (UMLS) as a rich source of biomedical background knowledge enables the application to reduce synony- mous terms, resolve ambiguous concepts and expand the documents with hypernyms. Compared to the baseline classifier the improved system shows an increase in precision of 11.7% and an increase in recall of 2.5%. While these results are a significant improvement, there still is room for improvement. The high amount of concepts not suitable for document enrichment and the high interconnectedness in the ontology poses a serious problem for the expansion techniques. An analysis of the implemented stemming algorithm and stop word list suggests that a topic sensitive adaptation could prove beneficial. The thesis closes by outlining future work which will be necessary to solve the open issues and further improve the performance of biomedical text classification. |
URI: | https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-56561 http://hdl.handle.net/20.500.12708/12910 |
Library ID: | AC07814154 | Organisation: | E188 - Institut für Softwaretechnik und Interaktive Systeme | Publication Type: | Thesis Hochschulschrift |
Appears in Collections: | Thesis |
Files in this item:
File | Description | Size | Format | |
---|---|---|---|---|
Optimizing text classification for the medical domain identification of papers on off-label drug use.pdf | 905.8 kB | Adobe PDF | ![]() View/Open |
Page view(s)
12
checked on Feb 18, 2021
Download(s)
71
checked on Feb 18, 2021

Google ScholarTM
Check
Items in reposiTUm are protected by copyright, with all rights reserved, unless otherwise indicated.