Dünser, J. (2012). Optimizing text classification for the medical domain : identification of papers on off-label drug use [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-56561
text classification; text categorization; machine learning; medical information retrieval
en
Abstract:
Systeme zur automatischen Textklassifikation sind weit verbreitet und werden für viele Appli- kationen erfolgreich eingesetzt. Besonders bei Texten mit sehr spezifischem Inhalt liefern die- se Systeme jedoch oft nicht die optimale Leistung. Eine domänenspezifische Optimierung ist notwendig. Das Ziel der vorliegenden Arbeit ist die Optimierung eines Systems zur automa- tischen Textklassifikation am Beispiel des medizinischen Fachbereichs.<br />Im Besonderen sollen Artikel welche sich mit der Thematik 'off-label drug use' (zu Deutsch 'zulassungsüberschrei- tende Anwendung') beschäftigen erkannt werden. Die Integration des Unified Medical Langua- ge System (UMLS) als medizinische Ontologie erlaubt die Reduktion von synonymen Begrif- fen, das Anreichern der Dokumente mit Oberbegriffen und das kontextsensitive Ersetzen von mehrdeutigen Konzepten. Die Auswertung des optimierten Systems im Vergleich zur Prototyp- Applikation zeigt eine Verbesserung der Genauigkeit um 11.7% und eine Verbesserung der Tref- ferquote um 2.5%. Obwohl die erzielten Resultate eine eindeutige Weiterentwicklung gegenüber dem Prototyp aufzeigen, besteht noch offenes Potential. Die inhaltliche Komplexität der verwen- deten Ontologie verursacht Probleme bei der Anreicherung der Dokumente mit Oberbegriffen.<br />Eine Analyse des verwendeten Stemming-Algorithmus und der Stopwort-Liste zeigt, dass eine domänenspezifische Anpassung sinnvoll wäre. Um eine weitere Verbesserung zu erreichen, müs- sen dieses und die anderen offenen Probleme im Rahmen von zukünftigen Forschungsarbeiten geklärt werden.<br />
de
Automated text classification is a well studied field and is successfully utilized for many differ- ent applications. General-purpose text classification systems can handle any kind of natural lan- guage text. However, with increasing specificity of the content the effectiveness of such a system deteriorates. A domain specific optimization is necessary to increase the performance further.<br />This thesis is focused on optimizing a text classification system for the medical domain and, in particular, to detect articles originating from a biomedical literature database which discuss the topic 'off-label drug use'. The integration of the Unified Medical Language System (UMLS) as a rich source of biomedical background knowledge enables the application to reduce synony- mous terms, resolve ambiguous concepts and expand the documents with hypernyms. Compared to the baseline classifier the improved system shows an increase in precision of 11.7% and an increase in recall of 2.5%. While these results are a significant improvement, there still is room for improvement. The high amount of concepts not suitable for document enrichment and the high interconnectedness in the ontology poses a serious problem for the expansion techniques.<br />An analysis of the implemented stemming algorithm and stop word list suggests that a topic sensitive adaptation could prove beneficial. The thesis closes by outlining future work which will be necessary to solve the open issues and further improve the performance of biomedical text classification.<br />