Ningtyas, A. M. (2024). Supporting Laypeople in Learning Formal Medical Terminology [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.125702
E194 - Institut für Information Systems Engineering
-
Date (published):
2024
-
Number of Pages:
207
-
Keywords:
natural language processing; artificial intelligence; data augmentation; distant supervision; medical entity linking; medical concept normalization; laypeople medical vocabulary; functional health literacy
en
Abstract:
Gesundheitskompetenz ist für Menschen ohne medizinischen Hintergrund unerlässlich, um fundierte Entscheidungen über ihre Gesundheitsversorgung zu treffen und ihre Lebensqualität zu verbessern. Eine wichtige Komponente dieser Kompetenz ist die funktionale Gesundheitskompetenz (Functional Health Literacy, FHL), die die grundlegenden Lese- und Schreibfähigkeiten umfasst, die erforderlich sind, um gesundheitsbezogene Informationen zu verstehen, z. B. Medikamentenanweisungen. Vielen Menschen fällt es jedoch schwer, Gesundheitsinformationen zu verstehen, was sich auf ihre Fähigkeit auswirkt, ihren Gesundheitszustand zu verstehen und wichtige Entscheidungen für die Gesundheitsversorgung zu treffen. Für Laien ist es wichtig, die medizinische Terminologie zu beherrschen, um Gesundheitsinformationen besser verstehen zu können. Mit der zunehmenden Zugänglichkeit von Gesundheitsinformationen im Internet stoßen Laien häufig auf medizinische Begriffe, verlassen sich aber in den sozialen Medien oft auf eine nicht standardisierte medizinische Sprache, was zu Verwirrung bei der Kommunikation mit medizinischen Fachkräften und anderen Personen führen kann.Um dieses Problem zu lösen, wird in dieser Arbeit das Informal Medical Entity Linking (EL)-Modell vorgestellt, das Laien beim Erlernen medizinischer Terminologie durch Beiträge in sozialen Medien helfen soll. Dieses Modell identifiziert automatisch popularisierte medizinische Phrasen in Quellen wie Social-Media-Posts und normalisiert sie in standardisierte medizinische Fachterminologie in einer medizinischen Wissensbasis (KB), wie z. B. Systematized Nomenclature of Medicine Clinical Terms (SNOMED-CT) Konzepte, angereichert mit zusätzlichen Informationen aus relevanten Wikipedia-Artikeln. Der Abgleich von popularisierten Phrasen mit spezialisierten medizinischen Konzepten ist jedoch eine Herausforderung, da sich die medizinische Wissenschaft ständig weiterentwickelt und neben der vielfältigen popularisierten medizinischen Sprache auch neue medizinische Konzepte eingeführt werden. Die derzeitige Forschung im Bereich des Medical Entity Linking stützt sich auf überwachte Lernmethoden, die derzeit nur eine begrenzte Abdeckung medizinischer Konzepte aufweisen.In dieser Arbeit werden Methoden zur Bewältigung von Datenbeschränkungen bei der Entwicklung des informellen medizinischen EL-Modells vorgestellt, insbesondere bei der Aufgabe der medizinischen Konzeptnormalisierung (MCN). Die MCN-Aufgabe zielt darauf ab, popularisierte medizinische Phrasen in spezialisierte medizinische Terminologien zu standardisieren. Wir schlagen einen Ansatz zur Augmentation von Textdaten vor, der das Schreibverhalten von Laien nachahmt, um die Anzahl popularisierter medizinischer Phrasen für bestimmte medizinische Konzepte in öffentlich verfügbaren MCN-Datensätzen zu erhöhen, da viele der medizinischen Konzepte nur wenige Beispiele für popularisierte medizinische Phrasen aufweisen. Unsere Ergebnisse zeigen, dass die Augmentation Ansatz ist wirksam bei der Erhöhung der Anzahl der popularisierten medizinischen Phrasen für bestimmte medizinische Konzepte und Verbesserung der Modellleistung auf MCN-Modelle trainiert mit Daten Augmentation im Vergleich zu MCN-Modelle mit Original-Daten trainiert.Darüber hinaus verwenden wir eine Fernüberwachungsmethode, um die Abdeckung medizinischer Konzepte in MCN-Datensätzen zu erweitern, indem wir Wikipedia und Wikidata nutzen, um automatisch beschriftete Daten zu generieren. Diese Strategie erweitert effektiv die Abdeckung medizinischer Konzepte und verbessert die Leistung von MCN-Modellen, wenn die automatisch beschrifteten Daten mit dem ursprünglichen Trainingsdatensatz für jeden öffentlichen MCN-Datensatz kombiniert werden, verglichen mit der Leistung von MCN-Modellen, die mit den ursprünglichen Trainingsdaten trainiert wurden. Aufbauend auf der zuvor behandelten erweiterten Abdeckung wurde das informelle medizinische Entitätsmodell entwickelt. Dieses Modell besteht aus drei Phasen: (1) Die Phase der Erkennung benannter Entitäten (Named Entity Recognition, NER), in der popularisierte medizinische Phrasen im Text identifiziert werden. (2) Die Medical Concept Normalization (MCN)-Phase, in der jeder popularisierte medizinische Ausdruck auf die entsprechende medizinische Fachterminologie in SNOMED-CT normalisiert wird. (3) Die Phase der Entitäts-Disambiguierung (ED), in der der am besten geeignete Wikipedia-Artikel als Erklärungsquelle für die medizinische Fachterminologie gefunden wird.Wir haben die Wirksamkeit des informellen Modells zur Verknüpfung medizinischer Entitäten beim Erlernen medizinischer Terminologie durch Benutzerexperimente evaluiert und die Teilnehmer in eine Interventions-Gruppe, die Unterstützung durch das Modell erhielt, und eine Nicht-Interventions-Gruppe, die keine Unterstützung erhielt, unterteilt. Ziel der Studie war es, festzustellen, ob die Interventions-Gruppe im Vergleich zur Nicht-Interventions-Gruppe signifikante Verbesserungen beim Erlernen medizinischer Terminologie zeigte. Die Ergebnisse deuten darauf hin, dass das Informal Medical Entity Linking-Modell ein potenzielles Instrument zur Unterstützung von Laien beim Erlernen medizinischer Terminologie in sozialen Medien sein kann.
de
Health literacy is essential for individuals without a medical background to make informed choices about their healthcare and enhance their quality of life. A significant component of this literacy is Functional Health Literacy (FHL), which encompasses the basic reading and writing abilities needed to grasp health-related information, like understanding medication instructions. However, many people find it challenging to understand health information, which affects their capacity to understand their health conditions and make crucial healthcare decisions. Being knowledgeable in medical terminology is important for laypeople to grasp health information more effectively. With the growing accessibility of health information online, laypeople frequently encounter medical terms but often rely on non-standard medical language on social media, leading to possible confusion when communicating with healthcare professionals and others.To address this issue, this thesis introduces the Informal Medical Entity Linking (EL) Model, designed to help laypeople learn medical terminology through social media posts. This model automatically identifies popularized medical phrases in sources like social media posts and normalizes them into standardized specialized medical terminology in a medical knowledge base (KB), such as Systematized Nomenclature of Medicine Clinical Terms (SNOMED-CT) concepts, enriched with additional information from relevant Wikipedia articles. However, aligning popularized phrases with specialized medical concepts is challenging due to the evolving nature of medical science and the introduction of new medical concepts, alongside the diverse popularized medical language. Current research in medical entity linking relies on supervised learning methods, which currently have limited coverage of medical concepts.This thesis presents methodologies for addressing data limitations in the development of the Informal Medical EL model, specifically in the Medical Concept Normalization (MCN) task. The MCN task aims to standardize popularized medical phrases into specialized medical terminologies. We propose a textual data augmentation approach that mimics the writing behavior of laypeople to increase the number of popularized medical phrases for specific medical concepts in publicly available MCN datasets, as many of the medical concepts have few examples of popularized medical phrases. Our results show that the augmentation approach is effective in increasing the number of popularized medical phrases for specific medical concepts and improving model performance on MCN models trained with data augmentation compared to MCN models trained with original data.Moreover, we utilize a distant supervision method to expand medical concept coverage within MCN datasets, leveraging Wikipedia and Wikidata to generate automatically labeled data. This strategy effectively broadens medical concept coverage and improves the performance of MCN models when combining the automatically labeled data with the original training dataset for each public MCN dataset, compared to the performance of MCN models trained on the original training data.Building on the expanded coverage previously addressed, the Informal Medical Entity model was developed. This model consists of three phases: (1) The Named Entity Recognition (NER) phase, which identifies popularized medical phrases in the text. (2) The Medical Concept Normalization (MCN) phase, which normalizes each popularized medical phrase to its corresponding specialized medical terminology found in SNOMED-CT. Finally, (3) The Entity Disambiguation (ED) phase, which retrieves the most suitable Wikipedia article to serve as the source of explanation for the specialized medical terminology.We evaluated the informal medical entity linking model's effectiveness in helping laypeople learn medical terminology through user experiments, dividing participants into an intervention group, which received assistance from the model, and a non-intervention group, which did not. The study aimed to determine if the intervention group showed significant improvement in learning medical terminology compared to the non-intervention group. The results indicate that the Informal Medical Entity Linking model can be a potential tool for assisting laypeople in learning medical terminology within social media settings.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft