Schweikert, F. (2020). Ein eLearning Tool zu Identifizierung von Population, Intervention, Vergleich und Ergebnis für Medizinstudierenden [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.58460
Medical research presents its results in the form of published papers in scientific journals. One of the most important online platforms for researching published papers is PubMed,in which the abstracts of all articles are published even before their official publication. However, the use of this data in evidence-based medicine is still an extremely time-consuming task, as the structure of abstracts can vary between different study designs, disciplines and research groups greatly. As of 2019 PubMed contained 5.7 million articles with a current growth rate of approximately 500,000 documents per year. Even if modern search engines work better than in the past, it is still necessary, that the researcher at least reads the abstracts of all potentially relevant articles. Population, Interaction, Comparison, Outcome (PICO) are basic elements of medical studies. The use of machine learning is a state-of-the-art method for label predictions in texts. Such a model learns to perform annotations on the basis of already annotated texts (data set). An example of such a data set with annotations of PICO elements in medical texts is ebmnlp, which has been used for comparison several times in this paper.The basis of this work was the data set already available from the KConnect project consisting of abstracts of medical studies with already annotated PICO elements. Theannotation tool developed for the KConnect project was extended to an eLearning sys-tem, with which further abstracts could be annotated (picoweb data set). To simplifythings for the users, Intervention and Comparison were combined to form Therapy. Inthe next step a neural network (SciBERT) was trained with the picoweb data set. This achieved f1-scores of 0.87 for the detection of Population and 0.83 for Therapy. For comparison, the same model was trained with the ebmnlp data set, which achieved anf1-score of 0.81 for Population and 0.72 for Therapy.
en
Die medizinische Forschung präsentiert ihre Resultate in Form von publizierten Papers in wissenschaftlichen Zeitschriften. Eine der wichtigsten Onlineplattformen zur Recherche der publizierten Papers ist PubMed, in der bereits vor dem offiziellen Erscheinen die Abstracts aller Artikel veröffentlicht werden. Die Verwendung dieser Daten in der evidenzbasierten Medizin ist jedoch immer noch eine extrem zeitaufwändige Aufgabe, da sich der Aufbau von Abstracts zwischen verschiedenen Studiendesigns, Fachrichtungen und Forschungsgruppen stark unterscheiden. Mit Stand 2019 enthielt PubMed 5,7 Millionen Artikel mit einer aktuellen Wachstumsrate von ungefähr 500.000 Artikel pro Jahr. Auch wenn moderne Suchmaschinen besser funktionieren als früher, ist es immer noch notwendig, dass der/die Forschende zumindest die Abstracts aller potenziell relevanten Artikel liest. Population, Interaction, Comparison, Outcome (PICO) stellen Grundelemente einer medizinischen Studie dar. Die Verwendung von maschinellem Lernen ist eine State-of-the-Art Methode für Labelvorhersagen in Texten. So ein Model lernt auf Basis von bereits annotierten Texten (Data Set) selbst Annotierungen durchzuführen. Ein Beispiel für so ein Data Set mit Annotierungen von PICO Elementen in medizinischen Texten ist ebmnlp, welches in dieser Arbeit mehrfach zum Vergleich herangezogen wurde. Basis dieser Arbeit war das bereits aus dem KConnect Projekt vorhandene Data Set bestehend aus bereits PICO-Element annotierten Abstracts medizinischer Studien. Das für das KConnect Projekt entwickelte Annotierungstool wurde zu einem eLearning System erweitert, mit dessen Hilfe weitere Abstracts annotiert werden konnten (picoweb Data Set). Zur Vereinfachung für die Benutzer wurden Intervention und Comparison zu Therapy kombiniert. Im nächsten Schritt wurde ein neuronales Netz (SciBERT) mit dem picoweb Data Set trainiert. Dieses erzielte f1-Scores für die Erkennung von Population von 0.87 und für Therapy von 0.83. Zum Vergleich wurde das gleiche Modell mit dem ebmnlp Data Set trainiert, welches einen f1-Score von 0.81 für Population und 0.72 für Therapy erzielte.