Krenn, M. (2015). Weakly supervised learning from medical images and radiology reports [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2015.23424
Computerunterstützte Diangosesysteme (CAD) spielen eine wichtige Rolle während der Befundung von medizinischen Bilddaten. Ihr Ziel ist es, Ärzte während der Befundung zu unterstützen, in dem die für eine Diagnose relevante Informationen rasch und zuverlässig detektiert und visualisiert werden. Typische Aufgaben eines CAD Systems umfassen die Lokalisierung von anatomischen Regionen (Segmentierung), das Kodieren von visueller Information (Merkmalsextraktion) und die Identifikation von pathologischem Gewebe (Klassifizierung). Segmentierungs- und Klassifizierungsprobleme werden oft von Algorithmen gelöst, die dem Konzept des überwachten maschinellen Lernens zugrunde liegen. Dieses Konzept setzt jedoch annotierte Trainingsdaten voraus, welche meist nur mit hohem Zeitaufwand und hohen Kosten generiert werden können. Ziel dieser Arbeit ist daher die Entwicklung von Methoden zur Segmentierung und Klassifizierung in medizinischen Bilddaten, die aus Daten lernen, die im klinischen Alltag erzeugt werden. Der erste Teil dieser Arbeit stellt eine Methode zur Segmentierung von anatomischen Strukturen in medizinischen Bilddaten vor, die lediglich aus einer Menge von Bilddaten lernt (unüberwachtes Lernen). Diese besteht aus vier Verarbeitungsschritten: die Registrierung aller Bilder zu einem zentralen Atlas, das Erlernen von Prototypen von Bildmerkmalen, das Erlernen einer Segmentierung in dem Atlas, wofür Markov Random Fields (MRF) benützt werden, und das Generieren von Segmentierungen in neuen Bildern durch die Kombination der Atlassegmentierung und lokalen Bildmerkmalen, wiederum mit Hilfe von MRFs. Im zweiten Teil wird eine Methode zu Klassifikation von pathologischen Regionen in einem Organ beschrieben. Diese Methode lernt aus einer Menge Bildern, wobei zu jedem Bild textuelle Labels zur Verfügung stehen, welche die im Bild auftretenden Pathologien beschreiben und besteht aus vier Hauptteilen: das Partitionieren von Bildmerkmalen, das Erlernen der Verteilung von textuellen Labels in diesen Partitionen, das Generieren einer Wahrscheinlichkeitstabelle um einzelne textuelle Labels zu Partitionen zuzuordnen, um diese Information schließlich für die Klassifikation von Pathologien in neuen Bildern verwenden zu können. Die Evaluierung der Methode zum unüberwachten Segmentieren zeigt, dass der Ansatz drei Organe identifizieren kann (Lunge, Herz, Leber), aber wie erwartet limitiert ist im Vergleich zu überwachten Lernverfahren. Die zweite Methode wurde auf einem Datensatz von 300 Computer Tomographie (CT) Bildern mit Annotierungen von fünf pathologischen und gesunden Strukturen in der Lunge evaluiert. Hierbei wurden Sensitivitäts- und Spezifitätswerte von 0.9/0.98 für gesunde, 0.77/0.96 für Milchglas, 0.91/0.98 für Reticular, 0.37/0.99 für Honeycombing und 0.9/0.96 für Emphysem Regionen erreicht.
de
Computer Aided Diagnosis (CAD) systems are an important tool to guide radiologists during detection and diagnosis of clinical findings in medical images to improve their quality and productivity. Typical components of such systems involve the localisation of the structure of interest (Segmentation), digital encoding of visual information (Feature extraction) and the identification of healthy and pathological observations (Classification). The task of segmentation and classification in this context is often addressed by supervised machine learning approaches where annotated training data is required, which is usually time consuming and expensive to acquire. The aim of the work in this thesis is to address the problems of segmentation and classification in medical images by learning methods that do not require manually annotated data, but instead learn from data that is generated during clinical routine in hospitals. The first approach takes a set of medical images as input and aims at the unsupervised identification and segmentation of anatomical structures. The unsupervised segmentation approach consists of four main processing steps: the registration of all images to a central reference space (atlas), learning image region feature prototypes, learning a segmentation in the atlas space using Markov Random Fields (MRF) and combining the atlas segmentation with local image features to segment novel target images, again using MRFs. The second approach aims at the classification of healthy and pathological image regions within an organ by learning from a set of medical images, where each image is assigned with a set of weak textual labels that describe clinical findings and pathologies occurring in an image. The approach is based on clustering image region features, learning the distribution of weak labels in the partitioned feature space, computing a probability table to predict single labels for clusters and using this knowledge to classify image regions in unseen images. Evaluation shows that the unsupervised segmentation approach is able to locate three organs (lung, heart, liver) across all images, but as expected, shows clear limitations in comparison to supervised learning approaches. The approach for weakly supervised classification is evaluated on 300 chest CT scans and yields sensitivity/specificity values of 0.9/0.98 for healthy, 0.77/0.96 for ground glass, 0.91/0.98 for reticular, 0.37/0.99 for honeycombing and 0.9/0.96 for emphysema image regions.
en
Additional information:
Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers Zsfassung in dt. Sprache