Ejection fraction prediction with pre-trained masked autoencoders for echocardiography

Grausenburger, Marie-Luise

doi:10.34726/hss.2026.135694

DC Field

Value

Language

dc.contributor.advisor

Reiter, Michael

dc.contributor.author

Grausenburger, Marie-Luise

dc.date.accessioned

2026-04-29T13:12:38Z

dc.date.issued

2026

dc.date.submitted

2026-03

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Grausenburger, M.-L. (2026). <i>Ejection fraction prediction with pre-trained masked autoencoders for echocardiography</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.135694</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2026.135694

dc.identifier.uri

http://hdl.handle.net/20.500.12708/227850

dc.description

Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft

dc.description

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

dc.description.abstract

Herz-Kreislauf-Erkrankungen sind weltweit die häufigste Todesursache. Daher ist eine schnelle und präzise Beurteilung diagnostischer Parameter von Echokardiographie-Videos unerlässlich. Ein wichtiger klinischer Parameter ist dabei die Ejektionsfraktion des linken Ventrikels (LVEF). In klinischen Arbeitsabläufen ist dies nach wie vor eine manuelle und zeitaufwändige Aufgabe. Diese Arbeit präsentiert eine zweistufige Deep-Learning-Architektur, mit der die LVEF automatisch prognostiziert werden kann. In der ersten Phase wird ein Encoder mittels Self-Supervised Learning mit VideoMAE vortrainiert. Für das sogenannte „tube masking“ wurde im Rahmen der Arbeit ein Ansatz evaluiert, bei dem irrelevante Hintergrundinformationen immer maskiert wurden, um das Modell auf anatomisch relevante Herzstrukturen zu fokussieren. In der zweiten Phase wird der vortrainierte Encoder mit zwei Segmentierungsköpfen erweitert und überwacht trainiert. Die Segmentierung des linken Ventrikels zum Zeitpunkt des Systolen- und Diastolenendes (ES/ED) sowie die darauf aufbauende LVEF werden vorhergesagt. Diese Arbeit zeigt, dass die Leistung des Encoders deutlich erhöht wird, wenn nicht von Grund auf mit Echokardiografie-Videos vortrainiert wird, sondern ein Encoder, der auf allgemeinen Videodaten vortrainiert wurde, mit Echokardiografie-Videos weitertrainiert wird. Das beste Modell mit dieser vorgeschlagenen Architektur (echo-segmentation) erreichte auf dem Testdatensatz einen Dice-Koeffizienten von DiceES = 93.35% und DiceED = 90.93% für die Segmentierung des linken Ventrikels in ED und ES. Die LVEF konnte mit einem mittleren absoluten Fehler (MAErr) von 4,27 und einem R2 von 0,73 vorhergesagt werden. Der Code ist verfügbar unter: https://github.com/mar1lle/echo-segmentation/ Im Gegensatz zu anderen Segmentierungsansätzen arbeitet echo-segmentation mit Echokardiografie-Videos und identifiziert implizit die klinisch relevanten Frames für die LVEF, ohne dass zuvor eine Frame-Auswahl getroffen werden muss. Die Ergebnisse der LVEF-Vorhersage sind mit anderen State-of-the-Art-Methoden vergleichbar. Im Vergleich dazu bietet echo-segmentation zusätzlich Segmentierungsmasken des linken Ventrikels zum Zeitpunkt des Systolen- und Diastolenendes, was mit dem klinischen Arbeitsablauf übereinstimmt. Dies verbessert die Interpretierbarkeit und potenziell das klinische Vertrauen.

dc.description.abstract

Cardiovascular diseases are the leading cause of death worldwide. Therefore, fast and accurate assessment of diagnostic parameters on echocardiography videos, such as the left ventricular ejection fraction (LVEF), is needed. In current clinical workflows, it remains a time-consuming and observer-dependent task. This thesis addresses these challenges by developing a two-stage deep learning architecture for the automated prediction of LVEF from echocardiography videos. In the first stage, self-supervised learning with VideoMAE is applied to the echocardiography domain and pretrained on apical four-chamber videos using tube masking. An approach was tested where irrelevant background information was always masked to force the model to focus on reconstructing anatomically relevant cardiac structures. In the second stage, the pretrained encoder is fine-tuned in a supervised manner to perform semantic segmentation of the left ventricle at end-diastole (ED) and end-systole (ES), which is then used to predict the LVEF.This thesis demonstrates that initializing the VideoMAE model with weights pretrained on general videos and continuing with domain-specific pretraining of echocardiographic videos yields the strongest performance. The best fine-tuned model with this proposed architecture echo-segmentation) achieved a Dice Similarity Coefficient of DiceED = 93.35% and DiceES = 90.93% in left ventricular segmentation for the end of diastole and the end of systole. The frame prediction for end of diastole and end of systole reached MAErr = 0.78 and MAErr = 0.81. For predicting the LVEF, the model achieved MAErr of 4.27 and R2 score of 0.73.In contrast to other segmentation approaches, echo-segmentation operates directly on the full echocardiographic video and implicitly identifies the clinically relevant frames for the LVEF without prior frame selection. Although the LVEF performance is comparable to state-of-the-art methods that employ a direct estimation, but the proposed echo-segmentation model additionally offers visual outputs that align with the standard clinical workflow. This improves interpretability and potentially clinical trust. The approach was trained and evaluated on the EchoNet-Dynamic dataset, which contains 10,030 labeled ultrasound videos. The full code is available at: https://github.com/mar1lle/echo-segmentation

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Echocardiographie

dc.subject

Ejektionsfraktion

dc.subject

Selbstüberwachtes Lernen

dc.subject

Masked Autoencoder

dc.subject

Semantische Segmentierung

dc.subject

Medizinische Bildanalyse

dc.subject

Echocardiography

dc.subject

Ejection Fraction

dc.subject

Self-Supervised Learning

dc.subject

Masked Autoencoders (MAE)

dc.subject

Semantic Segmentation

dc.subject

Medical Image Analysis

dc.title

Ejection fraction prediction with pre-trained masked autoencoders for echocardiography

dc.title.alternative

Vorhersage der Ejektionsfraktion mit vortrainierten Masked Autoencodern für die Echokardiographie

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2026.135694

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Marie-Luise Grausenburger

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E193 - Institut für Visual Computing and Human-Centered Technology

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC17850915

dc.description.numberOfPages

104

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.advisor.orcid

0000-0002-8004-6839

item.cerifentitytype

Publications

item.openairetype

master thesis

item.grantfulltext

open

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.openaccessfulltext

Open Access

item.fulltext

with Fulltext

item.mimetype

application/pdf

item.languageiso639-1

crisitem.author.dept

E192 - Institut für Logic and Computation

crisitem.author.parentorg

E180 - Fakultät für Informatik

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(3.48 MB)

In Copyright

Show simple item record

Page view(s)

checked on Apr 29, 2026

Download(s)

checked on Apr 29, 2026

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM