Zlabinger, M. (2016). Finden von Duplikatbildern in Biologie-Publikationen [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/79367
Bildduplikate in wissenschaftlichen Publikationen können ein Anzeichen für Datenfälschung oder Plagiarismus sein. Um weitere Forschung, basierend auf einer betroffenen Publikation, zu verhindern, müssen die Bildduplikate schnell als solche erkannt und die Publikation widerrufen werden. Besonders betroffen von problematischen Bildduplikaten sind Publikationen aus dem Feld der Biologie. Grund dafür ist, dass die sehr häufig auftretenden Bildelemente - z.B. Mikroskopaufnahmen von Zellen oder DNA Blots - begehrte Objekte zur Wiederverwendung oder Datenfälschung sind, um somit neue Forschungsergebnisse vorzutäuschen. Die Auffindung von Bildduplikaten aus Biologie-Publikationen ist kein einfacher Prozess. Transformationen (e.g. Rotation, verschiedene Bildskalierungen), falsch-positiv Funde (z.B. basierend auf Diagrammen oder Text) und Duplikate, welche sowohl zwischen Bildern als auch innerhalb nur eines Bildes vorkommen können, müssen berücksichtigt werden. In dieser Diplomarbeit wird eine Bildduplikats-Erkennungsmethode vorgestellt, bei welcher die genannten Probleme/Herausforderungen wie folgt eingearbeitet wurden: Die Entdeckung von falsch-positiv Duplikaten wird durch die Anwendung von verschiedenen Filterungsmethoden (e.g. Entfernung von Diagrammen) verringert, Duplikate innerhalb eines Bildes werden mit Hilfe eines Connected Component Ansatzes und Duplikate zwischen zwei oder mehreren Bildern mittels min-Hashing aufgespürt. Die Methode wurde implementiert und anschließend an 1.7 Millionen aus Biologie-Publikationen extrahierten Bildern evaluiert. Nachdem eine automatische Erkennung von ausschließlich relevanten Duplikaten nur schwer bzw. unmöglich ist, wurde zusätzlich eine manuelle Auswertung durchgeführt. Während dieser manuellen Auswertung wurden 3041 problematische Bildduplikate in noch nicht widerrufenen Publikationen gefunden. Das endgültige Urteil muss jedoch von einem mit den betroffenen Bildern und deren Beschreibung vertrauten Experten abgegeben werden.
de
Duplicated images in scientific publications can be a signal for plagiarism or data fabrication. Fast detection of such behaviour is essential to retract faulty papers and prevent future research based on their contents. Especially affected by image duplication are biology papers, since their image types (e.g. microscope images of cells or DNA blots) are a favoured target for reuse or modification, to pretend new results. Detection of problematic duplicates in biology images is not trivial since near-duplicates, transformed duplicates and duplicates occurring within a single image, are difficult to find. Additionally, detections between frequently occurring image contents (e.g. diagrams) may dominate and thus occlude relevant detections. In this thesis, a duplicate detection method is proposed that addresses all mentioned challenges as follows: False positives are reduced by application of various filtering methods (e.g. diagram removal), duplicates between images are detected via min-hashing approach and duplicates within single images are detected between sub-images, which are extracted from connected components. The proposed approach was implemented and evaluated on 1.7 million images extracted from biology papers. Since some irrelevant duplicates (e.g. maps, logos of research institutions) are hard to distinguish from relevant ones, additional manual evaluation was conducted on the final automatic detections. During the manual evaluation, 3041 potentially serious duplicates, in so far non-retracted papers, were found. However, for the final judgement biology expertise is necessary on the affected images and on their textual description.
en
Additional information:
Zusammenfassung in deutscher Sprache Text in englischer Sprache