Chung, T. S. (2022). Statistical methodologies for assessing an artificial intelligence (AI) software in a diagnostic setting [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.89767
Die radiologische Bestimmung des Knochenalters (KA) anhand eines Röntgenbildes der linken Hand ist nach wie vor der Referenzstandard für die Beurteilung der Skelettreife im Zusammenhang mit dem Wachstum zugrunde liegenden Erkrankungen. Aufgrund der Subjektivität und des hohen Zeitaufwands der BA-Bestimmung setzen sich KI-Algorithmen immer mehr durch. Daher empfehlen wir Methoden und statistische Empfehlungen für die Bewertung der Performance eines KI-Tools vor. Unsere Strategie wurde in einer retrospektiven Studie mit dem KI-Modell PANDA überprüft, einer vollautomatischen KI-Software, die zur Schätzung des KA auf Hand-Röntgenbildern verwendet wird. Wir analysierten die Röntgenbilder von 342 Patienten retrospektiv. Drei zertifizierte pädiatrische Radiologen beurteilten das KA unabhängig voneinander nach der Greulich & Pyle Methode (GP). PANDA wurde anschließend verwendet, um automatische Schätzungen des KA aus demselben Satz von Bildern zu erstellen. Die Ground Truth wurde auf der Grundlage des Mittelwerts der Schätzungen ermittelt. Wir bewerteten die Übereinstimmung der KI mit den Lesern anhand von Bland-Altman-Limits of Agreement (LOA), der orthogonalen linearen Regression und mit dem Konzept der AustauschbarkeitDie Bland-Altman-Bewertung ergab eine durchschnittliche Differenz zwischen den Bewertern und der KI von -0,72 mit einem 95\%CI (-1,46; 0,02) Monaten, was keinen fixen Bias anzeigt. Unter Verwendung einer orthogonalen linearen Regression wurde die Steigung zwischen den Lesern und der AI-Software mit 1,02 (95\%CI: 1,00, 1,03) angegeben. Es wurde keinen proportionalen Bias festgestellt. Die Quadratwurzel des absoluten Wertes des Äquivalenzindexes der KI-Software im Vergleich zu den Bewertungen durch die Radiologen wurde mit -5,8 Monaten festgestellt. Dies bedeutet, dass die KI-Software mit den Bewertungen von Fachleuten austauschbar ist. Die vorgeschlagenen Metriken sind nicht auf die Bewertung des Knochenalters beschränkt und können auch auf andere klinische Outputs angewendet werden, sofern es sich um eine kontinuierliche Variable handelt. Wenn man eine Bias zwischen zwei Messtechniken feststellen will, sollte eine Regressionsanalyse durchgeführt werden. Wenn es darum geht, festzustellen, ob eine Methode sicher durch eine andere ersetzt werden kann, insbesondere in der klinischen Praxis, ist Bland-Altman vorzuziehen. Gibt es keinen geeigneten Referenzstandard, mit dem verglichen werden kann, kann das Konzept der Austauschbarkeit verwendet werden. Diese statistische Methode ist nicht auf einen Referenzstandard angewiesen.
de
The radiological determination of bone age (BA) from a left-hand x-ray continues to be the reference standard for skeletal maturity assessment related to short or long stature, and underlying conditions. Artificial (AI) algorithms are becoming more prevalent due to the subjectivity and time-consuming nature of BA assessment. Therefore, we proposed methods and statistical recommendations in assessing standalone performance of an AI tool. Our strategy was verified in a retrospective study using the AI model, PANDA, a fully automated AI software used to estimate bone age (BA) on hand radiographs. We analyzed radiographs of 342 patients retrospectively. Three board-certified pediatric radiologists made blind reads of BA using the Greulich & Pyle (GP) method independently. The AI-software, PANDA, was subsequently used to provide automated estimations of BA from the same set of images. The ground truth was established based on the mean of the estimations. We assessed agreement of AI with readers based on comparison of Bland-Altman limits of agreement (LOA), orthogonal linear regression, and interchangeability.Bland-Altman assessment displayed a mean difference between readers and AI to be -0.72 with 95% CI (-1.46; 0.02) months displaying no fixed bias. Using orthogonal linear regression, the slope between readers and AI software was reported to be 1.02 95% CI (1.00, 1.03). No proportional bias was observed. The square root of the absolute value of the equivalence index of the AI software compared to assessments made by readers was observed to be -5.8 months. This indicates that the AI software is interchangeable with expert readers. The proposed framework is generalizable to the other applications aside from bone age. If one wants to find bias between two techniques of measurement, regression analysis should be performed. If the purpose is to see if one method may be safely replaced by another, especially in clinical practice, Bland-Altman plot is preferred. If there is no adequate reference standard to compare to, interchangeability can be used. This statistical method does not rely on a reference standard.