Hagmann, M. (2024). Extracting structured data from semi-structured computer screen specifications in German [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.117489
E194 - Institut für Information Systems Engineering
-
Date (published):
2024
-
Number of Pages:
56
-
Keywords:
Information extraction; Computer screen dataset; Product specifications; Structured data; Schema matching; HTML tables and lists; Token classification; Normalization; Value fusion
en
Abstract:
Für elektronischer Produkte, wie Smartphones, Notebooks oder Computerbildschirme, gibt es eine Menge konkurrierender Geräte unterschiedlicher Hersteller. Benötigt man ein neues Smartphone, so ist es praktisch unmöglich alle relevanten Marken zu finden, deren Produktseiten zu durchforsten und sich über jedes einzelne Gerät zu informieren. Die relevanten Produkte können anhand von Eigenschaften, wie der maximalen Gerätelänge, gefiltert und eingegrenzt werden. Preis- und Produktvergleichsportale wie Geizhals und Idealo bieten dafür Filter-, Sortier- und Vergleichsfunktion an und eignen sich, um einen Überblick über aktuelle Modelle zu verschaffen. Auf welche Quellen dafür zurückgegriffen wird und wie die Aufbereitung funktioniert, ist nicht öffentlich bekannt. Die Daten werden jedoch von Menschen gepflegt und somit kontinuierlich manuell verbessert. Diese Diplomarbeit untersucht die Frage, ob Produktdaten von Online-Shops ausreichen, um detaillierte Produktspezifikationen für ein Produkt zu erstellen. Die Untersuchung fokussiert sich dabei auf die Kategorie der Computerbildschirme und Onlineshops aus dem deutschsprachigen Raum, die auf Geizhals vertreten sind. Im Rahmen der Arbeit wurde eine automatisierte Pipeline zur Datenextraktion von Produktwebseiten und Weiterverarbeitung in eine strukturierte und vereinheitlichte Form implementiert. Zudem wurde der ComputerScreen2023 Datensatz erstellt. Dieser enthält Produktdaten von 32.227 Produktseiten mit mehr als 2.000 unterschiedlichen Compu- terbildschirmen und deren Referenzspezifikation von Geizhals. Die Pipeline kombiniert Daten von mehreren Onlineshops, um erstellt daraus möglichst präzise Produktspezifi- kationen. Die erzeugten Daten lassen sich für Produktvergleichswebseiten mit Filter-, Sortier- und Vergleichsfunktion nutzen. Die Leistung der Pipeline wurde durch ein Experiment mit dem ComputerScreen2023- Datensatz ermittelt. Die Basis-Pipeline-Implementierung, die ausschließlich reguläre Ausdrücke zur Datenextraktion nutzt, erreichte dabei eine Genauigkeitsquote von 59,67 % und eine Vollständigkeitsquote von 47,54 % pro Eigenschaft. Damit extrahiert die Pi- peline durchschnittlich 14,5 korrekte Eigenschaften pro Produkt. Durch Nutzung eines Machine-Learning-Modells für die Extraktion, oder einer manuellen Anpassung der Kon- figuration konnten die Werte leicht verbessert werden. Die Auswertung basierend auf 15 Eigenschaften zeigt das wahre Potenzial der Pipeline und erreicht eine Genauigkeitsquote von 89,13 % pro Eigenschaft und eine Vollständigkeitsquote von 72,01 % pro Attribut. Das ergibt einen F1-Wert von 79,66 %.
de
For electronic products such as smartphones, notebooks or computer screens, there are a lot of competing devices from a wide range of manufacturers. If you need a new smartphone, it is practically impossible to find all the relevant brands, browse their product pages and inform oneself about each individual device. The number of products in question can be reduced by desired product properties, such as the maximum device length. Price and product comparison portals like Geizhals and Idealo offer filtering, sorting and comparison functions for this purpose and are suitable for providing an overview of current models. Their databases contain a huge amount of products with detailed product specifications. It is not publicly known which sources they have and how the processing works. However, the data is maintained by people and is therefore continuously improved manually. This thesis examines the question of whether the data from some online stores is sufficient to create equally detailed product specifications as Geizhals and implements an automated pipeline for this purpose. Our investigation focuses on the category of computer monitors and online stores from German-speaking countries that are represented on Geizhals. As part of the work, an automated pipeline for extracting data from product websites and processing it into a unified, structured data format was implemented. In addition, the ComputerScreen2023 data set was created. It contains product data from 32,227 product landing pages with more than 2,000 different computer screens and their reference specification from Geizhals. The pipeline combines data from several online shops to create product specifications that are as precise as possible. The resulting structured data can be used to build product comparison websites with filter, sort and comparison functionality. The performance of the pipeline was determined by experimental analysis using the ComputerScreen2023 dataset with reference data for more than 2,000 computer screen. The base pipeline implementation solely relies on regular expressions for data extraction and achieved an attribute precision of 59.67 % and a recall of 47.54 % and mined an average of 14.5 correct properties per product. With the addition of a machine learning model for extraction, or a manual adjustment of the configuration, the scores slightly raise. Based on a selection of 15 attributes, the pipeline shows its true potential with an attribute precision of 89.13 % and a recall of 72.01 %, which results in an F1 score of 79.66 %.