Bohunsky, P. (2008). VENTip : methodology and implementation of table interpretation [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/179744
Tabellen Interpretation; Tabellen Extraktion; Ground Truth; Informationsextraktion; Web Tabellen; Information sammeln
de
table interpretation; table extraction; ground truth; information extraction; web tables; information gathering
en
Abstract:
Ein Großteil an Information im Web ist in Tabellen dargestellt, um Menschen das Verstehen dieser zu vereinfachen. Da HTML es ermöglicht Tabellen auf verschiedenste Arten darzustellen ist die Extraktion von tabellarischer Information für automatisierte Systme nicht einfach. Aus diesem Grund ist es wichtig Methoden zu finden, die nicht nur den HTML Code in Betracht ziehen. Das Ziel dieser Arbeit war es, ein System zu entwickeln, das, basierend auf der visuellen Darstellung, das Verstehen von Tabellen ermöglicht. Wir stellen einen Ansatz vor, der die automatische Extraktion von Tabellen ermöglicht u nd diese in ein Ausgabeformat uberführt, das für weitere Verarbeitung, wie relationale Datenbankintegration geeignet ist. Um unseren Ansatz auch zu evaluieren, generierten wir auch eine Ground Truth von Web Tabellen.<br />In dieser Arbeit stellen wir (i) eine Methode zum effizienten Erstellen einer Ground Truth von Web Tables vor - ebenfalls WTGT, ein Tool, das all den Anforderungen unserer Methode entspricht. Weiters präsentieren wir (ii) VENTip: eine Methode um Web Tabellen zu "Verstehen" wobei Verstehen den gesamten Prozess von Extraktion und Interpretation bezeichnet. Als letztes präsentieren wir die (iii) Implementierung der vorgestellten Methoden - eine online verfügbare Version des Extraktionsparts und eine separaten nicht-online zugänglichen Code für Tabelleninterpretation.<br />
de
Major parts of information in the WWW are presented in tables to make it easy to understand for a human reader. Because HTML can be used in many different ways to actually represent tabular structures it is not easy for automated systems to extract such information. It is therefore important to find suitable methods that avoid looking into the HTML source code. The goal of thesis was to develop a system for table understanding which is based on visual representation. We present an approach to automatically extract information from tabular structures and transfer it in an output for further use such as relational database integration. Along with this approach came the need of creating a ground truth set to allow for transparent evaluation.<br />In this thesis we propose (i) a method to efficiently ground truth Web tables along with WTGT - a tool to fulfill all requirements of our method. Furthermore we present (ii) VENTip: a new method to understand Web tables. Understanding denotes the whole process of extracting and interpreting Web tables. Lastly we present the (iii) implementation that includes an online version of the extraction part as well as a separate non-public code for table interpretation.