Ledermüller, G. (2005). Requirements and system design for next generation web data extraction and integration [Dissertation, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/182956
World Wide Web; Daten; Extraktion; Integration; Requirements engineering; Systementwurf
In den letzten Jahren wuchs die publizierte Information im Internet enorm. Heute besteht eine Lücke zwischen den Dokumenten im Web und jeder Data Mining und Business Intelligence Software. Diese Dissertation überbrückt diese Lücke durch Vorstellung eines integrierten, erweiterbaren und visuellen Ansatzes zur Integration von Web Daten in Enterprise Information Systemen. Dieser Ansatz basiert auf der Lixto Suite. Die Schwächen und Stärken von dieser Software werden beschrieben und eine komplett neue Architektur wird vorgestellt, welche viele der bestehenden Probleme löst. Bevor die neue Suite (auch Visual Developer und Lixto Server genannt) die im Rahmen dieser Dissertation entworfen wurde, wurden die Benutzerrollen analysiert und Benutzer des bestehenden Systems befragt. Ihr Feedback floss in die Entscheidungsprozesse mit ein. Die Anforderungen für das neue System wurden dementsprechend angepasst und neue Anforderungen, welche die Konkurrenzfähigkeit der Software gewährleisten sollen, wurden hinzugefügt. Die neue Architektur behält nur jene Konzepte, welche von den Benutzern akzeptiert wurden, und alle anderen wurden komplett neu entworfen beziehungsweise komplett überarbeitet. Die neue Suite benutzt "state-of-the-art" Standards, Technologien und Anwendungen wie zum Beispiel J2EE Applikation Server, Java Message Service, Portal Server und Mozilla um nur einige zu nennen. Eigenständige Implementierungen werden mit Open Source Implementierungen und Standards ersetzt. Weitere Ziele für das neue System sind bessere Benutzbarkeit, Skalierbarkeit, Fail Over Unterstützung, besser Unterstützung von komplizierten Web Navigationen und besser Erweiterungsmöglichkeiten für das neue System. Der neue Lixto Server besteht aus mehreren Komponenten, welche mit Hilfe eines Message Systems kommunizieren. Im letzten Teil wird eine "Rich Client" Anwendung basierend auf Eclipse vorgestellt, wofür jedes Produkt von der Suite spezielle Editoren und Tools entwickelt. Die Lixto Suite von heute besitzt keine gemeinsame grafische Oberfläche für seine Produkte. Mit Hilfe der "Rich Client" Anwendung wird dem Benutzer eine konsistente, einfache und ästhetische Oberfläche angeboten. Um die Benutzerfreundlichkeit des System zu steigern und um eine bessere deep Web Navigation zu ermöglichen wird das bestehende HTML Kit mit einem state-of-the-art Browser, welcher alle Internet Standards unterstützt, ersetzt
In the last years the published information on the internet grew enormously. Today a gap between documents on the web and any data mining and Business Intelligence software exists. This thesis bridges the gap as it presents an integrated, scalable, and visual approach for integrating web data into enterprise information systems. The approach is based on the Lixto Suite. The weaknesses and strengths of this software are described and a complete new architecture is presented which has been designed during this thesis and solves the numerous problems of today. Before the new Suite (a.k.a. Visual Developer and Lixto Server) was designed the user roles of the new system were analyzed and users of the current system were interviewed and their feedback was taken in consideration. The requirements were adapted accordingly to the user feedback and new requirements for being competible over the next years were added. The new architecture is keeping only the concepts which the users accepted and all others were redesigned from scratch. The new Suite is going to use state-of-the-art standards, technologies and applications such as J2EE Application Server, Java Message Service, Portal Servers, and Mozilla just to name a few. Existing proprietary implementations are replaced with other open source implementations and standards. Other goals for the new systems are better usability, fail over support, scalability, support for complicated web navigation sequences, and better extensibility of the complete systems. The new Lixto Server consists of several standalone components which communicated with the help of a Message System. In the last part a rich client application based on Eclipse is presented into which each product of the Suite embeds its special editors and tools. The Lixto Suite as of today does not offer a common user interface for its products. With the help of this rich client application the user has a consistent, simplistic, and aesthetic user interface for all applications in the Suite. For a better user experience and for allowing better deep web navigation the existing HTML kit was replaced with a state-of-the-art browser which supports all internet standards