Schrack, M. (2018). Improving the awareness of technology updates by web mining of heterogeneous online sources [Diploma Thesis, Technische Universität Wien]. reposiTUm.
Release Prediction; Technology Update; Natural Language Processing
Der Prozess des Software Testings ist in den letzten Jahren komplexer geworden. Die Applikationen müssen in unterschiedlichen Softund Hardware Umgebungen kompatibel gehalten werden, die sich zudem laufend ändern. Dies kann zum einen die Kombination aus Hardware, Software und Datenbank sein. Zum anderen muss Software heutzutage oft mit Applikationen interagieren, um beispielsweise Informationen auszutauschen oder weitere Verarbeitungsschritte in einem Prozess anzustoßen. Vor allem Schnittstellen zu anderen Systemen stellen beim Überprüfen der Kompatibilität eine große Herausforderung dar, da auf diese meist kein unmittelbarer Einfluss genommen werden kann und auch Informationen über einen neuen Release von Herstellern oft nicht aktiv kommuniziert werden. Dies kann vor allem dann eine Herausforderung darstellen, wenn eine Anpassung an einer Schnittstelle vorgenommen wurde und somit die Kompatibilität mit anderen Systemen nicht mehr gewährleistet ist. Aus der beschriebenen Problemstellung wurde die Fragestellung dieser Arbeit abgeleitet: Inwieweit kann die Überwachung von Technologien im Hinblick auf neue Releases automatisiert werden? Um diese Fragestellung zu beantworten, haben wir ein System entwickelt, welches den Domainexperten bei der Überwachung von Technologien auf Updates unterstützt. Dieses System gewinnt aus verschiedenen Datenquellen Informationen, die jeweils unterschiedlich analysiert werden. In Texten, die aus Emails, RSS feeds und von Twitter extrahiert wurden, konnten mittels Natural Language Processing (NLP) Nachrichten über Technologie Updates gefunden werden. Durch die Extraktion von konkreten Release Informationen einer Online Enzyklopädie konnte ebenfalls den Prozess der Überwachung unterstützt werden. Die Analyse der Daten der Suchmaschine hat ergeben, dass ein Technologie Release einen Anstieg der Suchanfragen bewirken kann. Im Rahmen der Arbeit wird aufgezeigt, dass sich die erschlossenen Datenquellen zur Auffindung von Technologie Releases eignen. Da der von uns entwickelte Prozess darauf aufbaut, dass ein Domainexperte die Einrichtung der Datenquellen und insbesondere die Wahl der Suchwörter, nach denen gesucht wird und welche die Ergebnisse beeinflussen können, vornimmt, konnte ein semi-automatisiertes System zur Überwachung von Technologien entwickelt werden. Der größte Vorteil des Systems besteht darin, dass der aufwändigste Teil der Technologie Überwachung - die Datenextraktion und Analyse - automatisiert werden konnte.
The process of software testing has become more complex in recent years, especially since applications often have to work in cooperation with other technologies and therefore compatibility plays an essential role. On the one hand, a cooperation can be a connection between hardware, an operating system, and a database. On the other hand, software nowadays often has to interact with other systems, for example, to exchange information or initiate further processing steps. Interfaces to other systems, in particular, represent a major challenge in verifying compatibility, as they usually cannot be influenced directly and information about a new release from manufacturers is often not actively communicated. Above all, this can be problematic if an interface has been changed and the compatibility can no longer be guaranteed. From the described problem the main question of this thesis was derived: To what extent can technology monitoring for new releases be automated? In order to answer this question, we have designed and implemented a system to support the domain expert in the process of monitoring technologies for new updates. This system extracts information from various data sources, each of which was analyzed differently. Texts extracted from email newsletters, RSS feeds and Twitter were analyzed with Natural Language Processing (NLP) and it turned out that it is capable of detecting release information in these texts. Online encyclopedias, from which information about previously published updates as well as preview versions of technologies could be obtained, can also help in detecting technology updates. Furthermore, the analysis of the search engine data has shown, that a technology release may cause an increase of the number of search requests extracted from Google Trends. In summary, it can be said that the mined data sources are suitable for the process of detecting technology releases on release date as well as in advance. However, since the process we have developed relies on a domain expert to undertake the setup of the data sources, and in particular the choice of keywords that are searched and can influence the results, a semi-automated system for monitoring technologies could be developed. To be more precise, the biggest advantage of the developed system is that the otherwise very complex process of data extraction and analysis could be automated.