Honeder, S. (2011). A Web science view on computer-science bibliography data [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-53069
E188 - Institut für Softwaretechnik und Interaktive Systeme
-
Datum (veröffentlicht):
2011
-
Umfang:
93
-
Keywords:
Web Science; Bibliographische Analyse; Kulturelle Unterschiede
de
Web Science; Bibliography analysis; Cultural differences
en
Abstract:
Tim Berners-Lee, Wendy Hall und Nigel Shadbolt gründeten mit Kollegen 2006 eine Initiative mit dem Namen Web Science. Diese Initiative wurde ins Leben gerufen, da eine fehlendes Verständnis für das Web als Ganzes beobachtet wurde. Obwohl sich das Web seit seinen Anfängen 1990, als es hauptsächlich für den Austausch von wissenschaftlichen Materialien genutzt wurde, grundlegend verändert hat und die gesamte Gesellschaft beeinflusst, gibt es keine Forschungsdisziplin die sich mit dem Web an sich beschäftigt. Der Fokus von Web Science liegt darauf die Interdisziplinarität des Webs zu erforschen. Der Kerngedanke dahinter ist, dass es notwendig ist das Web zu verstehen um seine Weiterentwicklung und den zukünftigen Erfolg zu gewährleisten.<br />Ein Teil von Web Science beschäftigt sich nun mit der Evolution des Web 2.0 zum Semantic Web. Forschung in diesem Gebiet soll diesen Übergang unterstützen. Diese nächste Generation des Webs wurde bereits 1996 von Tim Berners-Lee definiert, und basiert auf Daten mit semantischen Informationen. Mit diesen semantischen Informationen ist es möglich verschiedene Datenquellen im Web zu verbinden und so die Weiterentwicklung des Webs voranzutreiben. Um die Möglichkeiten von verbundenen Datenquellen zu demonstrieren, verwenden wir in dieser Arbeit bibliographische Angaben aus dem Bereich der Informatik. Diese Daten sind einerseits in einer Vielzahl von Quellen zugänglich (DBLP, ACM Digital Library, Microsoft Academic Search, Google Scholar) und des Weiteren können Fragen in der Art 'Kann man einen kulturellen Einfluss auf die Forschung in der Informatik feststellen?' beantwortet werden. Unsere Datenquelle wurde aus verschiedenen Teilen zusammengesetzt. Den Anfang machte eine Momentaufnahme der Daten aus der DBLP, diese wurden mit Informationen der Microsoft Academic Search verbunden und mit ACM Computing Classification System (CCS) Information angereichert. Die Daten wurden vor der Visualisierung und Analyse grundlegender Text Indizierungen unterzogen. Dabei wurden häufig verwendete Wörter entfernt sowie Wordstammreduzierung durchgeführt. Die Analyse wurde mittels Visualisierungen, Regressionsmodellen, Clustering und Klassifizierung durchgeführt.<br />Wir analysiert wie sich Autoren und deren Koautoren auf die Qualität einer Institution auswirken. Es stellte sich heraus das Wissenschaftler mit einer Karriere zwischen 5 und 10 Jahren den größten Einfluss auf die Qualität einer Organisation besitzen. Eine ungleiche Verteilung der Menge an gefundenen Autoren und dem Herkunftsland wurde ebenfalls in unserer Datenquelle festgestellt. Der kulturelle Einfluss auf die Forschung konnte nachgewiesen werden und ein Trend zu einer eher mathematischen Forschung in Osteuropa, Teilen von Asien und Mittelamerika ist evident. In einer weiteren Analyse wurde die Beziehung zwischen dem Austragungsort einer Konferenz und dem Herkunftsland der Autoren die auf dieser Konferenz publizieren für 'non-top' Konferenzen nachgewiesen.<br />
de
Web Science is the name of an initiative started in 2006 by a workgroup consisting of, among others, Tim Berners-Lee, Wendy Hall and Nigel Shadbolt. The initiative originated from the observation that understanding the Web is crucial for its further success and therefore a new research discipline,Web Science, has to be established with the interdisciplinarity of the Web as main research focus. The intention for the Web in the early 1990 was the interchange of scientific research papers, but it has undergone many changes, grown to a worldwide scale, influencing the society and the way we work, and although it is that powerful, research in this field, with the Web as main focus, is rare.<br />Consequently a part of this science, deals with the current shift from Web 2.0 user generated content, to the Semantic Web. Research in this field helps to understand crucial success factors for this shift, and also offers the opportunity to influence the development. This next generation Web, which was already foreseen 1996 by Tim Berners-Lee, is based on semantically rich data. Such Linked Data forms the basis for further development of the Web and gives the opportunity for a bunch of new applications.<br />We chose to analyze the power of connected datasources in the field of computer science bibliography data. Beside the reason that there are different sources (DBLP, ACM Digital Library, Microsoft Academic Search, Google Scholar) it offers the opportunity to answer questions like, 'Is there a cultural influence on research in computer science?'.<br />For building the datasource to answer questions like above, we started with the downloadable data from DBLP, interlinked this information with data from Microsoft Academic Search and connected it further with ACM Computing Classification System (CCS) information. Prior the analyses and visualization the data was processed by basic text indexing, tokenizing, stop word removal and stemming. For analyzing the collected information we used visualizations based on this data, regression models as well as clustering and classification methods. We analyzed the influence of authors and their co-authors to the quality of an institution. It turned out that scientists with a scientific career between 5 and 10 years provide the most valuable contribution to the quality of an institution. Also a bias between the country of origin of the authors in the dataset and the amount of authors was found. A cultural influence on research was observed which shows a tendency of more Mathematical research in Eastern Europe, parts of Asia as well as Middle America. Also a relationship between the location of a conference and the scientists joining this conference is noticed for non-top conferences.<br />