Habsburg-Lothringen, V. (2013). Extracting economic information from underground marketplaces [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/160411
underground forums; cybercrime; security; crawler; web data extraction; underground markets; underground economy
en
Abstract:
Das Ziel dieser Arbeit ist es, ein Software-Framework zu entwickeln, das die vielfältigen Marktplätze der Internetschattenwirtschaft automatisiert durchsucht und auf effiziente Weise Informationen aus ihnen extrahiert. Solche Markplätze sind beispielsweise spezifische "Foren" oder "online Geschäfte" (e-Shops). Sie sind dabei Umschlagplatz für sowohl illegale Daten (etwa gestohlene Kreditkartennummer) als auch verbotene Dienstleistungen (z.B. massenhaftes Versenden von unerwünschten E-mails - Spam). Programme, die automatisch das Internet durchsuchen, werden als "Crawler" bezeichnet und können in zwei Klassen eingeteilt werden: "universelle" Crawler für allgemeine Verwendung und "spezielle" Crawler, die für das Zielgerichtete durchsuchen bestimmter Klassen von Internetseiten (z.B. Shops) programmiert wurden. Die universellen Crawler sind für Foren wenig geeignet, da sie in der Regel die Suchtiefe zu sehr begrenzen. Die speziellen Crawler sind meist so konzipiert, dass sie entweder nur Foren oder nur Shops durchsuchen; Kriminelle handlen jedoch überlicherweise in beiden Marktplätzen. Mithilfe einer generischen Softwarearchitektur, soll ein Crawler entwickelt werden, der alle Arten von Marktplätzen durchsuchen kann. Er soll dabei auch jene Softwareschnittstellen (z.B. SOAP), die manche Betreiber größerer Shops anbieten, unterstützen. Des weiteren ist der Crawler so zu konstruieren, dass er vom Betreiber der Zielseite nur schwer entdeckt werden kann. Dies ist für eine erfolgreiche Untersuchung von Interseiten aus dem Untergrund unverzichtbar, weil manche Seiten ein automatisches Durchsuchen verhindern. Im Rahmen der Arbeit wurden Tests durchgeführt, deren Resultate belegen, dass der Crawler effizient Seiten durchsuchen kann und zudem der Ressourcenverbrauch der Software trotz großer Datenmengen gering gehalten werden kann. Das entstehende Software-Framework könnte Wissenschaft\-lern erlauben, die Schattenwirtschaft im Internet besser zu analysieren und ist ein praktisches Werkzeug, um die quantitativen und qualitativen Eigenschaften ihrer Märke zu bestimmen.
The primary goal of this Master's thesis is to develop a focused crawling engine for information extraction from underground marketplaces. The crawling targets are forums in which illegal trade relations are being established, forums where illicit services - such as botnet renting are offered, and public web stores for dual-use goods, i.e. goods that can be harnessed for harmful and non-harmful purposes, such as chemicals. Today's general purpose crawlers are not sufficient for forum crawling because they typically limit the search depth and have difficulties in handling dynamic sites which make extensive use of JavaScript and XML (e.g. AJAX) languages. Focused crawlers usually can only handle either forums or web stores, but not both. However, the participants in the underground economy carry out their trade in both. By using a generic crawling engine architecture it is possible to crawl various kinds of underground marketplaces using the same software system. This type of engine also features a component that supports API based crawling. What is more, some operators of marketplaces block crawlers after their detection. The crawler created in this work features built-in capabilities that greatly reduce the likelihood of detection and is therefore able to extract information in a covert way. The experimental evaluation shows that the software is capable of extracting data from distinct types of underground marketplaces within a reasonable time frame and without excessive resource usage. Thus, this tool can help researchers to study the underground economy in qualitative, as well as quantitative, aspects of the goods and services offered