Pucher, A. (2010). Resource efficiency in Tritonsort : optimization of resource utilization in large-scale distributed external sorting [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/160868
Efficiency Tritonsort Sorting Distributed System Sortbenchmark data-intensive scalable computing
en
Abstract:
Internetanwendung in der Größenordnung von Yahoo's Webportal oder Google's Such- und Cloud-Diensten arbeiten mit massive Datenmengen.<br />Die rechtzeitige Verarbeitung von Tera- und Perabytes an Daten macht die Verwendung von DISC Systemen notwendig. Der jährliche Sort Benchmark vergleicht die Performance aktueller Systeme und hat über die vergangenen Jahre einen stetigen Leistungszuwachs beobachtet, der jedoch mit drastischen Einschnitten in Hardwareeffizienz erkauft ist. Die "Tritonsort" Fallstudie wurde initiiert, ein leistungsstarkes und kosteneffizientes System für Sort Benchmark zu entwickeln, dessen Design primär auf Ressourceneffizienz achtet.<br />Diese Arbeit beschreibt die Entwicklung zweier Systemkomponenten von Tritonsort und bietet die systematische Evaluierung von Ressourceneffizienz in Tritonsort.<br />Zielsetzung: Das Ziel der Arbeit ist die Entwicklung zweier Komponenten für Zwischenspeicherung von Daten und speicher-internes Sortieren von Daten, sowie die Evaluierung der Ressourceneffizienz im Vergleich zu state-of-the-art Systemen. Die Lösung wird als erfolgreich angesehen wenn Tritonsort in den Benchmarks 100TB "Gray Sort Indy" und 60 Sekunden "Minute Sort Indy" Höchstleistung liefert und verbesserte Hardware- und Kosteneffizienz bietet.<br />Methodik: Literaturstudie über existierende Ansätze zu verteiltem parallelem Sortieren, Design und Implementierung von Systemkomponenten für den Tritonsort Prototypen und Evaluierung des Ergebnisses durch systematischen Vergleich mit existierenden Systemen im Bezug auf Leistung und Effizienz.<br />Resultat: Tritonsort erreicht 2010 Bestleistung in den Kategorien "Gray Sort Indy" und "Minute Sort Indy" mit viermal höherer Leistung pro Maschine als andere Systeme. Zusätzlich wird die Durchschnittsleistung pro CPU und Festplatte erhöht, wodurch bessere Kosteneffizienz erzielt wird.<br />Literatur: Anderson und Tucek begründen die Notwendigkeit von ressourceneffizienten Systemen und liefern eine Effizienz-Systematik.<br />Vitter schafft die Grundlage für effizienten Festplattenzugriff in externem Sortieren, während existierende Systeme Ansätze zu internem Sortieren inspirieren.<br />
de
Internet scale services like Yahoo's web portal and Google Search and Cloud services operate on massive amounts of information.<br />Timely processing of this data at the scale of Tera- and Petabytes requires the use of DISC systems, orchestrating large assets of hardware with frameworks such as Apache Hadoop. Annually, DISC system performance is compared by Sort Benchmark and benchmark results over the past years show gains in performance, although a substantial loss in resource efficiency is found. The Tritonsort case study is set up to create a top-performing and cost-effective system for large-scale Sort Benchmarks by emphasizing resource efficiency in design primarily.<br />This paper describes design and implementation of two core components and provides a systematic evaluation of resource efficiency in Tritonsort.<br />Objective: The objective is development of well-performing intermediate data storage and internal sorting for Tritonsort and an in-depth evaluation of resource efficiency compared to state-of-the-art systems.<br />The solution is deemed effective if Tritonsort outperforms in Sort Benchmark categories 100TB Gray Sort Indy and 60 seconds Minute Sort Indy and provides competitive hardware and cost efficiency.<br />Methodology: Survey in literature about existing approaches to distributed parallel sort, design and implementation of internal sorting and disk I/O components, and evaluation by systematic comparison to existing systems in terms of performance and resource efficiency.<br />Results: Tritonsort uses both subsystems and outperforms state-of-the-art systems in the 2010 "Gray Sort Indy" and "Minute Sort Indy" challenge by a factor of four per cluster node. Also, it improves upon average throughput per CPU core and disk which leads to higher cost efficiency.<br />Literature: Anderson and Tucek emphasize the potential of resource efficient systems and provide a systematic listing of different aspects of efficiency. Vitter creates the foundation for efficient disk I/O in external sorting while different Sort Benchmark systems inspire design and optimization of internal sort.<br />