Sessa, V. (2022). Performance Analysis of Column-Store Extensions for Modern-Day Business Segments [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/158484
Die Menge der in verschiedenen Bereichen gesammelten Daten wächst seit geraumer Zeit und nimmt weiterhin stetig zu. Heutige Unternehmen stehen oft vor der gleichen Frage:Können gesammelte Daten einen zusätzlichen Wert für das Unternehmen generieren? Im Idealfall bringt eine gründliche Analyse der Daten Möglichkeiten, Zeit und Geld zu sparen, den Service oder die Produkte eines Unternehmens zu verbessern, und vielleicht sogar völlig neue Geschäftsmöglichkeiten zu schaffen. Die jüngsten Trends der Analyse kommen aus den Bereichen Data Science und Machine Learning. Zugleich gibt es aber auch traditionellere Methoden: Die Analyse von Daten, die in Relationalen Datenbanken (RDBMS) gespeichert sind. Typischerweise hat jedes Unternehmen mindestens ein solches System und arbeitet seit vielen Jahren damit - und sammelt so Wissen über Wartung,Optimierung und Nutzung. Im Gegensatz dazu ist auch bekannt, dass die herkömmlichste Version einer Datenbank wegen des Datendurchsatzes von Festplatten einen Engpass hat, insbesondere wenn es um komplexe Abfragen und große Tabellen mit vielen Spalten und Zeilen geht. Die Auswirkungen sind besonders bei den immer noch weit verbreiteten HDDs (Hard Disk Drives) zu spüren, die nach wie vor ein besseres GB/USD-Verhältnis bieten als ihr moderneres Gegenstück, die SSDs (Solid State Drives).Für Analyseszenarien wurden in den letzten drei Jahrzehnten spaltenorientierte Datenbanken entwickelt, welche die Möglichkeit bieten, nur die für die Beantwortung einer Abfrage erforderlichen Spalten von der Festplatte zu laden, was den Datendurchsatz erheblich reduziert - insbesondere bei sehr großen Tabellen. Bei Online Analytical Processing (OLAP)-Szenarien sind Verbesserungen um den Faktor hundert zu beobachten.Gleichzeitig erfordert die Einführung zusätzlicher spaltenbasierter Datenbanksysteme Kenntnisse für den Betrieb und die Wartung des neuen Systems und kann sehr teuer werden, wenn Lizenzen für den Unternehmenssupport erworben werden müssen. Hier kommen Spaltenerweiterungen für zeilenbasierte Datenbanksysteme ins Spiel. Sie erweitern das zeilenbasierte System um die Erstellung von Tabellen oder Indizes sowohl im Zeilen- als auch im Spaltenformat, ohne dass ein völlig separates Datenbanksystem betrieben werden muss.Diese Arbeit befasst sich mit der Analyse von zwei solchen Spaltenspeichererweiterungen für populäre zeilenbasierte Datenbanksysteme: PostgreSQL 12 (PostgreSQL) mit demcstore_fdw (cstore_fdw) und ein beliebtes kommerzielles Relationales Datenbankmanagementsystem System (RDBMS). Im Rahmen dieser Arbeit soll untersucht werden, ob die Erweiterungen für den Einsatz in Produktionssystemen geeignet sind, welche Nachteile sie haben, und ob sie eine Alternative für Unternehmen oder zumindest für bestimmte Segmente davon darstellen - und damit zu Kosteneinsparungen führen.
Amounts of data collected in various areas have been growing for quite some time andcontinue to grow steadily. Modern-day enterprises often face a common question: Can collected data generate additional value for the company? Ideally, a thorough analysis ofthe data yields ways to save time and money, improve a company’s service or products,and may create totally new business opportunities. The most recent trends of analysis come from the areas of Data Science and Machine Learning. At the same time, more traditional methods exist: Analyzing data stored in Relational Database Management Systems (RDBMSs). Typically each business will have at least one such system and hasbeen working with it for many years - accruing knowledge in regards to maintenance,optimization and usage. In contrast, it is also known, that the most traditional version of a database is bottlenecked by I/O from disk, especially when dealing with complexqueries and large tables with many columns and rows. The impact can be especially felt when dealing with still widely used HDDs (Hard Disk Drives), which continue to offer abetter GB/USD ratio than their more modern counterpart, SSDs (Solid State Drives).For analysis scenarios, column-store databases have been developed over the last three decades, which offer the possibility to load only the columns required for answering a query from disk, greatly reducing I/O - especially when dealing with very large tables. Improvements by factors of some hundred can be observed for Online AnalyticalProcessing (OLAP) scenarios. At the same time, introducing additional column-storedatabase systems requires gaining knowledge for operations and maintenance of the new system, and potentially being very expensive if enterprise support licenses have tobe purchased. This is where column-store extensions for row-store database systems come into play. They extend the row-store system to allow the creation of tables or indexes in both row and columnar formats, without requiring operation of a totally separate database system. This thesis is concerned with analyzing two such column-storeextensions to popular row-store database systems: PostgreSQL 12 (PostgreSQL) withthe cstore_fdw (cstore_fdw) extension and a popular commercial Relational DatabaseManagement System (RDBMS).In the context of this thesis we will investigate if the extensions are suitable for use inproduction systems, what their drawbacks are, and if they are a valid alternative for modern-day enterprises, or at least for certain segments thereof - thus leading to costand time savings when using a column-store extension to running row-store databasesystems when compared to employing a new and pure column-store database system.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers