Multi-agent workflow for generating high-performance data analysis code

Gugler, Lucas

doi:10.34726/hss.2025.130841

Record link:

https://doi.org/10.34726/hss.2025.130841
http://hdl.handle.net/20.500.12708/220446

Title:

Multi-agent workflow for generating high-performance data analysis code

Citation:

Gugler, L. (2025). Multi-agent workflow for generating high-performance data analysis code [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.130841

reposiTUm DOI:

10.34726/hss.2025.130841

CatalogPlus:

AC17682479

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Gugler, Lucas

Advisor:

Gottlob, Georg

Organisational Unit:

E192 - Institut für Logic and Computation

Date (published):

2025

Number of Pages:

Keywords:

LLM; Large Language Models; Databases; Database Integrity Constraints; Data Quality; Automated Code Generation; Data Quality Rules

Abstract:

Large Language Models (LLMs) zeigen großes Potenzial bei der Automatisierung der Code-Generierung für die Datenanalyse. Ihre Ergebnisse weisen jedoch oft Mängel in Bezug auf funktionale Korrektheit und Effizienz auf, insbesondere bei komplexen Aufgaben wie der Implementierung von Datenqualitätsregeln (DQ-Regeln) auf großen Datensätzen. Diese Masterarbeit begegnet diesen Herausforderungen durch den Vorschlag, das Design, die Implementierung und die Evaluierung eines Multi-Agenten-Workflows. Ziel ist die automatische Generierung von Funktionen für die Evaluierung von DQ-Regeln, die sowohl korrekt als auch hochperformant sind. Der Workflow nutzt ein kollaboratives Ensemble spezialisierter, LLM-gestützter Agenten. Jeder Agent ist für einzelne Phasen verantwortlich, wie Regelformatanalyse, Testgenerierung, initiale Code-Erstellung, iteratives Testen und Korrigieren, Performance-Profiling, Code-Review sowie gezielte Optimierungen. Dieser iterative Verfeinerungsprozess zielt darauf ab, die Qualität des generierten Python/Pandas-Codes systematisch zu verbessern. Die empirische Evaluierung zeigt, dass das vorgeschlagene Multi-Agenten-System einen template-gestützten LLM-Baseline-Ansatz deutlich übertrifft. Der vom Workflow generierte Code weist eine höhere funktionale Korrektheit auf und erzielt erhebliche Verbesserungen der Effizienz, was zu einer medianen Beschleunigung von 2,3x führt und in über 78% der Fälle schneller als die Baseline ist. Eine Ablationsstudie unterstreicht weiterhin die entscheidenden Beiträge einzelner Komponenten, wie automatisiertes Testen zur Sicherstellung der Korrektheit und iterative Optimierung zur Steigerung der Performanz. Die Forschungsergebnisse belegen, dass ein strukturierter, iterativer Multi-Agenten-Ansatz initiale, oft suboptimale LLM-Code-Generierungen effektiv in robuste, hochperformante Lösungen für die Datenanalyse umwandeln kann. Dies ebnet den Weg für eine zuverlässigere automatisierte Code-Generierung in datenintensiven Domänen.

Large Language Models (LLMs) show promise in automating code generation for data analysis, but their outputs often lack functional correctness and computational efficiency, especially for complex tasks like implementing data quality (DQ) rules on large datasets. This thesis addresses these challenges by proposing, designing, implementing, and evaluating a novel multi-agent workflow to automatically generate DQ rule evaluation functions that are both correct and highly performant. The workflow employs a collaborative ensemble of specialized LLM-powered agents, each responsible for distinct phases such as rule format analysis, test case generation, initial code production, iterative testing and correction, performance profiling, code review, and targeted optimization. This iterative refinement process aims to systematically enhance the quality of the generated Python/Pandas code.Empirical evaluation demonstrates that the proposed multi-agent system significantly outperforms a baseline template-assisted LLM approach. The workflow-generated code exhibits superior functional correctness and achieves substantial improvements in execution efficiency, resulting in a median speedup of 2.3x and being faster than the baseline in over 78% of cases. An ablation study further highlights the critical contributions of individual components, such as automated testing for correctness and iterative optimization for performance gains. The research establishes that a structured, iterative multi-agent approach can effectively transform initial, often suboptimal, LLM code generations into robust, high-performance solutions for data analysis, paving the way for more reliable automated code generation in data-intensive domains.

Additional information:

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

License:

In Copyright

Appears in Collections:

Thesis