Lietz, F. (2022). Design and implementation of an integrated data pipeline for combining process- and text-mining towards optimizing human learning in business processes [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.97304
Process Mining; Text Mining; Geschäftsprozessanalyse; Lernprozessanalyse; Process Mining gestützes Lernen
de
process mining; text mining; business process analysis; learning process analysis; process mining based learning
en
Abstract:
Enorme Entwicklungen in den Bereichen des Text Minings, und des Process Minings, gemeinsam mit einer rapide ansteigenden Menge an unstrukturierten Daten in den letzten Jahrzehnten führten zu einem wachsenden Bedarf an Möglichkeiten, diese zu analysieren, zu kategorisieren und zu monetarisieren. Textuelle Daten entstehen in verschiedensten Bereichen: Sei es in Konversationen, in Schichtbüchern oder in Wartungsdokumenten – eine automatisierte Verarbeitung, Strukturierung und Wissensextraktion ermöglicht Lösungen, die automatisiert neues Prozesswissen zu Tage bringen. Derartige Ansätze können in verschiedensten Branchen von Vorteil sein – sei es in der Biomedizin, wenn Patientenakten, Vorerkrankungen und Behandlungen mit tausenden anderen Patienten verglichen und so personalisierte, vielversprechendere Behandlungen durchgeführt werden können, im Bereich der Produktion, wenn Fehlerraten mithilfe datengetriebener Wartung reduziert werden können, oder im Bereich der Business Intelligence, wenn Firmenübernahmen mithilfe eines Vergleichs mit historischen Ereignissen vorhergesagt werden können. Zusammen mit Methoden aus dem Bereich der Lernprozessanalyse können Organisationen weiters den Lernfortschritt sowie die künftige Entwicklung von Mitarbeitern, die an Prozessen beteiligt sind, abschätzen und dadurch auf eine bessere Datenbasis für die Planung zukünftiger Rekrutierungs- und Weiterbildungsmaßnahmen zurückgreifen. Prozesse, welche in unstrukturierter Form aufgezeichnet werden und die von menschlichen Akteuren abhängig sind, stellen konventionelle Process Mining Lösungen vor eine schwierige Aufgabe. Derartige Ansätze benötigen meist wohlstrukturierte und vorgefilterte Eingaben. Um dies zu erreichen, müssen strukturierte Informationen aus den Eingangsdaten mittels Methoden des Text Minings extrahiert werden. Da dies häufig modellbasiert und mit Methoden des überwachten Lernens geschieht, ist dafür in der Regel ein entsprechendes Training der Modelle nötig. Dies steht dem Ziel der Entwicklung einer domänenunabhängigen Lösung entgegen. Schließlich benötigen viele Methoden der Lernprozessanalyse sinnvolle Ergebnisse der vorgeschalteten Process Mining Komponente, um Metriken zu berechnen und optimale Prozessabläufe zu finden, welche als Vergleich für alle anderen Prozessdurchläufe dienen. Ziel der vorliegenden Arbeit ist die Extraktion von Informationen über Prozessabläufe aus unstrukturierten Textdokumenten. Dafür werden Methoden aus den genannten Feldern kombiniert und ein Modell einer integrierten Datenpipeline entwickelt. Ein Proof-Of-Concept Demonstrator des entwickelten Modells wird in Python implementiert und anhand eines Musterdatensatzes, welcher Kommunikationsdaten eines Bewerbungsprozesses aus der Human Resource Perspektive beinhaltet, validiert. Weitergehende Forschung könnte anhand von Datenstreams eine Echtzeitanalyse sowie -überwachung der gesammelten Daten und Prozesse ermöglichen. Weiters könnten größere Datensätze mit ausbalancierteren Attributen bessere und aussagekräftigere Lernkurven liefern. Schließlich könnte eine Kombination aus der in dieser Arbeit präsentierten Datenpipeline mit domänenspezifischen Ontologien eine automatische Benennung der gefundenen Aktivitäten-Cluster ermöglichen und die Genauigkeit weiter erhöhen.
de
Rapid developments in the domains of text mining and process mining and a growing amount of textual data being produced around the world has sparked the demand to analyze, categorize, and monetarize such unstructured data. Be it in conversations, in shift books, or in maintenance records, textual data is all around us and automatic processing, structuring, and extraction of information can enable solutions that allow for the discovery of unexplored knowledge through process mining and learning process analysis. Such applications can be beneficial in domains such as biomedicine, where patient records, preconditions, and medication can be compared to thousands of other patients and personalized, more promising treatments can be administered, in production, where failure rates can be reduced through data-driven maintenance and in business intelligence, where solutions that combine text mining and process mining can allow to predict mergers and acquisitions by comparing current actions with historic events. Adding methods from the field of learning process analysis furthermore enables organizations to quantify and even predict learning rates of human actors that are involved in business processes which can be useful for the estimation and planning of recruitment and training needs. Processes that are logged in unstructured forms and that are depending on human learners pose difficulties to the usual process mining workflow, which generally requires inputs to be hand over in a well-formed, structured, and ideally, preprocessed form. Thus, information from the textual inputs needs to be extracted using text mining methods, which are frequently based on supervised methods requiring domain-specific training. This is contrary to the goal of creating a domain-independent solution. Finally, for learning process analysis to yield meaningful results, sensible outputs from the process mining component are required to compute metrics and to select best-in-class process executions that serve as a benchmark for other cases. This work’s goal is to leverage process information and insights into process flows that are hidden in unstructured natural language documents. For this, methods from above named fields are utilized and a model of an integrated data pipeline is developed. A proof-of-concept demonstrator for the developed model is implemented in Python which is validated using an example dataset that contains communication records dealing with an application process from the Human Resource perspective. Future research could point into the direction of incorporating data streams to allow for real time data analysis and process monitoring. Furthermore, bigger datasets with a well-balanced distribution of attributes could yield more accurate and speaking learning curves. Finally, the combination of the presented solution with domain-ontologies could allow for an automated labeling of the discovered activity clusters and could also increase the accuracy of the pipeline.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers