Es gibt nur wenige Bereiche, in denen Daten eine größere Rolle spielen als in der Finanzbranche. Hinter jeder Transaktion verbirgt sich ein Universum an Informationen, das entschlüsselt werden will. Ein zentrales Instrument zur Entschlüsselung: Machine Learning (maschinelles Lernen). Es hilft uns dabei, Finanzdaten zu verstehen, zu verarbeiten und zu nutzen.
Machine Learning ist ein Teilbereich der Künstlichen Intelligenz. Dabei geht es darum, dass Computersysteme automatisch Muster und Zusammenhänge aus Daten lernen, sich verbessern und selbstständig Entscheidungen treffen. So versetzen wir Systeme in die Lage, selbständig zu lernen – frei von menschlichen Eingriffen. Im Vergleich dazu arbeitet traditionelle Softwareentwicklung mit vorab explizit vorgegebenen Regeln. Du kannst dir einen Detektiv in Ausbildung vorstellen, der mit jedem gelösten Fall und identifizierten Hinweis seine Treffsicherheit erhöht und sein Wissen im nächsten Fall wieder anwendet.
In diesem Artikel werfen wir einen Blick hinter die Kulissen: Unser Data-Team erklärt, wie Künstliche Intelligenz – im speziellen Machine Learning – unsere Plattform effizienter und leistungsfähiger macht.
Warum KI für re:cap unverzichtbar ist
Für ein Fintech-Unternehmen wie re:cap ist KI der Schlüssel, um täglich über 250 Millionen Datenpunkte zu verarbeiten. Die Herausforderung bei Finanzdaten liegt in der Präzision. Wenn sie falsch verarbeitet und dargestellt werden, können sie zu fehlerhaften Finanzentscheidungen führen.
Ein zentraler Prozess ist die Kategorisierung von Banktransaktionen. Üblicherweise braucht man dafür ein Team von Finanzspezialist:innen. Solche Teams sind essenziell, um Daten zu strukturieren, bereitzustellen und kontinuierlich zu verbessern. Doch kein menschliches Team könnte die Flut von Hunderttausenden Transaktionen täglich bewältigen. Manuelle Prozesse sind in diesen Fällen nicht skalierbar – und wirtschaftlich nicht tragfähig.
Banktransaktionen stehen im Mittelpunkt
Banktransaktionen sind wie das finanzielle Röntgenbild eines Unternehmens. Sie machen vieles sichtbar: Cashflow-Muster, Ausgabeverhalten, Einkommensquellen, Investitionsstrategien und potenzielle Risiken. Für unseren Underwriting-Prozess sind präzise kategorisierte Transaktionen der Schlüssel zur Beurteilung der finanziellen Gesundheit eines Unternehmens. Nur so erstellen wir Risikoanalysen, die nicht nur genau, sondern individuell auf die Bedürfnisse jedes Unternehmens zugeschnitten sind – für verlässliche Erkenntnisse und kluge Finanzierungsentscheidungen.
Machine Learning zeigt sein volles Potenzial genau hier: bei der Kategorisierung von Banktransaktionen. Es verarbeitet riesige Datenmengen und ermöglicht es uns, unübersichtliche Transaktionslisten in klar strukturierte, umsetzbare Insights zu verwandeln, die einerseits unseren Kund:innen dienen, aber auch uns selbst bei der Risikobewertung.
Erster Ansatz: regelbasiertes Modell
Unser erster Schritt in der Kategorisierung von Banktransaktionen war ein regelbasiertes Modell. Dieses Modell folgt festen Regeln, die definieren, wie Transaktionen kategorisiert werden. Basierend auf Trends und wiederkehrenden Mustern von Transaktionen hat unser Data-Team vorab diese Regeln definiert. Du kannst dir ein riesiges, präzise aufgebautes Flussdiagramm vorstellen: bestimmte Schlüsselwörter und Bedingungen führen zu klaren Entscheidungen.
Zum Beispiel wird eine Transaktion als "Salary" eingestuft, wenn:
- das Wort "Gehalt" im Verwendungszweck vorkommt,
- das Buchungsdatum in den letzten 10 Tagen des Monats liegt und
- der Betrag über €400 beträgt.
Erfüllt eine Transaktion all diese Kriterien, ordnet das regelbasierte Modell sie automatisch der Kategorie “Salary” zu. Das regelbasierte Modell sucht gezielt nach Mustern und überlässt dabei nichts dem Zufall – klare Regeln, klare Ergebnisse.
Nicht skalierbar, starr und anfällig für Konflikte: Wo das regelbasierte Modell an seine Grenzen stößt
Das regelbasierte Modell mag solide erscheinen, doch in der Praxis zeigt es schnell Schwächen. Skalierbarkeit? Ist kaum gegeben. Um Transaktionen präzise zu klassifizieren, müssen Wörterbücher mit Tausenden Keywords in mehreren Sprachen gepflegt werden – eine Herkulesaufgabe. Wir müssten diese Listen ständig aktualisieren, überprüfen und erweitern, um den vielfältigen Variationen von Transaktionen gerecht zu werden. Der Aufwand ist enorm, die Flexibilität gering.
Dann die Starrheit: Regelbasierte Systeme können nicht flexibel auf unvorhergesehene Szenarien oder Kontexte reagieren. Regeln behandeln feste Muster. Ihnen fehlt jedoch jegliches Verständnis für Zusammenhänge oder Nuancen.
Und schließlich: Konflikte. Wenn mehrere Regeln gleichzeitig greifen, gerät das System ins Straucheln. Es fehlt die Fähigkeit, Überschneidungen oder widersprüchliche Anweisungen sinnvoll aufzulösen. Sie können nicht mit komplexen Situationen umgehen.
Diese drei Schwächen machten schnell deutlich, dass das regelbasierte Modell für uns auf Dauer nicht funktionieren würde. Dazu waren die Anforderungen unserer Datensätze zu komplex. Wir mussten einen Schritt weiter gehen – Machine Learning.
Zweiter Ansatz: Machine Learning
Machine Learning geht einen anderen Weg. Statt jedes mögliche Szenario zu programmieren, lernt das System selbstständig Muster zu erkennen und präzise Kategorisierungen vorzunehmen. Der Prozess ist dynamisch und wiederholt sich: Daten sammeln und kennzeichnen, Features entwickeln, Modelle trainieren, deren Leistung bewerten – und dann wieder von vorne: mehr Daten, neue Kennzeichnungen, kontinuierliche Verbesserung. Ein iterativer Kreislauf, der das System ständig weiterbringt.
Die Grundlage: Daten kennzeichnen und Features entwickeln
Maschinelles Lernen basiert auf gekennzeichneten Daten, um Modelle zu trainieren und eine präzise Kategorisierung zu liefern. Wir starteten mit den Erkenntnissen aus unserem regelbasierten Modell, um Tausende von Transaktionen zu kennzeichnen und so die “Grundwahrheit” zu schaffen, die für ein effektives Training des Machine Learnings wichtig ist.
Der nächste Schritt war das Definieren der Merkmale, die wir in unserem Modell nutzen wollten. Feature-Engineering – also rohe Daten in nützliche, numerische Darstellungen zu verwandeln – war entscheidend. Diese Merkmale ermöglichen es dem System, Muster und Beziehungen zu erkennen und die Daten auf eine völlig neue Weise zu verstehen.
Die tägliche Routine: Automatisierung kombiniert mit menschlicher Expertise
Dieser Prozess ist darauf ausgelegt, mit minimaler menschlicher Intervention zu funktionieren. Täglich werden Transaktionen verarbeitet, Vorhersagen erstellt und das Modell kontinuierlich durch Feedback optimiert. Stößt das System auf eine Transaktion, bei der es nicht sicher ist, wie sie diese klassifizieren soll, wird die Transaktion zur manuellen Überprüfung markiert.
Dazu arbeitet das Machine Learning Modell mit statistischen Methoden, um Werte zu berechnen, anhand derer es bestimmen kann, wann eine Transaktion der Intervention unseres Teams bedarf. Zur Berechnung analysiert es historische Transaktionsdaten, Trends und Muster, um fundierte und zuverlässige Vorhersagen zur Genauigkeit zu treffen.
Kontinuierliches Lernen aus Erfolgen und Fehlern
Der Prozess der Vorhersage für unser Machine Learning Modell folgt einem stetigen Kreislauf. Stellen wir uns vor, es gibt eine neue Transaktion, die das System bisher noch nicht kannte. Sie wird zunächst in numerische Daten umgewandelt, woraufhin das Modell eine erste Prognose zur dazugehörigen Kategorie abgibt. Zu Beginn ist die tatsächliche Kategorie dieser Transaktion noch unbekannt, sodass die Vorhersage vorerst in operativen Anwendungen oder Reports verwendet wird.
Was nun passiert: Bei re:cap gibt es ein Team von Finanzexpert:innen (wir haben sie DataOps getauft), das die Vorhersage prüft und sie bei Bedarf korrigiert. Nach der menschlichen Validierung fließen die bereinigten Daten zurück in das System. So lernt das Modell aus seinen Erfolgen und Fehlern und verfeinert kontinuierlich sein Verständnis für präzisere Vorhersagen in der Zukunft.
Der iterative Prozess
Der Vorhersagezyklus unseres Modells ist darauf ausgelegt, sich kontinuierlich zu verfeinern:
- Vorhersage: Eine neue Transaktion wird in numerische Daten übersetzt und kategorisiert
- Überprüfung: DataOps prüft und korrigiert die Kategorisierung
- Lernen: Die validierten Daten fließen zurück ins Modell und verbessern den Lernprozess
Dieser Kreislauf wiederholt sich täglich mit Hunderttausenden von Transaktionen, wodurch das Modell ständig präziser wird. Jeder Zyklus baut auf den Erkenntnissen des Vortages auf und stärkt das System durch stetige Verbesserung. Indem das Modell systematisch neue Daten analysiert und mit ungesehenen Szenarien konfrontiert wird, lernt es, Vorhersagen zu treffen, ohne für jedes Szenario explizit programmiert werden zu müssen.
Ergebnisse: Regelbasiertes Modell vs. Machine Learning Modell
Nach dem Testen beider Modelle zeigte sich klar: Das Machine Learning Modell übertraf das regelbasierte Modell.
Das regelbasierte Modell hatte bei der Kategorisierung von Transaktionen zu Beginn eine hohe Genauigkeit von 94%. Es fiel jedoch mit der Zeit auf 92,2% ab. Im Vergleich dazu wuchs die Leistung des Machine Learning Modells stetig, da es aus der täglichen Verarbeitung der Transaktionen und dem Feedback von DataOps lernte. Heute erreicht es eine Genauigkeit von 98,8%.
Regelbasierte Modelle für Routineaufgaben
Regelbasierte Modelle sind die ideale Lösung für klar definierte, häufig wiederkehrende Transaktionen. Sie bieten eine effiziente Möglichkeit, Aufgaben zu bearbeiten, die nicht die Tiefe des maschinellen Lernens erfordern. Das gilt insbesondere bei:
- wiederkehrenden Transaktionsarten
- vorhersehbaren Mustern
Machine Learning für komplexe Fälle
Wo das regelbasierte Modell an seine Grenzen stößt, übernimmt das maschinelle Lernen. Mit Hilfe historischer Daten und fortschrittlicher Algorithmen können Machine Learning Modelle:
- komplexe oder ungewöhnliche Transaktionen klassifizieren
- sich dynamisch an sich verändernde Muster anpassen
Damit gelingt es, sowohl Routineaufgaben als auch komplexe Fälle effizient zu bearbeiten. Beide Modelle arbeiten allerdings nicht isoliert. Machine Learning kann regelbasierte Systeme sogar noch weiter optimieren. Wenn ein regelbasiertes Modell Transaktionen regelmäßig falsch kategorisiert, erkennt Machine Learning diese Muster und schlägt Verbesserungen vor. Auf diese Weise verfeinert es die Regeln, steigert deren Genauigkeit und minimiert die Notwendigkeit manueller Eingriffe. So trifft Effizienz auf Präzision.
Was als nächstes kommt: Maßgeschneiderte Kategorisierungen
Die nächste Entwicklungsstufe in der Kategorisierung von Banktransaktionen stellt uns vor die Herausforderung, benutzerdefinierte Kategorien zu integrieren, die von unseren Kund:innen definiert werden. Das Hinzufügen neuer Kategorien klingt einfach, doch der Teufel steckt im Detail: Es erfordert umfangreiche gekennzeichnete Daten für das Training – eine unpraktische Lösung, wenn nur wenige Beispiele für eine Nischenkategorie existieren.
Kund:innen möchten vielleicht eine präzisere Unterscheidung treffen, etwa zwischen "Salesforce-Kosten" und der allgemeineren Kategorie "IT-Kosten". Doch bei einer geringen Anzahl an Transaktionen dieser Art hat das derzeitige Modell Schwierigkeiten, daraus verlässliche Muster zu lernen und zu generalisieren. Hinzu kommt, dass ein einziges, übergreifendes Modell für alle Kund:innen verwendet wird. Das macht es nahezu unmöglich, die spezifische Namensgebung oder individuelle Definitionen von Kategorien zu berücksichtigen.
Die Herausforderung ist klar: Wir müssen ein System entwickeln, das drei Dimensionen umfasst:
- Das System muss anhand kleiner Datenmengen lernen: Es muss sich flexibel an die von den Kund:innen definierten Kategorien anpassen, selbst wenn nur wenige Beispiele vorliegen.
- Das System muss kundenspezifische Präferenzen berücksichtigen: Es gibt unterschiedliche Definitionen und Benennungen von Kategorien für ähnliche Transaktionstypen bei verschiedenen Kund:innen.
- Das System muss dynamisch und anpassungsfähig sein: Es muss spezialisierten Modellen oder Algorithmen Platz schaffen, die auf die Bedürfnisse jedes einzelnen Kunden zugeschnitten sind – weg von einem starren “Einheitsmodell”.
Die Herausforderungen sind klar, der Weg, um sie zu lösen, muss noch entwickelt werden. Wir suchen deshalb nach völlig neuen Ansätzen, um diese spezialisierten, kundenspezifischen Modelle zu integrieren und damit die nächste Stufe der Kategorisierung von Banktransaktionen einzuläuten.