Realtime Data Mining mit Apache Kafka und Samza

Heise iX 05/2020: Wackere Goldgräber – Realtime Data Mining mit Apache Kafka und Samza

In der iX 05/2020 vom 16.04.2020 ist ein Artikel von Peter Hoffmann und Paul Watzlaw zum Thema Realtime Data Mining mit Apache Kafka und Samza erschienen. Den vollständigen Beitrag kann man jetzt bei uns als PDF lesen. Passend zu dem Artikel gibt es als Showcase die Anwendung Stock Data Miner. Die Anwendug verarbeitet die Kurse der DAX-Werte und sucht nach Koinzidenzen. Das Verfahren, welches dabei zum Einsatz kommt, wird auch Assoziation-Rule Mining, Frequent-Item-Set Mining oder umgangssprachlich auch Warenkorbanalyse genannt. Ziel ist es, Investments zu finden, die sich auffallend häufig in ähnlicher oder auch entgegengesetzer Weise verhalten. Die Analyse erfolgt dabei in Echtzeit auf auf Basis einer Topologie aus 17 Kafka-Topics und Samza-Tasks sowie eines Micronaut-Microservices. Dabei ist es für den im Artikel vorgestellten Data Mining-Prozess sinnvoll, einzelne Prozessschritte wie z.B. die Datenvorverarbeitung und die eigentliche Datenanalyse voneinander zu trennen. Ein Dashboard visualisiert die Analyseergebnisse und ermöglicht den Vergleich zwischen den berechneten Korrelationen der historischen Kurse für die letzten 90 und 365 Tage sowie der Realtime-Kurse des aktuellen Tages.