Data Mining: Fünf Schritte für die optimale Nutzung eurer Daten

Data Mining Fünf Schritte für die optimale Nutzung eurer Daten
Quelle: Austin Distel | unsplash

Datengetriebene Entscheidungen sind nur so gut, wie die zugrundeliegenden Daten. Logisch.

Um aus der Masse an Daten, die Unternehmen täglich generieren aber wirklich saubere Datensätze zu erhalten, müsst ihr diese umfassend aufbereiten. Die eigentliche Arbeit von Data Scientist beginnt nämlich längst vor der Analyse und Auswertung der Daten. Ganze 80 Prozent ihrer Arbeitszeit sind sie damit beschäftigt, Datensätze zu sammeln, zu bereinigen und neu zu organisieren.

Data Mining heißt der analytische Prozess, der mittels der systematischen Anwendung statistischer Methoden relevante Datenmuster möglichst automatisiert erkennt. Dafür werden Methoden aus der Informatik und Statistik verwendet und miteinander verknüpft. Um diesen Prozess weiter zu vereinfachen und um die Qualität der aufbereiteten Daten zu steigern, befasste sich Jonas Zander im Zuge seines Praxissemesters an der Ernst-Abbe-Hochschule (EAH) Jena mit Standardproblemen und individuellen Herausforderungen bei der Datenaufbereitung.

  1. Ausbau von Forschung und Lehre an der EAH Jena
  2. Schritt für Schritt zu hochwertigen Daten
  3. Die Unternehmensvorteile
  4. Noch bessere datengetriebene Entscheidungen

Data Mining für erfolgreiche KI-Analysen: Ausbau von Forschung und Lehre an der EAH Jena

Jonas studiert im 5. Semester Wirtschaftsingenieurwesen mit dem Schwerpunkt »Digitale Wirtschaft«. Um das Know-how im Bereich KI sowohl in der Forschung als auch in der Lehre in Zukunft weiter auszubauen, arbeitet die Hochschule eng mit dotSource zusammen. Aktuell laufen an der EAH viele unterschiedliche Forschungsprojekte im KI-Bereich. Jonas Projekterfahrungen soll die praktische Arbeit mit komplexen Datensätzen in Zukunft vereinfachen und die Genauigkeit der späteren Datenverarbeitung für KI-Modelle verbessern.

Data Mining: Schritt für Schritt zu hochwertigen Daten

Um die Datenaufbereitung für die KI-Modellen möglichst effizient und fehlerfrei zu gestalten, ist es hilfreich, konkrete Schritte zu befolgen. Diese Phasen werden zwar in Abhängigkeit der Problemstellung unterschiedlich gewichtet, sind jedoch alle entscheidend für den Erfolg eines Projektes.

1. Business Understanding

Die Aufbereitung und Analyse von Daten hilft Unternehmen dabei, den Erfolg einzelner Maßnahmen zu messen und Optimierungspotenziale aufzudecken. Verschiedene Ziele und Anspruchsgruppen einzelner Unternehmensbereiche benötigen aber auch unterschiedliche Informationen für ihre Entscheidungen. Deswegen sollte vor der Datenerhebung konkret geklärt werden:

  • Für welche Problemstellung sollen die Daten genutzt werden? Das kann zum Beispiel eine zielgerichtete Ansprache der Kundinnen und Kunden sein.
  • Welche Software und welches Personalressourcen benötige ich für das Data Mining Projekt?
  • Welche Daten müssen für die zuvor festgelegte Problemstellung erhoben werden? Im Fall der individuellen Kundenansprache könnte dies zum Beispiel eine geeignete Segmentierung oder eine Scoring-Verfahren zur Kampagnenoptimierung sein.
  • Welche Ziele will ich mit dem Data Mining Projekt erreichen? Zum Beispiel Steigerung der Responsequote von Kampagnen um 3 Prozent.

Sind diese Fragen beantwortet, kann im Anschluss ein Projektplan erstellt werden, der genau festlegt, welche Schritte in welche Zeit erfüllt werden sollten, welche Risiken dabei auftreten könnten und welche Ressourcen für die jeweiligen Schritte benötigt werden.

2. Data Understanding

Im Anschluss beginnt der Prozess der Datensammlung. Dabei werden benötigte Daten aus beispielsweise ERP oder CRM-System beschafft und gegebenenfalls in bereits bestehende Datenmengen integriert. So können beispielsweise Sales-Daten aus dem aktuellen Jahr in einen bereits analysierten Sales-Datensatz aus vorherigen Jahren integriert werden.

Danach gilt es, ein allgemeines Verständnis für die gesammelten Daten zu entwickeln und festzustellen, ob die vorliegenden Informationen ausreichen, um das Ziel des Projektes erfolgreich abzuschließen. Ist dies nicht der Fall, müssen zusätzliche Daten aus weiteren Quellen hinzugezogen werden. Dabei werden außerdem Eigenschaften der Daten wie beispielsweise ihr Quantität und die Anzahl der benötigen Felder beschrieben.

Anschließend werden mit den bestehenden Daten erste Analysen durchgeführt, um zum Beispiel Produktgruppen zu identifizieren, die einen großen Teil des Umsatzes ausmachen. Die Ergebnisse können dann in Reportings übersichtlich abgebildet werden und geben somit die Möglichkeit, erste Hypothesen abzuleiten.

Erst nach diesen ersten Analysen kann die Qualität des Datenbestandes vollständig bewertet werden. Denn jetzt können die Ergebnisse mit Erfahrungswerten und bestehenden Fakten verglichen werden. Data Scientists leiten daraus ab, ob die Datenmenge für die gewünschten Analysen ausreichend sind oder ob bestimmte Attributwerte fehlen.

3. Data Preparation

Eignet sich der Datenbestand für die Analyse der zuvor festgelegten Problemstellung, wird eine Selektion der Daten vorgenommen. Zum Beispiel kann entschieden werden, dass lediglich die Daten von Kunden aussagekräftig sind, die einen bestimmten Umsatz generieren.

Die übrigen Daten werden bereinigt, damit das KI-Modell nicht auf einer verzerrten Grundlage trainiert wird und im Anschluss ungenaue oder gar falsche Ergebnisse liefert. Eine anschließende Transformation der Daten, hilft eurem Unternehmen dabei, einen Überblick über wesentliche Kennzahlen der Untersuchung wie zum Beispiel dem Umsatzanteil in einer bestimmten Produktgruppe pro Kunde zu erhalten.

4. Modeling

Sind die Daten für die Analyse ausreichend vorbereitet, geht es daran, eine geeignete Modellierungstechnik auszuwählen. Eine wichtige Entscheidung ist beispielsweise die Wahl eines Supervised oder Unsupervised Machine Learning (ML) Modells. Das ist davon abhängig, ob die Zielvariable bereits vorgegeben ist oder eben nicht. Beim Supervised ML, also wenn das Ergebnis bekannt ist, kann man dann entweder neuronale Netze oder Modelle mit statistischen Methoden verwenden.

Wurde sich für eine dieser Modelle entschieden, wird zunächst mithilfe eines Testmodells überprüft, ob es der die gewünschte Antwort auf die zuvor gesetzte Fragestellung liefern kann.

5. Evaluation & Deployment

Die Evaluationsphase dient dazu neben dem Ergebnis des Modells, das gesamte Data Mining Projekt rückblickend zu bewerten, um festzustellen, ob alle wichtigen Faktoren berücksichtigt wurden und um zu evaluieren, ob die gewählten Attribute für zukünftige Data Mining Projekte nützlich sind. Auf Grundlage dieser Bewertungen können eure Projektverantwortlichen entscheiden, ob das KI-Modell eingeführt wird.

Wurde entschieden, dass das Model eingeführt wird, wird im letzten Schritt eine konkrete Implementierungsstrategie entwickelt und umgesetzt. Ist das Modell einmal implementiert, muss kontinuierlich überwacht werden, dass es an Gültigkeit behält, indem alle benötigten Parameter korrekt erfasst werden. Damit sich die gesamte Arbeit auch gelohnt hat, sollten regelmäßige Berichte und Präsentationen über die Ergebnisse der Analyse genutzt werden, um Entscheidungen daraus abzuleiten.

Data Mining bringt Unternehmensvorteile

Durch das vollständige Data Mining ist nun ein analytischer Prozess geschaffen, der eurem Unternehmen dabei hilft, möglichst effizient interessante Datenmuster in den Datensätzen zu identifizieren. Somit könnt ihr unter anderem Prognosen für die Zukunft aufstellen und Trends oder Anomalien frühzeitig erkennen. Zum Beispiel könnt ihr unterschiedliche Bedürfnisse von Kundinnen und Kunden in Bezug auf bestimmte Produktkategorien genau ableiten und Marketingkampagnen auf diese zuzuschneiden. Zusätzlich lassen sich auch Hypothesen mit Hilfe der Daten validieren und mögliche Prozessoptimierungen dahingehend ableiten.

Data Mining für noch bessere datengetriebene Entscheidungen: Whitepaper »Künstliche Intelligenz« kostenfrei herunterladen!

Data Driven Business Cluster

Big Data statt Blindflug. Daten bieten eurem Unternehmen zahlreiche Möglichkeiten, um zielgerichtete Entscheidungen zu treffen, Whitepaper »Künstliche Intelligenz« erfahrt ihr anhand von 25 Use-Cases, wie ihr KI für euer Unternehmen nutzen könnt.

Füllt jetzt das Formular aus und erhaltet das Whitepaper kostenfrei!

 

(8 Bewertung(en), Schnitt: 4,88 von 5)
Loading...