Wir werten Daten aus, um Informationen und Erkenntnisse zu gewinnen. Dafür stehen eine Vielzahl von Methoden und statistische Verfahren zur Verfügung, die leider nicht alle in Form eines Blogbeitrags besprochen werden können. Stattdessen wollen wir uns für den Beginn die Systematik hinter den Methoden angucken, sie können nämlich grundsätzlich in drei grundsätzliche Arten von Analysen unterteilt werden: beschreibende Statistik, schließende Statistik und Data-Mining-Verfahren. Bevor wir starten aber erstmal ein paar wesentliche Dinge, an die eine Analystin immer denken muss, wenn es um die Arbeit mit Daten geht.
Kritisches Denken ist Pflicht!
Zunächst muss die Datenqualität stimmen, dafür müssen wir uns folgende Fragen stellen: Sind die Daten repräsentativ, vollständig und konsistent? Wann eine Stichprobe repräsentativ ist, und warum das wichtig ist, habe ich hier bereits ausführlich beleuchtet.
Wenn wir mit Daten arbeiten, dann haben wir Messungen für verschiedene Merkmale (auch: Variablen oder Attribute) vorliegen. Manche Merkmale wie bspw. das Alter einer Person oder die Distanz einer Strecke sind einfach zu messen. Es gibt aber auch andere Merkmale, die nicht direkt messbar sind. Darunter fallen Meinungen, Einstellungen, Werteurteile und hypothetische Konstrukte (wie bspw. die Persönlichkeit einer Person oder ihr Intelligenzquotient). Wenn mit solchen Merkmalen gearbeitet wird muss man auch immer nochmal darüber nachdenken, inwiefern die vorliegenden Daten auch tatsächlich das messen, was wir messen wollen.
Bevor die Analyse der Daten beginnt, sollte die Zielsetzung klar sein. Was ist die konkrete Fragestellung oder welches konkrete Problem soll gelöst werden? Dann muss eine statistische Methode ausgewählt werde, die zur Fragestellung und zu den Daten passt.
Liegen die Ergebnisse vor, ist bei der Interpretation große Sorgfalt geboten. Was darf man aus den Ergebnissen für Rückschlüsse ziehen? Welche Annahmen liegen der Datenauswertung zu Grunde? In welchem Kontext müssen die Ergebnisse betrachtet werden? Werden weitere Informationen benötigt, um die Ergebnisse sauber einordnen zu können? Und last but not least: Auch wenn eine statistische Korrelation zwischen Merkmalen gefunden wurde, heißt das nicht, dass eine Ursache-Wirkungsbeziehung besteht. Es wäre sogar möglich, dass trotz der gemessenen Korrelation gar keine inhaltliche Beziehung der Merkmale zueinander besteht, denn Korrelationen können rein zufällig oder auch allein durch ein weiteres unbeobachtetes Merkmal getrieben sein.
Im Anschluss sollte man die Kommunikation der Ergebnisse zielgruppengerecht gestalten. Auch dazu gibt es schon einen Blogbeitrag, der hier zu finden ist.
Steht die Zielsetzung der Datenauswertung fest, muss erstmal eine grobe Entscheidung über die Art der Analyse getroffen werden. Bevor dann nach einer expliziten Methode gesucht wird.
Beschreibende Statistik – Einen Überblick über die Daten bekommen
Die beschreibende Statistik – häufig auch deskriptive Statistik genannt – beschreibt die Daten einer ausgewählten Stichprobe oder, bei Totalerhebungen, die Daten der gesamten Grundgesamtheit. Hierbei werden Kennzahlen bestimmt, die sich grob in Häufigkeiten, Lage-, Streuungs- und Korrelationsmaße unterteilen lassen. Also beispielsweise relative Häufigkeiten, Mittelwert, Median, Modus, Quantile, Standardabweichungen und Korrelationskoeffizienten. Hierbei ist es wichtig, die Kennzahlen immer im Kontext zu betrachten und in Verteilungen zu denken. Außerdem ist ein erster Vergleich von Kennzahlen verschiedener Gruppen, Entwicklungen von Kennzahlen über Zeiträume und Untersuchung von Korrelationen zwischen Merkmalen möglich.
Schließende Statistik – Rückschlüsse ziehen und Ergebnisse verallgemeinern
In der schließenden Statistik – auch Inferenzstatistik genannt – geht man noch einen Schritt weiter. Hier wird von den Stichprobendaten auf die Grundgesamtheit geschlossen. Mittels Hypothesentests kann festgestellt werden, ob eine gefundene Erkenntnis nur auf die Stichprobendaten bezogen werden darf, oder ob sie statistische signifikant und somit auf die Zielpopulation verallgemeinerbar ist. Vereinfacht kann man sagen, dass die schließende Statistik es ermöglicht, allgemeine Schlussfolgerungen zu ziehen und Prognosen zu treffen. Man spricht hier von strukturprüfenden Verfahren. Das bedeutet, dass Hypothesen über mögliche Zusammenhänge von verschiedenen Merkmalen aufgestellt und überprüft werden.
Prognosen können in Form von Regressionen, Klassifikationen und Wahrscheinlichkeitsabschätzungen durchgeführt werden. Mit einer Regression versucht man, für jedes Individuum den numerischen Wert einer Variablen abzuschätzen und vorherzusagen. Also beispielsweise den Marktwert einer Immobilie in Abhängigkeit von relevanten Merkmalen wie der Lage, dem Baujahr und so weiter. Bei Klassifizierungen geht es um die Frage, zu welcher Klasse eine Beobachtung zugeordnet werden kann. Anhand von beobachtetet Merkmalen kann beispielsweise eingeschätzt werden, ob eine Person ein potenzieller Neukunde ist oder nicht. In abgeschwächter Form kann auch geschätzt werden, mit welcher Wahrscheinlichkeit diese Person zu einem Neukunden werden könnte. Allgemeiner könnte man auch formulieren, dass bei Klassifikationen gefragt wird, ob ein Ereignis eintritt oder nicht, bei Wahrscheinlichkeitsabschätzungen bestimmt wird, mit welcher Wahrscheinlichkeit ein Ereignis eintritt und bei einer Regression in welchem Umfang.
Explorative Verfahren – Welche Muster verstecken sich in den Daten?
Explorative Verfahren sind auch unter dem Begriff Data-Mining-Verfahren bekannt und gehören zu den strukturentdeckenden Methoden. Das Verfahren sucht nach Mustern in den Daten und daraus können dann Hypothesen über mögliche Zusammenhänge abgeleitet werden. Gebräuchliche Verfahren sind Datenreduktion, Clustering, Verbundanalyse, Verknüpfungsvorhersagen, und Profiling.
Datenreduktionen kennen wir beispielsweise von Streamingdiensten, die Filme oder Musik automatisch in Genres unterteilen. Clustering wir verwendet, um Individuen einer Grundgesamtheit anhand ihrer Ähnlichkeit zu gruppieren. So kann beispielsweise herausgefunden werden, ob es verschiedene Gruppen von Kunden gibt und falls ja, kann weiter untersucht werden, in welchen Merkmalen sich diese unterscheiden. Verbundanalysen tauchen häufig in Form von Warenkorbanalysen in Onlineshops auf. Die klassische Frage: Welche Produkte werden häufig zusammen gekauft? Verknüpfungsvorhersage werden unter anderen in sozialen Netzwerken getroffen. Es werden Zusammenhänge zwischen Datenobjekten gesucht und dann kommt sowas raus wie: „Sie und Anna haben 18 gemeinsame Freunde. Möchten Sie Annas Kontakt werden?“ Profiling kann dort eingesetzt werden, wo es Nutzerprofile gibt. Also beispielsweise beim Online-Banking und bei Kundenkarten. Es werden Nutzungsprofile erstellt und Profiling kommt häufig zum Einsatz, um Verhaltensnormen für Anwendungen zur Erkennung von Anomalien (z.B. Betrügereien) aufzustellen.
Übrigens gehören maschinelles Lernen und neuronale Netze – also die Basis von Künstlicher Intelligenz – auch zu dieser Art von Verfahren für die Auswertung von Daten.
Was man noch wissen sollte
Es gibt eine Reihe von statistischen Methoden, die sowohl strukturprüfend als auch strukturentdeckend angewendet werden können. Im Wesentlichen stellt sich die Frage, ob die relevanten Merkmale vom Datenanalysten vorgeben oder vom verwendeten Algorithmus entdeckt werden sollen. Dies gilt beispielsweise für Regressionen, Klassifizierungen und Wahrscheinlichkeitsabschätzungen.
Möchte man eine komplexe Fragestellung mithilfe von Daten beantworten, ist es manchmal nötig, die Frage in verschiedene Teilaufgaben zu zerlegen. Dabei geht man so vor, dass jeder Teilaufgabe mit einer gebräuchlichen statistischen Methode oder einem Data-Mining-Verfahren gelöst werden kann. Hinterher setzt man die Puzzleteile wieder zu einem großen Bild zusammen. Dafür braucht es eine Menge Wissen über den Kontext der Fragestellung und über datenanalytische Verfahren. Deswegen kann hier die Arbeit in einem Team mit unterschiedlichen Expertisen anbieten.
Jetzt haben wir uns einen groben Überblick darüber verschafft, welche Arten von Informationen man mit verschiedenen Analysearten beantworten kann. Und wie man sieht: Wir haben noch einiges vor uns, in unserer Datenkompetenz Training Community 😉.
Fragen? Kommentare? Anmerkungen? Nutzt die Chance, Euch auf Coapp mit Eurer zedita zukunftsforum Community für Datenkompentenz Training auszutauschen!
Eure Carina
Das „zedita.zukunftsforum“ ist ein Projekt der Hochschule Weserbergland und wird gefördert durch die Zukunftsregion Weserbergland+ mit Mitteln der Europäischen Union und des Landkreises Hameln-Pyrmont.