Regressionsanalyse – Das Tool für statistische Analyseverfahren

Time to read: 11 Minutes
Regressionsanalyse die statistische Methode

Eine Regressionsanalyse stellt eine Beziehung zwischen den Werten verschiedener Variablen her und ist eine statistische Methode zur quantitativen Erfassung dieser Verhältnisse. Dieses Verfahren kann neben einer Beschreibung der erfassten Daten zur Darstellung einer Kausalitätsbeziehung und zur Vorhersage von Variablenwerten herangezogen werden. Das Vorliegen der Voraussetzungen für eine solche Verwendung einer Regressionsanalyse musst du aber sorgfältig überprüfen.

Sie werden in unabhängige und abhängige Variablen unterteilt. Unabhängige Variablen können jeden Wert zwischen festgelegten Grenzen annehmen. Abhängig sind die Variablen, deren Werte sich aus Experimenten oder Messungen ergeben. Sie heißen deshalb so, weil solche Daten für gewisse Werte der unabhängigen Variablen dann einen festgelegten Wert der abhängigen Variablen ergeben.

Als einfaches Beispiel kannst du das Alter von Kindern zwischen 1 und 10 Jahren als unabhängige Variable betrachten und die für eine Anzahl Kinder gemessene Schuhgröße als die abhängige.

Hier geht es um die Frage, ob etwa eine einfache lineare Regressionsanalyse oder eine aufwendigere Form gewählt werden soll. Dafür gibt es kein Patentrezept, denn diese Wahl hängt wesentlich von dem Prozess ab, der die zu beschreibenden Daten hervorgebracht hat. Eine Möglichkeit besteht darin, verschiedene Modelle auszuprobieren und die Ergebnisse zu vergleichen.

Auf jeden Fall brauchst du lineare und Polynomfunktionen sowie elementare Wahrscheinlichkeitsrechnung mit einer Normalverteilung für die Darstellung der statistischen Fehler. Für aufwendigere Modelle werden darüber hinaus auch Differential- und Integralrechnung, lineare Algebra mit mehreren Variablen und beispielsweise die logistische Funktion verwendet.

In dieser Version wird das zu verwendende Modell aus den Daten hergeleitet. Das sieht wie eine naheliegende Methode zur Wahl des Modells aus, bringt aber wesentliche Probleme mit sich. Insbesondere müssen in diesem Verfahren die Werte sehr vieler Parameter ermittelt werden und dazu sind entsprechend viele Daten erforderlich.

Eine bereits gut entwickelte Theorie erweckt oft den Eindruck, in sich abgeschlossen zu sein. Dieser Eindruck täuscht allerdings oft und ist auch in diesem Fall nicht berechtigt. Beispiele für aktive Forschung sind die Details der gerade erwähnten nichtparametrischen Methode und die Behandlung von fehlerbehafteten unabhängigen Variablen.

Regressionsanalyse: Definition

Eine Regressionsanalyse ist eine statistische Methode für die Darstellung und Analyse des Zusammenhangs zwischen verschiedenen Variablen. Ihr Zweck ist die quantitative Beschreibung dieses Zusammenhangs. Es handel sich um eine Analyse aus dem Bereich der Methoden & Konzepte  der Betriebswirtschaftslehre.

In bestimmten Fällen ist die Methode für die Herstellung eines kausalen Zusammenhangs oder für die Vorhersage von zukünftigen Werten von Variablen einsetzbar. Ob das der Fall ist, musst du aber in jedem Fall aus den Details der jeweiligen Situation ableiten.

Regressionsanalyse: Formen

Die drei Formen der Regressionsanalyse im Überblick kurz erklärt:

Einfache lineare Regression

Untersucht den Effekt einer unabhängigen Variable auf eine davon abhängige Variable.

Beispiel:
Untersuchung des Gewichts einer Person basierend auf der Größe.

Multiple Regression

Untersucht den Effekt mehrerer unabhängiger Variablen auf eine davon abhängige Variable.

Beispiel:
Untersuchung des Gewichts einer Person basierend auf Größe & Geschlecht.

Logistische Regression

Untersucht mit welcher Wahrscheinlichkeit eine unabhängige Variable in der Bedingung der abhängigen Variable zu finden ist.

Beispiel:
Untersucht mit welcher Wahrscheinlichkeit die Größe einer Person Auswirkungen auf ihr Gewicht hat.

Einfache lineare Regressionsanalyse

Einfache lineare Regression

In diesem Fall wird eine lineare Beziehung zwischen einer unabhängigen und einer abhängigen Variable angenommen. Zur quantitativen Beschreibung sind die Koeffizienten dieser linearen Funktion als Parameter zu bestimmen.

Gesucht sind die Koeffizienten, mit denen die gegebenen Daten möglichst wenig von der linearen Funktion abweichen. Die Summe dieser Abweichungen ist als Maßstab dafür nicht geeignet, denn positive und negative Abweichungen heben sich auf.

Die von Carl Friedrich Gauss gefundene Lösung besteht in der Betrachtung der Summe der Quadrate der Abweichungen, die dann mit geeigneten Koeffizienten so klein wie möglich gemacht wird.

Multiple Regressionsanalyse

Multiple Regression

Hier wird eine größere Zahl an Variablen eingesetzt. Eine oder auch mehrere Variablen können eine Funktion von mehreren unabhängigen sein. Auf eine multiple Regression läuft auch die Darstellung der Daten als Polynomfunktion hinaus, denn dann sind die Koeffizienten der höheren Potenzen einer Variablen als Parameter zu berücksichtigen. Für multiple Regressionen wirst du Matrizenrechnung zur mathematischen Behandlung verwenden.

Logistische Regressionsanalyse

Logistische Regression

Sie stützt sich auf die logistische Funktion für die Modellierung von Situationen mit zwei möglichen Ergebnissen. Diese Funktion ist für klar negative Werte nahe 0, für klar positive nahe 1 und für 0 selbst nimmt sie den Wert 0,5 an. Sie beschreibt also den langsamen Übergang von Null auf Eins.

Interpretation der Regressionsanalyse

Diese Interpretation muss sich aus der Herkunft der Daten ergeben. Vorschnelle Anwendungen einer Regressionsanalyse zur Vorhersage oder Herstellung einer Kausalitätsbeziehung kann zu starken Fehleinschätzungen führen.

Als einfaches Beispiel kannst du eine Korrelation der Schuhgröße von Kindern und ihrer Lesefähigkeit betrachten. Diese Korrelation ist eindeutig gegeben, zeigt aber natürlich keinen Einfluss der Schuhgröße auf das Lesen. Beide Werte steigen einfach mit zunehmendem Alter, das die Entwicklung größerer Füße und besseren Lesens mit sich bringt.

Oft ist ein solcher Fehlschluss nicht so klar erkennbar, die Folgen sind aber gerade deshalb gravierend.

Was ist Korrelation?

Korrelation bedeutet Zusammenhang und ist oft der Ausgangspunkt für die Anwendung einer Regressionsanalyse. Steigen die unabhängigen und abhängigen Variablen gemeinsam, spricht man von einer positiven Korrelation, sind die Wertentwicklungen gegenläufig, ist die Korrelation negativ. Du kannst sie mit einem Korrelationskoeffizienten quantitativ erfassen.
Eine Regressionsanalyse baut auf einer vorhandenen Korrelation auf und besteht aus einer statistischen Darstellung des Zusammenhangs der Variablen.

Regressionsanalyse: Voraussetzungen

Eine Regressionsanalyse besteht aus der Bestimmung der Parameter eines statistischen Modells. Das ist nur dann sinnvoll möglich, wenn hinreichend viele Daten zur Verfügung stehen. Diese Anzahl der Paare von Werten der unabhängigen und abhängigen Variablen muss mindestens so hoch sein wie die Zahl der zu bestimmenden Parameter. Wenn das nicht der Fall ist, kannst du unendlich viele Parameterwerte finden, die alle Daten perfekt darstellen.

Regressionsanalyse: Beispiel

Anfang des 19. Jahrhunderts wurde der Asteroid Ceres entdeckt, der von der Erde aus aber nur kurze Zeit zu beobachten war. Aufgrund der physikalischen Situation war klar, dass er in elliptischer Bahn die Sonne umkreist. Gauss entwickelte für die Ermittlung der Umlaufbahn aus den wenigen vorhandenen Beobachtungsdaten seine Methode der kleinsten Quadrate. In diesem Fall war das Modell auch für eine Vorhersage weiterer Positionsdaten verwendbar. Die Rechnungen ergaben eine Position am Himmel, an der Ceres von Astronomen tatsächlich wiedergefunden wurde.

Fazit

Regressionsanalyse ist eine leistungsfähige Methode, die aber oft zum Opfer ihres eigenen Erfolgs wird. Die systematische Darstellung der vorliegenden Daten verführt oft dazu, vorschnelle Schlüsse zu ziehen und aus einer Korrelation zu schließen, dass die Veränderung einer Variable die Änderung der abhängigen Variable bedingt.

Das Beispiel der Umlaufbahn von Ceres zeigt aber auch, dass die Voraussetzungen für Vorhersage und Kausalität auch einfach feststellbar sein können. Mit sorgfältiger Handhabung der Regressionsanalyse hast du die beste Chance, ihr Potential auszuschöpfen und dabei auf dem Boden der begründbaren Tatsachen zu bleiben.