Regressionsanalyse
Aus XIMES
Kurzbeschreibung
Diese Operation führt eine multiple lineare Regressionsanalyse durch. Eine multiple lineare Regressionsanalyse versucht lineare Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen festzustellen. Als Ergebnis liefert diese Operation Schätzwerte für die Koeffizienten der unabhängigen Variablen und eine Bewertung der Regression in Form einer Zeichenkette. Darüberhinaus werden, sofern vom Anwender erwünscht, verschiedene statistische Maßzahlen zur Regression und Visualisierungsdaten angezeigt.
Konfiguration
Betroffene Tabellenbereiche
- Unabhängige Variablen
- [Eingabe]
- Spalten, die Daten der unabhängigen Variablen enthalten, z.B. A-C oder A,E,C.
- Unter diesen Spalten darf sich maximal eine nicht-numerische Spalte befinden, die genau zwei unterschiedliche Werte beinhält. Diese beiden Werte werden für die Analyse 0-1 kodiert.
- Abhängige Variable
- [Eingabe]
- Numerische Spalte, z.B. A, die Daten der abhängigen Variable enthält
- Auswahl:
- Liste aller numerischen Spalten des gegenwärtigen Datenknotens
- Identifizierer
- [Eingabe]
- Dieser Parameter ist optional. Die Beobachtungen werden nach den angegebenen Spalten, z.B. A-C oder A,E,C, gruppiert.
- Für jede Gruppe wird eine Regressionsanalyse berechnet und im Ergebnis angezeigt.
- Inaktive Variablen
- [Eingabe]
- Dieser Parameter ist optional. Nur unabhängige Variablen dürfen als inaktive Variablen angegeben werden. Inaktiven Variablen werden aus dem Regressionsmodell entfernt, ohne dass sich die Struktur der Ergebnistabelle ändert. Operatoren oder Vorlagen, die auf dieser Tabellenstruktur aufbauen, funktionieren somit auch nach einer Änderung des Regressionsmodells.
Einstellungen
- Koeffizienten
- [Eingabe]
- Dieser Parameter gibt eine Grenze für die geschätzten Werte der Koeffizienten an.
- Wenn ein geschätzter Koeffizient im Absolutbetrag größer oder gleich dem angegebenen Wert ist, wird an die Bewertung ein * angehängt. Andernfalls wird der Bewertung ein - hinzugefügt.
- p-Wert Variablen
- [Eingabe]
- Dieser Parameter gibt eine Grenze für die p-Werte der einzelnen Variablen an.
- Wenn ein geschätzter Koeffizient größer oder gleich dem angegebenen Wert ist, wird an die Bewertung ein * angehängt. Andernfalls wird der Bewertung ein - hinzugefügt. Der angegebene Wert bestimmt auch, ab welchem p-Wert Variablen aus dem Regressionsmodell ausgeschlossen werden, sofern die Option 'Variablen ausschließen' gewählt worden ist.
- R²
- [Eingabe]
- Dieser Parameter gibt eine Grenze für das Bestimmheitsmaß R² an.
- Wenn das Bestimmheitsmaß R² größer gleich dem angebenen Wert ist, wird an die Bewertung ein * angehängt, ansonsten wird der Bewertung ein - hinzugefügt.
- Angepasstes R²
- [Eingabe]
- Dieser Parameter gibt eine Grenze für das angepasste Bestimmtheitsmaß (ang. R²) and.
- Wenn das angepasste Bestimmheitsmaß größer gleich dem angebenen Wert ist, wird an die Bewertung ein * angehängt, ansonsten wird der Bewertung ein ! hinzugefügt.
- ANOVA p-Wert
- [Eingabe]
- Dieser Parameter gibt das Signifikanzniveau für die ANOVA der Regression an.
- Wenn der p-Wert der ANOVA der Regression kleiner gleich dem angebenen Wert ist, wird an die Bewertung ein * Zeichen angehängt, ansonsten wird der Bewertung ein - hinzugefügt.
- Alle numerischen Spalten wählen
- [Eingabe]
- Wenn diese Auswahl aktiviert ist, werden alle numerischen Spalten außer der Spalte für die abhängige Variable und Identifizierer Spalten als unabhängige Variable ausgewählt.
- Variablen ausschließen
- [Eingabe]
- Wenn diese Auswahl aktiviert ist, werden nicht signifikante unabhängige Variablen entfernt. Eine unabhängige Variable ist nicht signifikant, wenn der p-Wert für diese Variable über dem Wert liegt, der unter 'p-Wert Variablen' angegeben worden ist. Zuerst wird die nicht signifikante Variable mit dem höchsten p-Wert ermittelt und anschließend aus dem Modell ausgeschlossen. Für die verbliebenen Variablen wird erneut eine Regressionsanalyse durchgeführt. Dieser Vorgang wird solange wiederholt, bis nur mehr signifikante Variablen übrig geblieben sind.
- Visualisierung
- [Eingabe]
- Wenn 'Visualierung' aktiviert ist, werden Schätzwerte für die abhängige Variable über den Mittelwerten bzw. Medianen der unabhängigen Variablen berechnet.
- Koeffizienten (u. V.)
- [Eingabe]
- Wenn 'Koeffizienten (u. V.)' aktiviert ist, werden die geschätzten Koeffizienten für unabhängige Variablen im Ergebnis angezeigt.
- p-Werte (u. V.)
- [Eingabe]
- Wenn 'p-Werte (u. V.)' aktiviert ist, werden die p-Werte der unabhängigen Variablen im Ergebnis angezeigt.
- Statistik (u. V.)
- [Eingabe]
- Wenn 'Statistik (u. V.)' aktiviert ist, werden arithmetisches Mittel, Median, Standardabweichung, Varianz, Schiefe und Kurtosis der Daten für unabhängige Variablen angezeigt.
- Min/Max/Quantile (u. V.)
- [Eingabe]Wenn 'Min/Max/Quantile (u. V.)' aktiviert ist, werden Minima, Maxima und verschiedene Quantile (10%, 25%, 50%, 75%, 90%) der Daten für unabhängige Variablen angezeigt.
- Statistik (a. V.)
- [Eingabe]
- Wenn 'Statistik (a. V.)' aktiviert ist, werden arithmetisches Mittel, Median, Standardabweichung, Varianz, Schiefe und Kurtosis der Daten für die abhängige Variable angezeigt. Zusätzlich werden die Anzahl der Beobachtungen und der p-Wert der Anderson-Darling Test auf Normalverteilung ausgegeben.
- Min/Max/Quantile (a. V.)
- [Eingabe]
- Wenn 'Min/Max/Quantile (a. V.)' aktiviert ist, werden Minimum, Maximum und verschiedene Quantile (10%, 25%, 50%, 75%, 90%) der Daten für die abhängige Variable angezeigt.
- R² / p-Wert ANOVA
- [Eingabe]
- Wenn 'R² / p-Wert ANOVA' aktiviert ist, werden das Bestimmtheitsmaß R² und p-Wert der ANOVA im Ergebnis angezeigt.
- Ang. R² anzeigen
- [Eingabe]
- Wenn 'Ang. R² anzeigen' aktiviert ist, wird das angepaßte Bestimmtheitsmaß im Ergebnis angezeigt.
- Bewertung
- [Eingabe]
- Wenn 'Bewertung' aktiviert ist, wird am Ende der Tabelle eine textuelle Bewertung der Regressionsanalyse hinzugefügt.
Hinweise
Allgemein
- Wenn eine Zeile in einem für die Regression relevanten Feld (unabhängige Variablen, abhängige Variablen) keine Daten enthält, so wird diese Zeile ignoriert.
- Wenn zu wenige bzw. zu wenig unterschiedliche Beobachtungen in einem Datenknoten vorhanden sind, um eine Regressionsanalyse durchzuführen, wird nur der Schnittpunkt (über den Mittelwert der abhängigen Variable) geschätzt.
Bewertung
- Die Zeichenkette, welche die Regression bewertet, befindet sich in der Spalte 'Bewertung' in der Ergebnistabelle der Operation. Diese Zeichenkette beschreibt,
- ob der Einfluss der einzelnen unabhängigen Variablen im Modell groß genug ist. Der Einfluss einer unabhängigen Variable ist groß genug, wenn ihr geschätzter Koeffizient im Regressionmodell, den Wert im Feld 'Koeffizienten' übersteigt.
- ob die einzelnen unabhängigen Variablen überhaupt Einfluss auf die gewählte abhängige Variable haben. Dies hängt vom berechneten p-Wert der einzelnen Variablen ab. Kleine p-Werte (< 0.1 oder 0.05) bedeuten, dass eine unabhängige Variable Einfluss auf die abhängige Variable hat.
- wie gut das berechnete Regressionsmodell die zugrunde liegenden Daten erkären kann. Die Güte des Regressionsmodells wird durch die Werte 'R²', 'Ang. R²' und 'p ANOVA' angegeben.
- Bei der Bewertung des Modells wird nun für jeden einzelnen Koeffizienten verglichen ob sein Wert über dem Limit liegt, der im Feld 'Koeffizienten' angegeben worden ist. Ist dies der Fall wird der Zeichenkette ein '*' angehängt, ansonsten ein '-'.
- Weiters werden die einzelnen p-Werte im Modell mit dem Limit im Feld 'p-Werte Variablen' verglichen. Wenn der p-Wert einer Variablen unter dem angebgenen Limit liegt, wird der Zeichenkette ein '*' angehängt, ansonsten ein '-'.
- Die letzten drei Zeichen der Zeichenkette geben an, ob R², ang. R² und der p-Wert der ANOVA über den Limits in den Feldern 'R²', 'Angepasstes R²' bzw. unter dem Limit im Feld 'p Wert ANOVA' liegen. Ist dies der Fall, wird der Zeichenkette ein '*' angehängt ansonsten ein '-' bzw. ein '!' bei zu kleinem ang. R².
- z.B. Wir berechnen ein Regressionsmodell mit zwei unabhängigen Variablen: Mitarbeiter, Training -> Umsatz.
- als Grenzen für die Koeffizienten, p-Werte, R², ang. R² und p ANOVA behalten wir die default Einstellungen bei (siehe Screenshot unten).
| Koeffizient | Limit | Bewertung | p-Wert | Limit | Bewertung | |||
|---|---|---|---|---|---|---|---|---|
| Mitarbeiter | 2,9 | > | 1 | * | 0.002 | < | 0.1 | * |
| Training | 0,8 | < | 1 | - | 0.13 | > | 0.1 | - |
| Wert | Limit | Bewertung | ||
|---|---|---|---|---|
| R² | 0,85 | > | 0,7 | * |
| ang. R² | 0,59 | < | 0,6 | ! |
| p ANOVA | 0.0001 | < | 0,1 | * |
- In der Spalte Bewertung wird folgenden Zeichenkette ausgegeben: *- *- *!*




