Druckversion: | Nach dem Drucken: | und zurück zum Dokument |
Sollte das Drucken mit diesem Schaltknopf nicht funktionieren, nutzen Sie bitte die Druckfunktion in Ihrem Browser: Menü Datei -> Drucken
ViLeS 1 > IX Zusammenhangsmaße für nominalskalierte Daten (Kontingenzanalyse) > IX-3 Maße der prädiktiven Assoziation > Konzepte und Definitionen |
Das PRE- Maß von Goodman/Kruskal folgt - im Gegensatz zur kausalanalytischen Begründung der χ2 basierten Kontingenzmaße - einer prädiktiven (prognostischen) Konstruktionslogik. Dabei wird geprüft, in welchem Ausmaß eine Prognose verbessert werden kann, wenn man der Prognose zusätzlich zu den Informationen einer eindimensionalen Häufigkeitsverteilung auch noch die Informationen einer zweidimensionalen Verteilung zugrunde legt.
Im Modell werden zwei Arten von Vorhersagefehlern einander gegenübergestellt: Zum einen der Vorhersagefehler F 1 auf der Grundlage der eindimensionalen Häufigkeitsverteilung und zum anderen der Vorhersagefehler F 2 auf der Basis der zweidimensionalen Häufigkeitsverteilung:
Der Prognosefehler F 1
Auf der Basis einer einfachen Häufigkeitsverteilung der abhängigen Variable (also der Summenspalte einer zweidimensionalen Verteilung) orientiert man sich für eine möglichst sichere Prognose am Modus der Verteilung, d.h. man prognostiziert die Merkmalsausprägung, die am häufigsten beobachtet wurde.
Sollte man also das Rauchverhalten einer Person vorhersagen, prognostiziert man am sichersten einen Raucher, wenn die Gruppe der Raucher die der Nichtraucher zahlenmäßig überwiegt (und umgekehrt).
Bei N Prognosen ist die Anzahl der Prognosefehler F1:
F1 = N - max(fi).
Dies ist der Prognosefehler ohne Berücksichtigung weiterer Informationen aus einer zweidimensionalen Verteilung.
Der Prognosefehler F 2
Nun wäre es natürlich ein Indiz für einen Zusammenhang zweier Variablen, wenn sich der Prognosefehler durch Berücksichtigung dieser zweidimensionalen Verteilung vermindern ließe.
Wenn es also einen hohen Zusammenhang zwischen dem Rauchverhalten und dem Geschlecht gäbe, z.B. der Art, dass die Raucher überwiegend männlichen Geschlechts sind, könnte man die Prognose bei einer Information über das Geschlecht wesentlich verbessern. Der Fehler F 2 ergibt sich aus den Spalten der zweidimensionalen Verteilung als:
F2 = ∑ [ f.j - max(fij ]
d.h. F2 ist das Aggregat der Differenzen zwischen der jeweiligen Spaltensummen f.j und dem jeweiligen Spaltenmaximum.
Das Verhältnis der Prognosefehler
0 ≤ F2 ≤ F1
λ ist definiert als Maß der relativen Fehlerreduktion:
Bei einem vollständigen Zusammenhang zwischen den beiden Variablen lässt sich die Ausprägung von Yi|X j genau vorhersagen. Dann ist der Prognosefehler F2= 0, und somit λ = 1.
Existiert kein Zusammenhang zwischen den beiden Variablen, läßt sich die Prognose nicht verbessern. Dann gilt F2 = F1 und λ = 0.
Der Vollständigkeit halber sei noch auf folgende Varianten von hingewiesen: wenn sich die Richtung der Abhängigkeit umkehrt und , wenn keine eindeutige Richtung gegeben ist.
Nachfolgend die Formeln zur Berechnung dieser Varianten:
λ lässt sich für alle Skalenniveaus berechnen.
Aus dem Konstruktionsprinzip folgt eine lineare Beziehung zwischen der prozentualen Fehlerreduktion und dem prozentualen Anwachsen des Maßes. Mit diesem Wert lässt sich demnach die Stärke des Zusammenhangs zwischen den Variablen im Bereich 0 < λ < 1 korrekt wie folgt beziffern:
λ = 0,25: ein schwacher Zusammenhang,
λ = 0,50: ein mittlerer Zusammenhang,
λ = 0,75: ein starker Zusammenhang.
Generell ist jedoch anzumerken, dass das Maß der prädiktiven Fehlerreduktion sehr stark auf das Vorliegen eindeutiger Modi in den Tabellenspalten reagiert, da jede Häufigkeit ausserhalb der modalen Klasse als Fehler gezählt wird, d.h. je undeutlicher die Modi ausgeprägt sind, desto geringer fällt λ aus.
Die Stärke des Zusammenhangs ist ausserdem abhängig von der Richtung des Zusammenhangs (vgl. dazu den nächsten Arbeitsschritt "Beispiele und Aufgaben")
Im Folgenden soll die Berechnung der verschiedenen Konstellationen am Beispiel des Rauchverhaltens demonstriert werden:
Abbildung 9-5: Formen des Rauchverhaltens
Die Berechnung von λ für den beobachteten Zusammenhang (linke Tabelle oben)
F1 = N - max(fi) = 100 - 40 = 60
F1 ist fr alle nachfolgenden Berechnungen identisch.
F2 = ∑ [ f.j - max(fij ] = (60 - 45) + (40 - 25) = 30
Die Berechnung von λ bei Unabhängigkeit (rechte Tabelle oben)
F1 = 40
F2 = ∑ [ f.j - max(fij ] = (60 - 36) + (40 - 24) = 40
Die Berechnung von λ bei maximaler Abhängigkeit (linke Tabelle unten)
F1 = 40
F2 = ∑ [ f.j - max(fij ] = (60 - 60) + (40 - 40) = 0
Die Berechnung von λ bei "maximaler" umgekehrter Abhängigkeit (rechte Tabelle unten)
F1 = N - max(fi) = 40
F2 = ∑ [ f.j - max(fij ] = (60 - 40) + (40 - 40) = 20
Fazit:
Im Falle der beobachteten Verteilungen ergibt sich mit λ = 0,25 ein schwacher Zusammenhang.
Bei Unabhängigkeit erhalten wir λ = 0, also keinen rechnerischen Zusammenhang.
Bei vollständiger Abhängigkeit erhalten wir λ = 1, also eine rechnerische Bestätigung des vollständigen Zusammenhangs.
Bei "maximalem" umgekehrten Zusammenhang erhalten wir λ = 0,5, also nur die rechnerische Bestätigung eines mittleren Zusammenhangs.
letzte Änderung am 28.2.2020 um 7:49 Uhr.
Adresse dieser Seite (evtl. in mehrere Zeilen zerteilt)
http://viles.uni-oldenburg.de/navtest/viles1/kapitel09_Zusammenhangsma~~sze~~lf~~uer~~lnominalskalierte~~lDaten/modul02_Ma~~sz~~lder~~lpr~~aediktativen~~lAssozi
ation/ebene01_Konzepte~~lund~~lDefinitionen/09__02__01__01.php3