Applets:Korrelation und Regressionsgerade: Unterschied zwischen den Versionen

Aus LNTwww
Wechseln zu:Navigation, Suche
Zeile 3: Zeile 3:
 
==Programmbeschreibung==
 
==Programmbeschreibung==
 
<br>
 
<br>
Das Programm berechnet die Regressionsgeraden RX!Y und RY!X sowie einige Kenngro�en der 2D-Zufallsgro�e
+
Das Programm berechnet die Regressionsgeraden $R_{X \to Y}$ und $R_{Y \to X}$ sowie einige Kenngrößen der 2D-Zufallsgröße $(X, Y)$, welche die vier Werte $(x_1, y_1)$, $(x_2, y_2)$, $(1, 1)$ und $(-1, -1)$ annehmen kann (jeweils mit Wahrscheinlichkeit $p_1$ bzw. $0.5 - p_1$):
(X; Y ), welche die vier Werte (x1; y1), (x2; y2), (1; 1) und (􀀀1;􀀀1) annehmen kann (jeweils mit Wahrscheinlichkeit
+
\begin{itemize}
p1 bzw. 0:5 􀀀 p1):
+
    \item Für $R_{X \to Y}$ verwendet man im Fall mittelwertfreier Zufallsgrößen ($\mathrm{E}[X] = 0 = \mathrm{E}[Y]$) die Gleichung $R_{X \to Y}(x) = \frac{\sigma_Y}{\sigma_X \cdot \rho_{XY}} \cdot x = \frac{\sigma_Y^2}{\mu_{XY}} \cdot x$.
� Fur RX!Y verwendet man im Fall mittelwertfreier Zufallsgro�en (E[X] = 0 = E[Y ]) die Gleichung
+
    \item Für $R_{Y \to X}$ verwendet man unter obigen Voraussetzungen die Gleichung $R_{Y \to X}(x) = \frac{\sigma_Y}{\sigma_X} \cdot \rho_{XY} \cdot x = \frac{\mu_{XY}}{\sigma_X^2} \cdot x$.
RX!Y (x) = �Y
+
    \item Der Winkel zur $x$-Achse von $R_{X \to Y}$ wird mittels $\theta_{X \to Y} = \mathrm{arctan}\left(\frac{\sigma_Y}{\sigma_X \cdot \rho_{XY}}\right) = \mathrm{arctan}\left(\frac{\sigma_Y^2}{\mu_{XY}}\right)$ berechnet, der von $R_{Y \to X}$ mit $\theta_{Y \to X} = \mathrm{arctan}\left(\frac{\sigma_Y}{\sigma_X}\cdot \rho_{XY}\right) = \mathrm{arctan}\left(\frac{\mu_{XY}}{\sigma_X^2}\right)$. Beide Winkel werden in Grad angegeben.
�X��XY
+
\end{itemize}
x = �2
+
Außerdem wird optional eine Hilfsgerade mit einstellbarem Winkel angezeigt, sowie die Abstände der Punkte in $x$- und $y$-Richtung zur Hilfsgerade (gestrichelt).
Y
+
 
�XY
+
Die Position der rotationssymmetrischen Punkte $(x_1, y_1)$ und $(x_2, y_2)$ kann durch je einen Slider für $x$- und $y$-Koordinate im Bereich $[-2, 2]$ verändert werden, sowie die Wahrscheinlichkeit $p_1$ der beiden Punkte im Bereich $[0, 0.5]$.
x.
+
 
� Fur RY!X verwendet man unter obigen Voraussetzungen die Gleichung RY!X(x) = �Y
+
Die Streuungen (oder Standardabweichungen) von $X$ und $Y$ werden als $\sigma_X$ bzw. $\sigma_Y$ angezeigt. Die Kovarianz, die die Existenz eines monotonen Zusammenhangs zwischen $X$ und $Y$ ergründet, wird als $\mu_{XY}$ ausgegeben. Zudem wird der Korrelationskoeffizient $\rho_{XY}$ berechnet.
�X
+
��XY �x = �XY
+
Folgende mittlere quadratische (Euklidische) Abstände werden ermittelt:
�2X�x.
+
\begin{itemize}
Der Winkel zur x-Achse von RX!Y wird mittels �X!Y = arctan
+
    \item $\mathrm{MQA}_X$, der mittl. quadr. Abstand der Regressionsgeraden $R_{X \to Y}$ in $x$-Richtung
+
    \item $\mathrm{MQA}_Y$, der mittl. quadr. Abstand der Regressionsgeraden $R_{Y \to X}$ in $y$-Richtung
�Y
+
    \item $\mathrm{MQA}_X$ und $\mathrm{MQA}_Y$, die mittl. quadr. Abstände der Hilfsgeraden in $x$- bzw. $y$-Richtung
�X��XY
+
\end{itemize}
+
Im Fall der Geraden $R_{X \to Y}$ und $R_{Y \to X}$ ist der mittl. quadr. Abstand $\mathrm{MQA}_X$ bzw. $\mathrm{MQA}_Y$ jeweils minimal.
= arctan
+
+
\subsection{Theoretischer Hintergrund}
�2
+
Wir interessieren uns im Folgenden für den statistischen, linearen Zusammenhang von Daten. Diese Daten geben wir in Form einer zweidimensionalen Zufallsgröße $(X, Y)$ an, zusammen mit der Wahrscheinlichkeitsdichtefunktion (WDF) $f_{XY}(x,y)$. (Die WDF zu $X$ bzw. zu $Y$ heißt $f_X(x)$ bzw. $f_Y(y)$.)
Y
+
% die Wahrs., dass (X,Y) einen Wert zwischen a und b annimmt, entspricht dem
�XY
+
% Integral über f_XY von a nach b
+
 
berechnet, der
+
Wir nehmen an, dass $\mathrm{E}[X] = 0 = \mathrm{E}[Y]$, d.h. $X$ und $Y$ sind mittelwertfrei. Außerdem betrachten wir $(X,Y)$ als diskrete Zufallsgröße, die nur vier verschiedene Werte annehmen kann: $(x_1, y_1)$, $(x_2, y_2)$, $(x_3, y_3)=(1, 1)$ und $(x_4, y_4)=(-1, -1)$. Die Wahrscheinlichkeiten für das erste und zweite Paar nennen wir $p_1 = p_2$ und die für das dritte und vierte $p_3 = p_4$ mit $p_3 = 0.5 - p_1$.
von RY!X mit �Y!X = arctan
+
 
+
Dann kann man die Kenngrößen zur Beschreibung der Korrelation etwas vereinfacht ausrechnen; wir beginnen mit der Varianz in $X$-Richtung:
�Y
+
\begin{equation*}
�X
+
    \sigma^2_X = \int_{-\infty}^{+\infty} x^2 \cdot f_X(x) dx = \sum_{n=1}^{4} (x_n - \mathrm{E}[X])^2 \cdot p_n = 1 + 2p_1 \cdot (x_1^2-1)
� �XY
+
\end{equation*}
+
(Der erste Schritt ergibt sich durch den endlichen Wertebereich von $X$, der zweite durch die Mittelwertfreiheit und Substitution aller $p_n, n \in \{2, 3, 4\},$ durch $p_1$.)
= arctan
+
 
+
Für $\sigma^2_Y$ funktioniert es analog.
�XY
+
 
�2X
+
Die Kovarianz zwischen $X$ und $Y$ wird wie folgt berechnet:
+
\begin{equation*}
. Beide Winkel werden in Grad angegeben.
+
    \mu_{XY} = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} x \cdot y \cdot f_{XY}(x, y) \mathrm{d}x \mathrm{d}y = \sum_{n=1}^4 (x_n - \mathrm{E}[X])(y_n - \mathrm{E}[Y]) \cdot p_n = 1 + 2p_1 \cdot (x_1 \cdot y_1 -1)
Au�erdem wird optional eine Hilfsgerade mit einstellbarem Winkel angezeigt, sowie die Abstande der Punkte
+
\end{equation*}
in x- und y-Richtung zur Hilfsgerade (gestrichelt).
+
(Hier wurden die gleichen Schritte wie bei der Varianz gemacht.)
Die Position der rotationssymmetrischen Punkte (x1; y1) und (x2; y2) kann durch je einen Slider fur x- und
+
 
y-Koordinate im Bereich [􀀀2; 2] verandert werden, sowie dieWahrscheinlichkeit p1 der beiden Punkte im Bereich
+
Schließlich kann man anhand dieser Ergebnisse den Korrelationskoeffizienten bilden:
[0; 0:5].
+
\begin{equation*}
Die Streuungen (oder Standardabweichungen) von X und Y werden als �X bzw. �Y angezeigt. Die Kovarianz,
+
    \rho_{XY} = \frac{\mu_{XY}}{\sigma_X \cdot \sigma_Y}
die die Existenz eines monotonen Zusammenhangs zwischen X und Y ergrundet, wird als �XY ausgegeben.
+
\end{equation*}
Zudem wird der Korrelationskoe�zient �XY berechnet.
+
Er nimmt Werte zwischen $-1$ und $1$ an und ist ein Hinweis darauf, wie stark $X$ und $Y$ voneinander abhängen. Bei $\rho_{XY} = 0$ herrscht kein Zusammenhang, bei $\rho_{XY}= \pm 1$ handelt es sich um strenge lineare Abhängigkeit zwischen $X$ und $Y$.
Folgende mittlere quadratische (Euklidische) Abstande werden ermittelt:
+
 
� MQAX, der mittl. quadr. Abstand der Regressionsgeraden RX!Y in x-Richtung
+
Wie anfangs bereits erwähnt, wollen wir einen linearen Zusammenhang zwischen $X$ und $Y$ finden. Diesen geben wir in Form einer Regressionsgerade an -- wobei, tatsächlich verwenden wir zwei, denn es ist am einfachsten, den Fehler der Regressionsgeraden als mittleren quadratischen Abstand (vgl. Satz von Gauß-Markow) jeweils in $x$- und $y$-Richtung zu minimieren.
� MQAY , der mittl. quadr. Abstand der Regressionsgeraden RY!X in y-Richtung
+
 
� MQAX und MQAY , die mittl. quadr. Abstande der Hilfsgeraden in x- bzw. y-Richtung
+
Wir beginnen mit der Minimierung in $y$-Richtung: dabei entsteht die Gerade $R_{Y \to X}(x) = C_{Y \to X} \cdot x$ mit
Im Fall der Geraden RX!Y und RY!X ist der mittl. quadr. Abstand MQAX bzw. MQAY jeweils minimal.
+
\begin{equation*}
 +
    C_{Y \to X} = \frac{\sigma_Y}{\sigma_X} \cdot \rho_{XY}= \frac{\mu_{XY}}{\sigma_X^2}
 +
\end{equation*}
 +
und der mittl. quadr. Abstand in $y$-Richtung wird berechnet durch
 +
\begin{equation*}
 +
    \mathrm{MQA}_Y = \mathrm{E}[Y - C_{Y \to X} \cdot X]^2 = \sum_{n=1}^4 p_n \cdot (R_{Y \to X}(x_n) - y_n)^2 = \mathrm{min}.
 +
\end{equation*}
 +
 
 +
Die Minimierung in $x$-Richtung ergibt die Gerade $R_{X \to Y}(x) = C_{X \to Y} \cdot x$ mit
 +
\begin{equation*}
 +
    C_{X \to Y} = \frac{\sigma_Y}{\sigma_X \cdot \rho_{XY}}  = \frac{\sigma_Y^2}{\mu_{XY}}
 +
\end{equation*}
 +
und
 +
\begin{equation*}
 +
    \mathrm{MQA}_X = \mathrm{E}\left[X - \frac{Y}{C_{X \to Y}}\right]^2 = \sum_{n=1}^4 p_n \cdot (R_{X \to Y}^{-1} (y_n) - x_n) = \mathrm{min}.
 +
\end{equation*}
  
 
==Theoretischer Hintergrund==
 
==Theoretischer Hintergrund==

Version vom 18. März 2020, 16:39 Uhr

Applet in neuem Tab öffnen

Programmbeschreibung


Das Programm berechnet die Regressionsgeraden $R_{X \to Y}$ und $R_{Y \to X}$ sowie einige Kenngrößen der 2D-Zufallsgröße $(X, Y)$, welche die vier Werte $(x_1, y_1)$, $(x_2, y_2)$, $(1, 1)$ und $(-1, -1)$ annehmen kann (jeweils mit Wahrscheinlichkeit $p_1$ bzw. $0.5 - p_1$): \begin{itemize} \item Für '"`UNIQ-MathJax23-QINU`"' verwendet man im Fall mittelwertfreier Zufallsgrößen ('"`UNIQ-MathJax24-QINU`"') die Gleichung '"`UNIQ-MathJax25-QINU`"'. \item Für '"`UNIQ-MathJax26-QINU`"' verwendet man unter obigen Voraussetzungen die Gleichung '"`UNIQ-MathJax27-QINU`"'. \item Der Winkel zur '"`UNIQ-MathJax28-QINU`"'-Achse von '"`UNIQ-MathJax29-QINU`"' wird mittels '"`UNIQ-MathJax30-QINU`"' berechnet, der von '"`UNIQ-MathJax31-QINU`"' mit '"`UNIQ-MathJax32-QINU`"'. Beide Winkel werden in Grad angegeben. \end{itemize} Außerdem wird optional eine Hilfsgerade mit einstellbarem Winkel angezeigt, sowie die Abstände der Punkte in $x$- und $y$-Richtung zur Hilfsgerade (gestrichelt).

Die Position der rotationssymmetrischen Punkte $(x_1, y_1)$ und $(x_2, y_2)$ kann durch je einen Slider für $x$- und $y$-Koordinate im Bereich $[-2, 2]$ verändert werden, sowie die Wahrscheinlichkeit $p_1$ der beiden Punkte im Bereich $[0, 0.5]$.

Die Streuungen (oder Standardabweichungen) von $X$ und $Y$ werden als $\sigma_X$ bzw. $\sigma_Y$ angezeigt. Die Kovarianz, die die Existenz eines monotonen Zusammenhangs zwischen $X$ und $Y$ ergründet, wird als $\mu_{XY}$ ausgegeben. Zudem wird der Korrelationskoeffizient $\rho_{XY}$ berechnet.

Folgende mittlere quadratische (Euklidische) Abstände werden ermittelt:
\begin{itemize}
     \item '"`UNIQ-MathJax50-QINU`"', der mittl. quadr. Abstand der Regressionsgeraden '"`UNIQ-MathJax51-QINU`"' in '"`UNIQ-MathJax52-QINU`"'-Richtung
     \item '"`UNIQ-MathJax53-QINU`"', der mittl. quadr. Abstand der Regressionsgeraden '"`UNIQ-MathJax54-QINU`"' in '"`UNIQ-MathJax55-QINU`"'-Richtung
     \item '"`UNIQ-MathJax56-QINU`"' und '"`UNIQ-MathJax57-QINU`"', die mittl. quadr. Abstände der Hilfsgeraden in '"`UNIQ-MathJax58-QINU`"'- bzw. '"`UNIQ-MathJax59-QINU`"'-Richtung
 \end{itemize}
Im Fall der Geraden $R_{X \to Y}$ und $R_{Y \to X}$ ist der mittl. quadr. Abstand $\mathrm{MQA}_X$ bzw. $\mathrm{MQA}_Y$ jeweils minimal.

\subsection{Theoretischer Hintergrund} Wir interessieren uns im Folgenden für den statistischen, linearen Zusammenhang von Daten. Diese Daten geben wir in Form einer zweidimensionalen Zufallsgröße $(X, Y)$ an, zusammen mit der Wahrscheinlichkeitsdichtefunktion (WDF) $f_{XY}(x,y)$. (Die WDF zu $X$ bzw. zu $Y$ heißt $f_X(x)$ bzw. $f_Y(y)$.) % die Wahrs., dass (X,Y) einen Wert zwischen a und b annimmt, entspricht dem % Integral über f_XY von a nach b

Wir nehmen an, dass $\mathrm{E}[X] = 0 = \mathrm{E}[Y]$, d.h. $X$ und $Y$ sind mittelwertfrei. Außerdem betrachten wir $(X,Y)$ als diskrete Zufallsgröße, die nur vier verschiedene Werte annehmen kann: $(x_1, y_1)$, $(x_2, y_2)$, $(x_3, y_3)=(1, 1)$ und $(x_4, y_4)=(-1, -1)$. Die Wahrscheinlichkeiten für das erste und zweite Paar nennen wir $p_1 = p_2$ und die für das dritte und vierte $p_3 = p_4$ mit $p_3 = 0.5 - p_1$.

Dann kann man die Kenngrößen zur Beschreibung der Korrelation etwas vereinfacht ausrechnen; wir beginnen mit der Varianz in $X$-Richtung: \begin{equation*} \sigma^2_X = \int_{-\infty}^{+\infty} x^2 \cdot f_X(x) dx = \sum_{n=1}^{4} (x_n - \mathrm{E}[X])^2 \cdot p_n = 1 + 2p_1 \cdot (x_1^2-1) \end{equation*} (Der erste Schritt ergibt sich durch den endlichen Wertebereich von $X$, der zweite durch die Mittelwertfreiheit und Substitution aller $p_n, n \in \{2, 3, 4\},$ durch $p_1$.)

Für $\sigma^2_Y$ funktioniert es analog.

Die Kovarianz zwischen $X$ und $Y$ wird wie folgt berechnet: \begin{equation*} \mu_{XY} = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} x \cdot y \cdot f_{XY}(x, y) \mathrm{d}x \mathrm{d}y = \sum_{n=1}^4 (x_n - \mathrm{E}[X])(y_n - \mathrm{E}[Y]) \cdot p_n = 1 + 2p_1 \cdot (x_1 \cdot y_1 -1) \end{equation*} (Hier wurden die gleichen Schritte wie bei der Varianz gemacht.)

Schließlich kann man anhand dieser Ergebnisse den Korrelationskoeffizienten bilden: \begin{equation*} \rho_{XY} = \frac{\mu_{XY}}{\sigma_X \cdot \sigma_Y} \end{equation*} Er nimmt Werte zwischen $-1$ und $1$ an und ist ein Hinweis darauf, wie stark $X$ und $Y$ voneinander abhängen. Bei $\rho_{XY} = 0$ herrscht kein Zusammenhang, bei $\rho_{XY}= \pm 1$ handelt es sich um strenge lineare Abhängigkeit zwischen $X$ und $Y$.

Wie anfangs bereits erwähnt, wollen wir einen linearen Zusammenhang zwischen $X$ und $Y$ finden. Diesen geben wir in Form einer Regressionsgerade an -- wobei, tatsächlich verwenden wir zwei, denn es ist am einfachsten, den Fehler der Regressionsgeraden als mittleren quadratischen Abstand (vgl. Satz von Gauß-Markow) jeweils in $x$- und $y$-Richtung zu minimieren.

Wir beginnen mit der Minimierung in $y$-Richtung: dabei entsteht die Gerade $R_{Y \to X}(x) = C_{Y \to X} \cdot x$ mit \begin{equation*} C_{Y \to X} = \frac{\sigma_Y}{\sigma_X} \cdot \rho_{XY}= \frac{\mu_{XY}}{\sigma_X^2} \end{equation*} und der mittl. quadr. Abstand in $y$-Richtung wird berechnet durch \begin{equation*} \mathrm{MQA}_Y = \mathrm{E}[Y - C_{Y \to X} \cdot X]^2 = \sum_{n=1}^4 p_n \cdot (R_{Y \to X}(x_n) - y_n)^2 = \mathrm{min}. \end{equation*}

Die Minimierung in $x$-Richtung ergibt die Gerade $R_{X \to Y}(x) = C_{X \to Y} \cdot x$ mit \begin{equation*} C_{X \to Y} = \frac{\sigma_Y}{\sigma_X \cdot \rho_{XY}} = \frac{\sigma_Y^2}{\mu_{XY}} \end{equation*} und \begin{equation*} \mathrm{MQA}_X = \mathrm{E}\left[X - \frac{Y}{C_{X \to Y}}\right]^2 = \sum_{n=1}^4 p_n \cdot (R_{X \to Y}^{-1} (y_n) - x_n) = \mathrm{min}. \end{equation*}

Theoretischer Hintergrund


Erwartungswerte von 2D–Zufallsgrößen und Korrelationskoeffizient

Wir betrachten eine zweidimensionale  $\rm (2D)$–Zufallsgröße  $(X,\ Y)$  mit der Wahrscheinlichkeitsdichtefunktion  $\rm (WDF)$  $f_{XY}(x, y)$, wobei zwischen den Einzelkomponenten  $X$  und  $Y$  statistische Abhängigkeiten bestehen.  Ein Sonderfall ist die Korrelation.

$\text{Definition:}$  Unter  Korrelation  versteht man eine lineare Abhängigkeit  zwischen den Einzelkomponenten  $X$  und  $Y$.

  • Korrelierte Zufallsgrößen sind damit stets auch statistisch abhängig.
  • Aber nicht jede statistische Abhängigkeit bedeutet gleichzeitig eine Korrelation.


Für das Folgende setzen wir voraus, dass  $X$  und  $Y$  mittelwertfrei seien   ⇒   ${\rm E}\big [ X \big ] = {\rm E}\big [ Y \big ]=0$.  Zur Beschreibung der Korrelation genügen dann folgende Erwartungswerte:

  • die  Varianzen  in  $X$–  bzw. in  $Y$–Richtung:
$$\sigma_X^2= {\rm E}\big [ X^2 \big ] = \int_{-\infty}^{+\infty}\hspace{0.2cm}x^2 \cdot f_{X}(x) \, {\rm d}x\hspace{0.05cm},\hspace{0.5cm}\sigma_Y^2= {\rm E}\big [Y^2 \big ] = \int_{-\infty}^{+\infty}\hspace{0.2cm}y^2 \cdot f_{Y}(y) \, {\rm d}y\hspace{0.05cm};$$
  • die  Kovarianz  zwischen den Einzelkomponenten  $X$  und  $Y$:
$$\mu_{XY}= {\rm E}\big [ X \cdot Y \big ] = \int_{-\infty}^{+\infty}\hspace{0.2cm}\int_{-\infty}^{+\infty} x\ \cdot y \cdot f_{XY}(x,y) \, {\rm d}x\, {\rm d}y\hspace{0.05cm}.$$

Bei statististischer Unabhängigkeit der beiden Komponenten  $X$  und  $Y$  ist die Kovarianz  $\mu_{XY} \equiv 0$. 

  • Das Ergebnis  $\mu_{XY} = 0$  ist auch bei statistisch abhängigen Komponenten  $X$  und  $Y$  möglich, nämlich dann, wenn diese unkorreliert, also  linear unabhängig  sind.
  • Die statistische Abhängigkeit ist dann nicht von erster, sondern von höherer Ordnung, zum Beispiel entsprechend der Gleichung  $Y=X^2.$


Man spricht dann von  vollständiger Korrelation, wenn die (deterministische) Abhängigkeit zwischen  $X$  und  $Y$  durch die Gleichung  $Y = K · X$  ausgedrückt wird.

Dann ergibt sich für die Kovarianz:

  • $\mu_{XY} = σ_X · σ_Y$  bei positivem Wert von  $K$,
  • $\mu_{XY} = -σ_X · σ_Y$  bei negativem  $K$–Wert.


Deshalb verwendet man häufig als Beschreibungsgröße anstelle der Kovarianz den so genannten Korrelationskoeffizienten.

$\text{Definition:}$  Der  Korrelationskoeffizient  ist der Quotient aus der Kovarianz  $\mu_{XY}$  und dem Produkt der Effektivwerte  $σ_X$  und  $σ_Y$  der beiden Komponenten:

$$\rho_{XY}=\frac{\mu_{XY} } {\sigma_X \cdot \sigma_Y}.$$


Der Korrelationskoeffizient  $\rho_{XY}$  weist folgende Eigenschaften auf:

  • Aufgrund der Normierung gilt stets  $-1 \le ρ_{XY} ≤ +1$.
  • Sind die beiden Zufallsgrößen  $X$  und  $Y$  unkorreliert, so ist  $ρ_{XY} = 0$.
  • Bei strenger linearer Abhängigkeit zwischen  $X$  und  $Y$  ist  $ρ_{XY}= ±1$   ⇒   vollständige Korrelation.
  • Ein positiver Korrelationskoeffizient bedeutet, dass bei größerem  $X$–Wert im statistischen Mittel auch  $Y$  größer ist als bei kleinerem  $X$.
  • Dagegen drückt ein negativer Korrelationskoeffizient aus, dass  $Y$  mit steigendem  $X$  im Mittel kleiner wird.


2D-WDF  $f_{XY}(x, y)$  sowie die zugehörigen Randwahrscheinlichkeitsdichten  $f_{X}(x)$  und  $f_{Y}(y)$

$\text{Beispiel 1:}$  Die 2D–Zufallsgröße  $(X,\ Y)$  sei diskret und kann nur vier verschiedene Werte annehmen:

  • $(+0.5,\ 0)$  sowie $(-0.5,\ 0)$  jeweils mit der Wahrscheinlichkeit  $0.3$,
  • $(+1,\ +\hspace{-0.09cm}1)$  sowie $(-1,\ -\hspace{-0.09cm}1)$  jeweils mit der Wahrscheinlichkeit  $0.2$.


$\rm (A)$  Die Varianzen bzw. die Streuungen können aus   $f_{X}(x)$  und  $f_{Y}(y)$  berechnet werden:

$$\sigma_X^2 = 2 \cdot \big [0.2 \cdot 1^2 + 0.3 \cdot 0.5^2 \big] = 0.55\hspace{0.3cm}\Rightarrow\hspace{0.3cm}\sigma_X = 0.7416,$$
$$\sigma_Y^2 = \big [0.2 \cdot (-1)^2 + 0.6 \cdot 0^2 +0.2 \cdot (+1)^2 \big] = 0.4\hspace{0.3cm}\Rightarrow\hspace{0.3cm}\sigma_Y = 0.6325.$$

$\rm (B)$  Für die Kovarianz ergibt sich der folgende Erwartungswert:

$$\mu_{XY}= {\rm E}\big [ X \cdot Y \big ] = 2 \cdot \big [0.2 \cdot 1 \cdot 1 + 0.3 \cdot 0.5 \cdot 0 \big] = 0.4.$$

$\rm (C)$  Damit erhält man für den Korrelationskoeffizienten:

$$\rho_{XY}=\frac{\mu_{XY} } {\sigma_X \cdot \sigma_Y}=\frac{0.4 } {0.7416 \cdot 0.6325 }\approx 0.8528. $$


Regressionsgerade

Gaußsche 2D-WDF mit Korrelationsgerade  $K$

Ziel der linearen Regression ist es, einen einfachen (linearen) Zusammenhang zwischen zwei Zufallsgrößen  $X$  und  $Y$  zu anzugeben, deren $\text{2D-WDF}$  $f_{XY}(x, y)$  durch Punkte  $(x_1, y_1 )$  ...  $(x_N, y_N )$  in der  $(x,\ y)$–Ebene vorgegeben ist.  Die Skizze zeigt das Prinzip am Beispiel mittelwertfreier Größen: 

Gesucht ist die Gleichung der Geraden  $K$  ⇒   $y=c_{\rm opt} \cdot x$  mit der Eigenschaft, dass der mittlere quadratische (Euklidische) Abstand  $\rm (MQA)$  aller Punkte von dieser Geraden minimal ist. Man bezeichnet diese Gerade auch als  Korrelationsgerade. Diese kann als eine Art  „statistische Symmetrieachse“  interpretiert werden.

Bei einer großen Menge  $N$  empirischer Daten ist der mathematische Aufwand beträchtlich, den bestmöglichen Parameter  $C = c_{\rm opt}$  zu ermitteln. Der Aufwand wird deutlich reduziert, wenn man den Abstand nur in  $x$– oder in  $y$–Richtung definiert.

Im Sonderfall Gaußscher 2D-Zufallsgrößen wie in der Skizze verwendet ist die Korrelationsgerade  $K$  identisch mit der Ellipsenhauptachse bei Darstellung der 2D-WDF in Form von Höhenlinien.
Stimmt das?


$\text{(a)}\hspace{0.5cm} \text{Regressionsgerade }R_{Y \to X}$     (rote Gerade in der App)

Hier wird der  $y$–Wert auf den  $x$–Wert zurückgeführt, was in etwa einer der möglichen Bedeutungen „Zurückfallen” des Wortes „Regression” entspricht.

  • Geradengleichung,  Winkel  $\theta_{Y \to X}$  der Geraden  $R_{Y \to X}$  zur  $x$–Achse:
$$y=C_{Y \to X} \cdot x \ \ \ \text{mit} \ \ \ C_{Y \to X}=\frac{\sigma_Y}{\sigma_X}\cdot\rho_{XY}= \frac{\mu_{XY}}{\sigma_X^2},\hspace{0.6cm} \theta_{Y \to X}={\rm arctan}\ (C_{Y \to X}).$$
  • Kriterium:   Der mittlere Abstand aller Punkte  $(x_n, y_n )$  von der Regressionsgeraden $R_{Y \to X}$  in  $y$–Richtung ist minimal:
$${\rm MQA}_Y = {\rm E} \big [ y_n - C_{Y \to X} \cdot x_n\big ]^2 = \frac{\rm 1}{N} \cdot \sum_{n=\rm 1}^{N}\; \;\big [y_n - C_{Y \to X} \cdot x_n\big ]^{\rm 2}={\rm Minimum}.$$
Die zweite Gleichung gilt nur, wenn alle Punkte  $(x_n, y_n )$  der 2D–WDF gleichwahrscheinlich sind.


$\text{(b)}\hspace{0.5cm} \text{Regressionsgerade }R_{X \to Y}$     (blaue Gerade in der App)

Die Regression in Gegenrichtung  $($also von  $X$  auf  $Y)$  bedeutet dagegen, dass der $x$–Wert auf den $y$–Wert zurückgeführt wird.  Für  ${\rm MQA}_X$  ergibt sich der minimale Wert.

  • Geradengleichung,  Winkel  $\theta_{X \to Y}$  der Geraden  $R_{X \to Y}$  zur   $x$–Achse:
$$y=C_{X \to Y} \cdot x \ \ \text{mit} \ \ C_{X \to Y}=\frac{\sigma_X}{\sigma_Y}\cdot\rho_{XY}= \frac{\mu_{XY}}{\sigma_Y^2},\hspace{0.6cm} \theta_{X \to Y}={\rm arctan}\ (C_{X \to Y}).$$
  • Kriterium:   Der mittlere Abstand aller Punkte  $(x_n, y_n )$  von der Regressionsgeraden  $R_{X \to Y}$  in  $x$–Richtung ist minimal:
$${\rm MQA}_X = {\rm E} \big [ x_n - y_n/C_{x \to y}\big ]^2 = \frac{\rm 1}{N} \cdot \sum_{n=\rm 1}^{N}\; \;\big [x_n - y_n/C_{x \to y}\big ]^{\rm 2}={\rm Minimum}.$$
Die beiden Regressionsgeraden

$\text{Beispiel 2:}$  Es gelten die gleichen Voraussetzungen wie im  $\text{Beispiel 1}$  und es werden teilweise auch die dort gefundenen Ergebnisse verwendet.

In der oberen Grafik ist die Regressionsgerade  $R_{x \to y}$  als blaue Kurve eingezeichnet:

  • Hierfür ergibt sich  $C_{X \to Y}=\mu_{XY}/{\sigma_Y^2} = 1$  und dementsprechend  $ \theta_{X \to Y}={\rm arctan}\ (1) = 45^\circ.$
  • Für den mittleren Abstand aller vier Punkte  $(x_n, y_n )$  von der Regressionsgeraden $R_{X \to Y}$  in  $x$–Richtung erhält man unter Ausnutzung der Symmetrie (beachten Sie die eingezeichneten blauen Horizontalen):
$${\rm MQA}_X = {\rm E} \big [ x_n - y_n/C_{x \to y}\big ]^2 = 2 \cdot \big [ 0.2 \cdot \left [1 - 1/1\right ]^{\rm 2} +0.3 \cdot \left [0.5 - 0/1\right ]^{\rm 2}\big ]=0.15.$$
  • Jede Gerade mit einem anderen Winkel als  $45^\circ$  führt hier zu einem größeren  ${\rm MQA}_X$.


Betrachten wir nun die rote Regressionsgerade  $R_{Y \to X}$  in der unteren Grafik.

  • Hierfür ergibt sich  $C_{Y \to X}=\mu_{XY}/{\sigma_X^2} = 0.4/0.55\approx0.727$  und  $ \theta_{Y \to X}={\rm arctan}\ (0.727) \approx 36^\circ.$
  • Hier ist nun der mittlere Abstand der vier Punkte  $(x_n, y_n )$  von der Regressionsgeraden $R_{Y \to X}$  in  $y$–Richtung minimal (beachten Sie die eingezeichneten roten Vertikalen):
$${\rm MQA}_Y = {\rm E} \big [ y_n - C_{y \to x} \cdot x_n\big ]^2 = 2 \cdot \big [ 0.2 \cdot \left [1 - 0.727 \cdot 1\right ]^{\rm 2} +0.3 \cdot \left [0 - 0.727 \cdot 0.5 \right ]^{\rm 2}\big ]\approx 0.109.$$

Die im Text erwähnte „Korrelationsgerade” mit der Eigenschaft, dass der mittlere quadratische Euklidische Abstand  $\rm (MQA)$  aller Punkte von dieser Geraden minimal ist, wird sicher zwischen den beiden hier berechneten Regressionsgeraden liegen.

Testbereich

Bitte überprüfen

Bild 1
  • Hier habe ich als Test neben der roten und der blauen Geraden noch die grüne Gerade $H$ mit Winkel $\arctan(\rho) = \arctan(0.853)\approx 40^\circ$ eingezeichnet.
  • Sollte das die Korrelationsgerade $K$ sein, dann müsste der mittlere quadratische (Euklidische) Abstand  $\rm (MQA)$  aller Punkte von dieser Geraden minimal sein.
  • Müsste dann für diese Gerade ${\rm MQA}={\rm MQA}_X + {\rm MQA}_Y$ minimal sein?
  • Bitte für mehrere Parametersätze überprüfen. Ich hoffe, dass das nicht allgemein stimmt.


Bitte recherchieren. Das kann man mit dem Programm nicht überprüfen

Bild 2: Gaußsche 2D


  • Könnte das wenigstens bei Gaußschen 2D–Zufallsgrößen gelten
  • Durch die Tangenten sind die Regressionsgeraden bestimmt.
  • Im anderen LNTwww und im Carolin-Programm bezeichnen wir die schwarze Gerade als Ellipsenhauptache und die rote Gerade als Korrelationsgerade.
  • Wenn das stimmt, müsste ich das ändern. Die Änderungen im Programm selbst wären minimal.


Der Sonderfall Gaußscher 2D–Zufallsgrößen

Fehlt noch.

Versuchsdurchführung

Exercises binomial fertig.png
  • Wählen Sie zunächst die Nummer 1 ... 6 der zu bearbeitenden Aufgabe.
  • Eine Aufgabenbeschreibung wird angezeigt. Die Parameterwerte sind angepasst.
  • Lösung nach Drücken von „Musterlösung”.
  • Die Nummer  0  entspricht einem „Reset”: Gleiche Einstellung wie beim Programmstart.


In den folgenden Aufgabenbeschreibungen werden folgende Kurzbezeichnungen verwendet:

  • Rot:     Regressionsgerade  $R_{Y \to X}$  (im Applet rot gezeichnet),
  • Blau:   Regressionsgerade  $R_{X \to Y}$  (im Applet blau gezeichnet).


(1)  Mit welcher Parametereinstellung sind die beiden Regressionsgerade  $R_{Y \to X}$  und  $R_{X \to Y}$  deckungsgleich?

  •  Es ist offensichtlich, dass gleiche Regressionsgerade nur möglich sind, wenn diese unter dem Winkel  $45^\circ$  verlaufen   ⇒   „Winkelhalbierende”.
  •  Da die fest vorgegebenen Punkte  $3$  und  $4$  auf der Winkelhalbierenden liegen, muss dies auch für die Punkte  $1$  und  $2$  gelten   ⇒   $y_1 = x_1$.
  •  Dies gilt für alle Parametereinstellungen  $y_1 = x_1$  und auch für alle  $p_1$  im erlaubten Bereich von   $0$  bis  $0.5$.

(2)  Nun gelte $x_1 = 0.5,\ y_1 = 0,\ p_1 = 0.3$  Interpretieren Sie die Ergebnisse.  Aktivieren Sie hierzu die Hilfsgerade.

  •  Diese Einstellung stimmt mit den Voraussetzungen zu  $\text{Beispiel 1}$  und  $\text{Beispiel 2}$  überein.  Insbesondere gilt  $ \theta_{X \to Y}= 45^\circ.$  und  $ \theta_{Y \to X}\approx 36^\circ$.
  •  Durch Variation des Winkels  $ \theta_{\rm HG}$  erkennt man, dass für  $ \theta_{\rm HG}= 45^\circ$  die Kenngröße  ${\rm MQA}_X =0.15$  tatsächlich den kleinsten Wert annimmt.
  •  Ebenso ergibt sich der kleinstmögliche Abstand  ${\rm MQA}_Y =0.109$  in  $y$–Richtung für  $ \theta_{\rm HG}= 36^\circ$, also entsprechend der Geraden  $R_{y \to x}$.

(3)  Es gelten zunächst weiter die Einstellungen von  (2).  Wie ändern sich die Ergebnisse nach Variation von  $p_1$  im erlaubten Bereich  $(0\le p_1 \le 0.5)$?

  •  Die blaue Regressionsgerade  $ R_{X \to Y}$  verläuft weiter unter dem Winkel  $ \theta_{X \to Y}= 45^\circ$   ⇒   es gilt hier  $\mu_{XY} =\sigma_Y^2$, und zwar unabhängig von  $p_1 < 0.5$.
  •  Im Grenzfall  $p_1 = 0.5$  ist wegen  $\sigma_Y =0$  die blaue Regressionsgerade undefiniert.  Es handelt sich nurmehr um eine 1D–Zufallsgröße  $X$.
  •  Mit  $p_1=0$  sind nur die äußeren Punkte  $3$  und  $4$  wirksam   ⇒   $ \theta_{Y \to X}= \theta_{X \to Y}= 45^\circ$,  mit  $p_1=0.5$  nur die inneren Punkte  ⇒   $ \theta_{Y \to X}= 0^\circ$.
  •  Dazwischen wird  $ R_{Y \to X}$  kontinuierlich flacher.  Sind alle Punkte gleichwahrscheinlich  $(p_1=0.25)$, dann ist  $\theta_{Y \to X}\approx 38.7^\circ$.

(4)  Nun gelte  $x_1 = 0,\ y_1 = 0.5,\ p_1 = 0.3$.  Variieren Sie  $0\le p_1 < 0.5$  und interpretieren Sie die Ergebnisse.  $(p_1 = 0.5$  sollte man ausschließen$)$.

  •  Wegen  $\sigma_X \le \sigma_Y$  liegt weiterhin die blaue Gerade nie unterhalb der roten, die für alle  $p_1 \ne 0.5$  die Winkelhalbierende ist   ⇒   $ \theta_{Y \to X}\approx 45^\circ$.
  •  Der Winkel der blauen Regressionsgerade wächst von  $ \theta_{X \to Y}= 45^\circ \ (p_1 = 0)$  bis  $ \theta_{X \to Y} \to 90^\circ \ (p_1 \to 0.5)$  kontinuierlich an.

(5)  Beginnen Sie mit  $x_1 = 0.8,\ y_1 = -0.8,\ p_1 = 0.25$  und vergrößern Sie  $y_1$  bis zum Endwert  $y_1 = +0.8$.  Interpretieren Sie die Ergebnisse.

  •  Für  $y_1 =-0.8$  ist  $ \theta_{X \to Y}= 77.6^\circ$  und  $ \theta_{Y \to X}= 12.4^\circ$.  Mit steigendem  $y_1$  verläuft  $ R_{X \to Y}$  (blau) flacher und  $R_{Y \to X}$  (rot) steiler.
  •  Im Endpunkt  $(y_1 = +0.8)$  verlaufen die beiden Regressionsgeraden deckungsgleich unter dem Winkel  $ \theta_{X \to Y}= \theta_{Y \to X}= 45^\circ$.

(6)  Abschließend gelte  $x_1 = +1,\ y_1 = -1$.  Variieren Sie  $p_1$  im gesamten zulässigen Bereich  $0\le p_1 \le 0.5$.  Wann sind  $X$  und  $Y$  unkorreliert?

  •  Für  $p_1 = 0$  gilt  $ \theta_{X \to Y}=\theta_{Y \to X}= 45^\circ.$  Dann dreht die blaue Gerade entgegen dem Uhrzeigersinn, die rote Gerade im Uhrzeigersinn.
  •  Für  $p_1 = 0.25$  sind die Winkel  $ \theta_{X \to Y}=90^\circ, \ \theta_{Y \to X}= 0^\circ.$  Diese Momentaufnahme beschreibt unkorrelierte Zufallsgrößen   ⇒   $\mu_{XY}=0$.
  •  Anschließend drehen beide Geraden weiter in gleicher Richtung.  Für  $p_1 = 0.5$  gilt schließlich:  $ \theta_{X \to Y}=135^\circ= -45^\circ, \ \theta_{Y \to X}= -45^\circ.$


Zur Handhabung des Applets

Handhabung binomial.png

    (A)     Vorauswahl für blauen Parametersatz

    (B)     Parametereingabe $I$ und $p$ per Slider

    (C)     Vorauswahl für roten Parametersatz

    (D)     Parametereingabe $\lambda$ per Slider

    (E)     Graphische Darstellung der Verteilungen

    (F)     Momentenausgabe für blauen Parametersatz

    (G)     Momentenausgabe für roten Parametersatz

    (H)     Variation der grafischen Darstellung


$\hspace{1.5cm}$„$+$” (Vergrößern),

$\hspace{1.5cm}$ „$-$” (Verkleinern)

$\hspace{1.5cm}$ „$\rm o$” (Zurücksetzen)

$\hspace{1.5cm}$ „$\leftarrow$” (Verschieben nach links), usw.

    ( I )     Ausgabe von ${\rm Pr} (z = \mu)$ und ${\rm Pr} (z \le \mu)$

    (J)     Bereich für die Versuchsdurchführung

Andere Möglichkeiten zur Variation der grafischen Darstellung:

  • Gedrückte Shifttaste und Scrollen: Zoomen im Koordinatensystem,
  • Gedrückte Shifttaste und linke Maustaste: Verschieben des Koordinatensystems.

Über die Autoren

Dieses interaktive Berechnungstool wurde am Lehrstuhl für Nachrichtentechnik der Technischen Universität München konzipiert und realisiert.

Nochmalige Aufrufmöglichkeit des Applets in neuem Fenster

Applet in neuem Tab öffnen