Aufgaben Vorbereitung stetige Wahrscheinlichkeitsverteilungen

Code

library(tidyverse)
library(patchwork)

# Farben konsistent durch das gesamte Dokument
blau <- "#2C7BB6"
rot  <- "#D7191C"
grau <- "grey50"

# Datensatz laden
#| label: load-data
#| message: false

library(here)
data5_env <- new.env()
# 'here' findet immer den Weg vom R-Projekt-Wurzelordner aus
load(here("data", "zufallsdaten5A.RData"),envir = data5_env)
zufallsdaten5A<-data5_env$zufallsdaten

Aufgabe 1: Standardisierung einer Gleichverteilung

Gehen Sie von der gleichverteilten Zufallsvariablen \(X\) im Intervall \([-20, 10)\) aus.

Geben Sie die Rechenvorschrift an, mit welcher sich \(X\) standardisieren lässt.
Bestimmen Sie die Intervallgrenzen der standardisierten, stetigen Gleichverteilung \(Y\).

Aufgabe 1a – Standardisierungsformel

Analytische Lösung anzeigen

Für die stetig gleichverteilte Zufallsvariable \(X\) im Intervall \([a, b) = [-20, 10)\) gelten folgende Formeln für Erwartungswert und Varianz:

\[\mu = \text{E}(X) = \frac{a + b}{2} = \frac{-20 + 10}{2} = -5\]

\[\sigma^2 = \text{Var}(X) = \frac{(b - a)^2}{12} = \frac{(10 - (-20))^2}{12} = \frac{900}{12} = 75\]

Damit lautet die Rechenvorschrift zur Standardisierung von \(X\):

\[Y = \frac{X - \mu}{\sigma} = \frac{X - (-5)}{\sqrt{75}} = \frac{X + 5}{5\sqrt{3}}\]

Lösung mit R anzeigen

a <- -20
b <- 10

mu    <- (a + b) / 2
sigma2 <- (b - a)^2 / 12
sigma  <- sqrt(sigma2)

cat("Erwartungswert mu    =", mu,   "\n")

Erwartungswert mu    = -5

cat("Varianz       sigma2 =", sigma2, "\n")

Varianz       sigma2 = 75

cat("Standardabw.  sigma  =", round(sigma, 4), "=", "5 * sqrt(3) =", 5 * sqrt(3) |> round(4), "\n")

Standardabw.  sigma  = 8.6603 = 5 * sqrt(3) = 8.6605

Die Standardisierungsformel lautet also:

\[Y = \frac{X + 5}{5\sqrt{3}}\]

Aufgabe 1b – Intervallgrenzen der standardisierten Verteilung

Analytische Lösung anzeigen

Methode 1: Transformation der Intervallgrenzen

Die Intervallgrenzen \(\tilde{a}\) und \(\tilde{b}\) der standardisierten Zufallsvariablen \(Y\) erhält man, indem man die Grenzen \(a = -20\) und \(b = 10\) von \(X\) mit der in 1a) ermittelten Rechenvorschrift transformiert:

\[\tilde{a} = \frac{a + 5}{5\sqrt{3}} = \frac{-20 + 5}{5\sqrt{3}} = \frac{-15}{5\sqrt{3}} = \frac{-3}{\sqrt{3}} = -\sqrt{3}\]

\[\tilde{b} = \frac{b + 5}{5\sqrt{3}} = \frac{10 + 5}{5\sqrt{3}} = \frac{15}{5\sqrt{3}} = \frac{3}{\sqrt{3}} = \sqrt{3}\]

Methode 2: Über die Varianz der standardisierten Verteilung

Da \(Y\) standardisiert ist, muss \(\text{Var}(Y) = 1\) gelten. Wegen der Symmetrie von \(Y\) um 0 gilt ausserdem \(\tilde{a} = -\tilde{b}\). Damit ergibt sich:

\[\text{Var}(Y) = \frac{(\tilde{b} - \tilde{a})^2}{12} = \frac{(2\tilde{b})^2}{12} = \frac{4\tilde{b}^2}{12} = 1 \quad \Rightarrow \quad \tilde{b}^2 = 3 \quad \Rightarrow \quad \tilde{b} = \pm\sqrt{3}\]

Da \(\tilde{a} < \tilde{b}\) gelten soll, erhält man: \(\tilde{a} = -\sqrt{3}\) und \(\tilde{b} = \sqrt{3}\).

Lösung mit R anzeigen

# Methode 1: Transformation der Grenzen
a_tilde <- (a + 5) / (5 * sqrt(3))
b_tilde <- (b + 5) / (5 * sqrt(3))

cat("Methode 1 – Transformation der Grenzen:\n")

Methode 1 – Transformation der Grenzen:

cat("  a_tilde =", round(a_tilde, 6), "= -sqrt(3) =", -sqrt(3) |> round(6), "\n")

  a_tilde = -1.732051 = -sqrt(3) = -1.732051

cat("  b_tilde =", round(b_tilde, 6), "=  sqrt(3) =",  sqrt(3) |> round(6), "\n\n")

  b_tilde = 1.732051 =  sqrt(3) = 1.732051

# Methode 2: Über Var(Y) = 1
b_tilde_m2 <- sqrt(3)
var_check   <- (2 * b_tilde_m2)^2 / 12

cat("Methode 2 – Über Var(Y) = 1:\n")

Methode 2 – Über Var(Y) = 1:

cat("  b_tilde = sqrt(3) =", round(b_tilde_m2, 6), "\n")

  b_tilde = sqrt(3) = 1.732051

cat("  Probe: Var(Y) = (2*b_tilde)^2 / 12 =", var_check, "\n")

  Probe: Var(Y) = (2*b_tilde)^2 / 12 = 1

Die standardisierte Zufallsvariable \(Y\) ist gleichverteilt auf dem Intervall \([-\sqrt{3},\, \sqrt{3})\).

Aufgabe 2: Zentraler Grenzwertsatz

Der zentrale Grenzwertsatz liefert eine wichtige Grundlage für die Verfahren der schliessenden Statistik. Er sagt aus, dass die Verteilung des Mittelwerts von \(n\) unabhängigen und identisch verteilten Zufallsvariablen (egal welcher Ausgangsverteilung!) für wachsendes \(n\) gegen eine Normalverteilung konvergiert.

Diesen Zusammenhang werden Sie in dieser Aufgabe anhand der Datei zufallsdaten5A.RData grafisch illustrieren.

Hinweis: Variablen im Datensatz

Die Datei enthält je 128 Variablen:

univar1 bis univar128: stetig gleichverteilte Zufallszahlen aus \([0, 1)\)
expvar1 bis expvar128: exponentialverteilte Zufallszahlen

Jede Variable enthält dieselbe Anzahl Beobachtungen (Zeilen).

Aufgabe 2a – Gleichverteilte Ausgangsvariablen

Erzeugen Sie insgesamt 4 Variablen unimean2, unimean8, unimean32 und unimean128, welche jeweils den zeilenweisen Mittelwert von 2, 8, 32 bzw. 128 der Variablen univar1 bis univar128 enthalten. Erstellen Sie dann Histogramme sowie QQ-Plots bezüglich der Standardnormalverteilung für univar1 und diese 4 Mittelwertsvariablen.

Was beobachten Sie bezüglich der Form und der Breite der Histogramme, und was zeigen die QQ-Plots? Wie interpretieren Sie Ihre Beobachtungen in Bezug auf den zentralen Grenzwertsatz?

Analytische Lösung anzeigen

Nach dem zentralen Grenzwertsatz (ZGS) gilt: Sind \(X_1, \ldots, X_n\) unabhängig und identisch verteilt mit \(\text{E}(X_i) = \mu\) und \(\text{Var}(X_i) = \sigma^2\), dann gilt für den Mittelwert \(\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i\) für grosse \(n\) näherungsweise:

\[\bar{X}_n \;\dot{\sim}\; N\!\left(\mu,\, \frac{\sigma^2}{n}\right)\]

Für die stetige Gleichverteilung \(U(0, 1)\) gilt \(\mu = \frac{1}{2}\) und \(\sigma^2 = \frac{1}{12}\), also:

\[\bar{X}_n \;\dot{\sim}\; N\!\left(\frac{1}{2},\, \frac{1}{12n}\right)\]

Erwartete Beobachtungen:

Die Form der Histogramme wird mit wachsendem \(n\) zunehmend glockenförmig (symmetrisch, normalverteilt) – obwohl die Ausgangsvariable univar1 gleichverteilt (rechteckig) ist.
Die Breite der Histogramme nimmt ab, da die Standardabweichung des Mittelwerts \(\sigma/\sqrt{n}\) mit wachsendem \(n\) kleiner wird.
Die QQ-Plots zeigen, dass die Punkte mit wachsendem \(n\) immer besser auf der Referenzgeraden liegen, d.h. die Verteilung nähert sich einer Normalverteilung an.

Lösung mit R anzeigen

# Mittelwertsvariablen erzeugen (zeilenweise)
unimean2   <- zufallsdaten5A |> select(univar1:univar2)   |> rowMeans()
unimean8   <- zufallsdaten5A |> select(univar1:univar8)   |> rowMeans()
unimean32  <- zufallsdaten5A |> select(univar1:univar32)  |> rowMeans()
unimean128 <- zufallsdaten5A |> select(univar1:univar128) |> rowMeans()

Code

# [R-Output wird ergänzt]

Code

# [R-Output wird ergänzt]

Aufgabe 2b – Exponentialverteilte Ausgangsvariablen

Ditto, diesmal aber für expvar1 bis expvar128 mit exponentialverteilten Zufallszahlen. Beachten Sie, dass die Exponentialverteilung im Gegensatz zur Gleichverteilung deutlich schief ist.

Analytische Lösung anzeigen

Für die Exponentialverteilung \(\text{Exp}(1)\) gilt \(\mu = 1\) und \(\sigma^2 = 1\), also:

\[\bar{X}_n \;\dot{\sim}\; N\!\left(1,\, \frac{1}{n}\right)\]

Erwartete Beobachtungen:

Bei expvar1 ist die starke Rechtsschiefe deutlich sichtbar: Das Histogramm fällt von links steil ab, der QQ-Plot zeigt eine ausgeprägte Krümmung.
Mit wachsendem \(n\) wird die Verteilung des Mittelwerts zunehmend symmetrischer und glockenförmiger – der ZGS gilt also auch für schief verteilte Ausgangsvariablen.
Die Konvergenz zur Normalverteilung verläuft langsamer als bei der Gleichverteilung, weil die Exponentialverteilung «weiter entfernt» von der Normalverteilung ist.
Erst bei expmean128 liegen die QQ-Plot-Punkte annähernd auf der Geraden.

Fazit zum zentralen Grenzwertsatz:

Dies ist der Hauptgrund für die grosse Bedeutung der Normalverteilung in der Statistik: Die Verteilung des Mittelwerts von \(n\) Zufallsvariablen mit (fast) beliebiger, aber identischer Verteilung nähert sich für wachsendes \(n\) einer Normalverteilung an:

\[\frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \;\xrightarrow{d}\; N(0, 1) \quad \text{für } n \to \infty\]

Lösung mit R anzeigen

# Mittelwertsvariablen für Exponentialverteilung erzeugen
expmean2   <- zufallsdaten5A |> select(expvar1:expvar2)   |> rowMeans()
expmean8   <- zufallsdaten5A |> select(expvar1:expvar8)   |> rowMeans()
expmean32  <- zufallsdaten5A |> select(expvar1:expvar32)  |> rowMeans()
expmean128 <- zufallsdaten5A |> select(expvar1:expvar128) |> rowMeans()

Code

# [R-Output wird ergänzt]

Code

# [R-Output wird ergänzt]