5 Непрерывные случайные переменные

Непрерывные Случайные Переменные

Непрерывные случайные переменные: рост случайного человека, средняя оценка за год по математике случайно взятого школьника, и т.п.
Определение: Случайная переменная называется непрерывной, если существует функция \(f_x\) , которая называется функцией плотности вероятности (probability density function), такая что

\[\begin{align*} P(x \in A) &= \int_{A}f_X(x)dx, \forall A \in R \\ \textrm{ в частности } \\ P(a \leq x \leq b) &= \int_a^bf_X(x)dx \end{align*}\]

Интерпретация

Одна из возможных интерпритаций: Возьмем малый интервал \([x, x+\delta]\)

\[ P([x, x+\delta]) = \int_{x}^{x+\delta} f_X(t)dt \approx f_X(x)\delta \]

То есть \(f_X(x)\) это “отношение вероятности к длине интервала”
Помните, что плотность вероятности - \(f_X(x)\) - это не вероятность
- Она может быть больше \(1\)

Еще немного о плотности вероятности

Вероятность, в целом, это что-то вроде массы. Представьте, что у вас 1г масла.
И вы намазываете (т.е. распределяете) этот один грамм на тост.
- Если выбрать какой-нибудь “регион” тоста, то на нем будет некая масса масла. Если уменьшать регион, то и масса масла на нем будет уменьшаться. Оба числа, площадь региона и масса масла будут стремиться к нулю, но их отношение - нет
То есть PDF это предел отношение вероятности к размеру региона. Плотность показывает вам концентрацию вероятности в точке.

\[ \lim_{\Delta x \Delta y \rightarrow 0} \frac{F(\Delta x \Delta y)}{\Delta x \Delta y} = PDF = f_{X}(x) \]

Рост людей (PDF) Рост – это непрерывная величина, поэтому для него используется PDF. Например, если у вас есть PDF для роста случайно взятого человека, вы можете оценить насколько вероятно встретить человека ростом 170-175 см.
Скорость автомобилей (PDF) Камеры измеряют скорость машин на дороге. Можно построить PDF, чтобы понять, с какой вероятностью автомобиль будет двигаться со скоростью от 60 до 70 км/ч, что поможет, например, в настройке дорожных знаков или установке камер.
Медицина: уровень сахара в крови (PDF) Врачи используют PDF, чтобы понять, как распределён уровень сахара в крови у людей. Например, можно оценить вероятность того, что у случайного пациента уровень сахара окажется в норме (3.9–5.5 ммоль/л) или выше нормы.

Свойства PDF

Функции плотности показывают вам сколько плотности в какой-либо точке пространства исходов. Функции плотности должны соблюдать два условия
\(f_{X}(x) > 0, \forall x\): Функция должна быть положительной
\(\int_{\Omega}f_X(x)dx = 1\): Интеграл по всему пространству исходов для этой функции должен быть равен 1.
- Вы распредилили 1-у единицу вероятности по пространству, если все собрать назад, должно выйти опять 1.
В целом любая функция удовлетворяющая этим двум условиям может быть PDF.
Например:

Допустим есть функция \(g(x) = ax^2\) определенная на интервале \(x \in [0, 2]\). Чему должно быть равно \(a\), чтобы функция \(ax^2\) могла бы стать PDF?

\[\begin{align*} \int_{\Omega} g(x) dx & = 1 \\ \int_{0}^{2} ax^2 dx & = 1 \\ a*\frac{x^3}{3}|_{0}^{2} & = 1 \\ a & = \frac{3}{8} \end{align*}\]

Непрерывная Равномерная (Uniform) С.П.

\(X\) принимает значения на интервале \([a,b]\), и все суб-интервалы одинаковой длины имеют одинаковую вероятность
\(f_X(x) = \frac{1}{b-a}, \textrm{ for } a \leq x \leq b; 0 \textrm{ otherwise}\)

\[\int_a^{b}f_X(x) = \int_a^{b}\frac{1}{b-a}dx = 1\]

Ожидание непрерывной С.П.

Формальное определение

\[ E[X] = \int_{-\infty}^{\infty}xf_X(x)dx \]

Посчитаем для равномерной С.П. \(X \sim U[a, b], E[X] = ?\)

\[ E[X] = \int_{a}^{b}\frac{x}{b-a}dx = \frac{x^2}{2(b-a)}\bigg|_a^b = \frac{a+b}{2} \]

Дисперсия непрерывной величины

Определение:

\[ var(X) = E[(X - E[X])^2] \]

Что фактически значит

\[ var(X) = \int_{-\infty}^{\infty} (x - E[X])^2f_X(x)dx \]

Но есть и формула попроще

\[ var(X) = E[X^2] - E[X]^2 \]

Ожидание, как правило, известно. Немного сложнее посчитать ожидание квадрата.

\[ E[X^2] = \int_{-\infty}^{\infty}x^2f_X(x)dx \]

Давайте посчитаем дисперсию равномерной С.П. на интервале \([a, b]\). Или

\[ X \sim U[a, b]: f_X(x) = \frac{1}{b-a} \]

Ожидение

\[ E[X] = \frac{b+a}{2} \]

Ожидение квадрата:

\[\begin{align*} E[X^2] & = \int_{-\infty}^{\infty}x^2f_X(x)dx \\ & = \int_{a}^{b}x^2\frac{1}{b-a}dx \\ & = \frac{x^3}{3}\frac{1}{b-a}|_{a}^{b}dx \\ & = \frac{b^3 - a^3}{3(b-a)} \end{align*}\]

Теперь дисперсия:

\[\begin{align*} var(X) & = E[X^2] - E[X]^2 \\ & = \frac{b^3 - a^3}{3(b-a)} - \frac{(b+a)^2}{4} \\ & = \frac{b^2 + ba + a^2}{3} - \frac{(b+a)^2}{4} \\ & = \frac{4b^2 + 4ba + 4a^2 - 3b^2 - 6ba - 3a^2}{12} \\ & = \frac{b^2 - 2ba + a^2}{12} \\ var(X) & = \frac{(b-a)^2}{12} \end{align*}\]

Кумулятивная функция распределения, CDF

Мы работали с дискретными и непрерывными случайными величинами, используя различные функции:
- дискретная: функция массы вероятности (pmf), которая показывает, насколько велика вероятность того или иного значения
- непрерывная: функция плотности вероятности, которая говорит о плотности вероятности в точке
Было бы неплохо иметь единое математическое понятие, позволяющее говорить как о дискретных, так и о непрерывных случайных величинах

Кумулятивная функция распределения, CDF

Познакомьтесь с CDF - кумулятивной функцией распределения

\[\begin{align*} F_X(x) = P(X \leq x) \\ \textrm{if X is discrete : } F_X(x) = P(X \leq x) = \sum_{k\leq x}p_X(k) \\ \textrm{if X is continuous : } F_X(x) = P(X \leq x) = \int_{-\infty}^{x}f_X(t)dt \end{align*}\]

Кумулятивная функция распределения, CDF

CDF - \(F_X(x)\) - показывает, сколько вероятности вы накопили вплоть до значения \(x\)
Любая случайная величина имеет CDF, неважно дискретна она или непрерывна. Событие \({X\leq x}\) всегда имеет определенную вероятность (в отличие от \(X = x\))
Например, положим что у нас есть равномерная случайная переменная. Найдем ее CDF.
Т.е. \(X \sim Uni(a, b), F_X(x) = ?\)
Следуя определению, получаем

\[ F_X(x) = \int_{a}^{x}\frac{1}{b-a}dt = \frac{t}{b-a}\bigg|_{a}^{x} = \frac{x-a}{b-a} = \frac{1}{b-a}x - \frac{a}{b-a} \]

PDF - \(f_X(x)\) - можно получить из CDF - \(F_X(x)\) - если взять производную

\[ f_X(x) = \frac{dF_X}{dx}(x) \]

Нормальное Распределение

Непрерывная С.П. называется нормальной, если ее PDF имеет следующий вид

\[ f_X(x) = \frac{1}{\sqrt{2\pi}}e^{-(x-\mu)^2/2\sigma^2} \]

Определена параметрами \(\mu\) and \(\sigma\)
- \(\mu\) задает центр распределения
- \(\sigma\) задает стандартное откронения (standard deviation), которое определяет то, насколько разбросаны значения вокруг среднего
Записывается как \(X \sim N(\mu, \sigma)\)
\(E[X] = \mu\), the expected value of a normal random variable equals to its mean
\(Var(X) = \sigma^2\), the variance of a normal random variable

Нормальное семейство (Normal family)

Немного R

Допустим \(X \sim N(0, 1)\)
Мы хотели бы посчитать вероятность события \(P(X \leq 0)\)
Формально,

\[F_X(0) = P(X \leq 0) = \int_{-\infty}^{0}\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/2\sigma^2}dx\]

Но интуитивно, мы можем заметить, что речь идет о площаде под кривой меньше 0
- посколько распределение симметричное, она равна 1/2
В частном случае, однако, нам придется брать этот сложный интеграл
Однако R сделает все за нас с помощью набора функции
- dnorm(), pnorm(), qnorm(), rnorm()

`dnorm()`

dnorm() принимает на вход значение переменной, а возвращает значение плотности вероятности в этой точке

dnorm(x = c(1, 0, 1), mean = 0, sd = 1)

[1] 0.2419707 0.3989423 0.2419707

Я использовал dnorm(), чтобы строить графики

my_tibble <-
  tibble(x = seq(-3, 3, by = 0.05)) %>% # first a create a vector of numbers
  mutate(y = dnorm(x)) # then I create a new variable with values of PDF
my_tibble %>% head()

x	y
-3.00	0.0044318
-2.95	0.0051426
-2.90	0.0059525
-2.85	0.0068728
-2.80	0.0079155
-2.75	0.0090936

И потом

my_tibble %>%
  ggplot(aes(x = x, y = y)) +
  geom_line() +
  labs(title = "PDF of a normal distribution") +
  annotate('text', x = 0, y = 0.41, 
        label = "mu==0~sigma==1", parse = TRUE, size = 5)

`pnorm()`

pnorm() - это CDF нормального распределение. На вход функция принимает значение переменной, а выдает то, сколько “вероятности” вы “накопили” к этой точке

# Какова вероятность, что стандартная нормальная с.п.
# (mean = 0, sd = 1) примет значение меньше чем 0
pnorm(0, mean = 0, sd = 1)

[1] 0.5

По умолчанию, pnorm() считает вероятность, что переменная будет меньше заданного значения: \(P(X \leq x)\). Если вы хотите найти вероятность, что переменная будет больше заданного значения, просто вычтите значение по умолчанию из 1

\[ P(X > x) = 1 - P(X \leq x) \]

Пример

Какова вероятность, что нормальная с.п. со средним \(10\) и стандартным отклонением \(2\)примет значение больше чем \(15\)

1 - pnorm(15, mean = 10, sd = 2)

[1] 0.006209665

Теперь то же самое, но графически

Сначала с PDF

Теперь, CDF

`qnorm()`

qnorm() считает квантили, точки, которые делят распределение в заданных пропорциях
На вход вы подаете пропорцию, то есть вероятность того, что переменная будет меньше заданного значения, а на выходе получаете искомое значение

\[ qnorm(p) = x: P(X \leq x) = p \]

Для какого значения стандартной нормальной с.п. is less than that point 50% of the time?

qnorm(0.5, mean = 0, sd = 1)

[1] 0

Where is the point that a random variable is less than that point 50% of the time?

qnorm(0.25, mean = 0, sd = 1)

[1] -0.6744898

Where is the point that a random variable is larger than that point only 5% of the time?

# by default `qnorm()` assumes that a random variable takes values less than the point it needs to return, to change that use lower.tail = FALSE argument
qnorm(0.05, mean = 0, sd = 1, lower.tail = FALSE)

[1] 1.644854

`rnorm()`

rnorm() generates values of a normal random variable

my_random_values <- rnorm(10, mean = 0, sd = 1)
my_random_values

 [1]  0.74106864  0.46257699  1.48263404  0.08857171 -0.20525371 -0.66098216
 [7] -0.01067883 -1.37760443  0.10288677  0.64411827

Let’s build a histogram out of values like this

tibble(sim_values = rnorm(1000, mean = 0, sd = 1)) %>%
  ggplot(aes(x = sim_values)) +
  geom_histogram(bins = 30, color = "grey")

`rnorm()`

Then we can use these generated data to estimate a PDF of a random variable, it should resemble a normal shape, though it has not to be ideal

tibble(sim_values = rnorm(1000, mean = 0, sd = 1)) %>%
  ggplot(aes(x = sim_values)) +
  geom_histogram(bins = 30, color = "grey", aes(y = ..count../sum(..count..))) +
  geom_density(color = "skyblue2") +
  labs(y = "Proportion")

Warning: The dot-dot notation (`..count..`) was deprecated in ggplot2 3.4.0.
ℹ Please use `after_stat(count)` instead.

`rnorm()`

Let’s compare our generated data with the real PDF of a normal random variable

tibble(sim_values = rnorm(1000, mean = 0, sd = 1)) %>%
  ggplot(aes(x = sim_values)) +
  geom_histogram(bins = 30, color = "grey", aes(y = ..count../sum(..count..))) +
  geom_density(color = "skyblue2") +
  geom_line(data = my_tibble, aes(x = x, y = y), color = "maroon4") +
  labs(y = "Proportion")