5  Непрерывные случайные переменные

Непрерывные Случайные Переменные

  • Непрерывные случайные переменные: рост случайного человека, средняя оценка за год по математике случайно взятого школьника, и т.п.
  • Определение: Случайная переменная называется непрерывной, если существует функция \(f_x\) , которая называется функцией плотности вероятности (probability density function), такая что

\[\begin{align*} P(x \in A) &= \int_{A}f_X(x)dx, \forall A \in R \\ \textrm{ в частности } \\ P(a \leq x \leq b) &= \int_a^bf_X(x)dx \end{align*}\]

Интерпретация

  • Одна из возможных интерпритаций: Возьмем малый интервал \([x, x+\delta]\)

\[ P([x, x+\delta]) = \int_{x}^{x+\delta} f_X(t)dt \approx f_X(x)\delta \]

  • То есть \(f_X(x)\) это “отношение вероятности к длине интервала”
  • Помните, что плотность вероятности - \(f_X(x)\) - это не вероятность
    • Она может быть больше \(1\)

Еще немного о плотности вероятности

  • Вероятность, в целом, это что-то вроде массы. Представьте, что у вас 1г масла.

  • И вы намазываете (т.е. распределяете) этот один грамм на тост.

    • Если выбрать какой-нибудь “регион” тоста, то на нем будет некая масса масла. Если уменьшать регион, то и масса масла на нем будет уменьшаться. Оба числа, площадь региона и масса масла будут стремиться к нулю, но их отношение - нет
  • То есть PDF это предел отношение вероятности к размеру региона. Плотность показывает вам концентрацию вероятности в точке.

\[ \lim_{\Delta x \Delta y \rightarrow 0} \frac{F(\Delta x \Delta y)}{\Delta x \Delta y} = PDF = f_{X}(x) \]

  • Рост людей (PDF) Рост – это непрерывная величина, поэтому для него используется PDF. Например, если у вас есть PDF для роста случайно взятого человека, вы можете оценить насколько вероятно встретить человека ростом 170-175 см.

  • Скорость автомобилей (PDF) Камеры измеряют скорость машин на дороге. Можно построить PDF, чтобы понять, с какой вероятностью автомобиль будет двигаться со скоростью от 60 до 70 км/ч, что поможет, например, в настройке дорожных знаков или установке камер.

  • Медицина: уровень сахара в крови (PDF) Врачи используют PDF, чтобы понять, как распределён уровень сахара в крови у людей. Например, можно оценить вероятность того, что у случайного пациента уровень сахара окажется в норме (3.9–5.5 ммоль/л) или выше нормы.

Свойства PDF

  • Функции плотности показывают вам сколько плотности в какой-либо точке пространства исходов. Функции плотности должны соблюдать два условия

  • \(f_{X}(x) > 0, \forall x\): Функция должна быть положительной

  • \(\int_{\Omega}f_X(x)dx = 1\): Интеграл по всему пространству исходов для этой функции должен быть равен 1.

    • Вы распредилили 1-у единицу вероятности по пространству, если все собрать назад, должно выйти опять 1.
  • В целом любая функция удовлетворяющая этим двум условиям может быть PDF.

  • Например:

Допустим есть функция \(g(x) = ax^2\) определенная на интервале \(x \in [0, 2]\). Чему должно быть равно \(a\), чтобы функция \(ax^2\) могла бы стать PDF?

\[\begin{align*} \int_{\Omega} g(x) dx & = 1 \\ \int_{0}^{2} ax^2 dx & = 1 \\ a*\frac{x^3}{3}|_{0}^{2} & = 1 \\ a & = \frac{3}{8} \end{align*}\]

Непрерывная Равномерная (Uniform) С.П.

  • \(X\) принимает значения на интервале \([a,b]\), и все суб-интервалы одинаковой длины имеют одинаковую вероятность
  • \(f_X(x) = \frac{1}{b-a}, \textrm{ for } a \leq x \leq b; 0 \textrm{ otherwise}\)

\[\int_a^{b}f_X(x) = \int_a^{b}\frac{1}{b-a}dx = 1\]

Ожидание непрерывной С.П.

  • Формальное определение

\[ E[X] = \int_{-\infty}^{\infty}xf_X(x)dx \]

  • Посчитаем для равномерной С.П. \(X \sim U[a, b], E[X] = ?\)

\[ E[X] = \int_{a}^{b}\frac{x}{b-a}dx = \frac{x^2}{2(b-a)}\bigg|_a^b = \frac{a+b}{2} \]

Дисперсия непрерывной величины

Определение:

\[ var(X) = E[(X - E[X])^2] \]

Что фактически значит

\[ var(X) = \int_{-\infty}^{\infty} (x - E[X])^2f_X(x)dx \]

Но есть и формула попроще

\[ var(X) = E[X^2] - E[X]^2 \]

Ожидание, как правило, известно. Немного сложнее посчитать ожидание квадрата.

\[ E[X^2] = \int_{-\infty}^{\infty}x^2f_X(x)dx \]

Давайте посчитаем дисперсию равномерной С.П. на интервале \([a, b]\). Или

\[ X \sim U[a, b]: f_X(x) = \frac{1}{b-a} \]

Ожидение

\[ E[X] = \frac{b+a}{2} \]

Ожидение квадрата:

\[\begin{align*} E[X^2] & = \int_{-\infty}^{\infty}x^2f_X(x)dx \\ & = \int_{a}^{b}x^2\frac{1}{b-a}dx \\ & = \frac{x^3}{3}\frac{1}{b-a}|_{a}^{b}dx \\ & = \frac{b^3 - a^3}{3(b-a)} \end{align*}\]

Теперь дисперсия:

\[\begin{align*} var(X) & = E[X^2] - E[X]^2 \\ & = \frac{b^3 - a^3}{3(b-a)} - \frac{(b+a)^2}{4} \\ & = \frac{b^2 + ba + a^2}{3} - \frac{(b+a)^2}{4} \\ & = \frac{4b^2 + 4ba + 4a^2 - 3b^2 - 6ba - 3a^2}{12} \\ & = \frac{b^2 - 2ba + a^2}{12} \\ var(X) & = \frac{(b-a)^2}{12} \end{align*}\]

Кумулятивная функция распределения, CDF

  • Мы работали с дискретными и непрерывными случайными величинами, используя различные функции:
    • дискретная: функция массы вероятности (pmf), которая показывает, насколько велика вероятность того или иного значения
    • непрерывная: функция плотности вероятности, которая говорит о плотности вероятности в точке
  • Было бы неплохо иметь единое математическое понятие, позволяющее говорить как о дискретных, так и о непрерывных случайных величинах

Кумулятивная функция распределения, CDF

  • Познакомьтесь с CDF - кумулятивной функцией распределения

\[\begin{align*} F_X(x) = P(X \leq x) \\ \textrm{if X is discrete : } F_X(x) = P(X \leq x) = \sum_{k\leq x}p_X(k) \\ \textrm{if X is continuous : } F_X(x) = P(X \leq x) = \int_{-\infty}^{x}f_X(t)dt \end{align*}\]

Кумулятивная функция распределения, CDF

  • CDF - \(F_X(x)\) - показывает, сколько вероятности вы накопили вплоть до значения \(x\)
  • Любая случайная величина имеет CDF, неважно дискретна она или непрерывна. Событие \({X\leq x}\) всегда имеет определенную вероятность (в отличие от \(X = x\))
  • Например, положим что у нас есть равномерная случайная переменная. Найдем ее CDF.
  • Т.е. \(X \sim Uni(a, b), F_X(x) = ?\)
  • Следуя определению, получаем

\[ F_X(x) = \int_{a}^{x}\frac{1}{b-a}dt = \frac{t}{b-a}\bigg|_{a}^{x} = \frac{x-a}{b-a} = \frac{1}{b-a}x - \frac{a}{b-a} \]

  • PDF - \(f_X(x)\) - можно получить из CDF - \(F_X(x)\) - если взять производную

\[ f_X(x) = \frac{dF_X}{dx}(x) \]

Нормальное Распределение

  • Непрерывная С.П. называется нормальной, если ее PDF имеет следующий вид

\[ f_X(x) = \frac{1}{\sqrt{2\pi}}e^{-(x-\mu)^2/2\sigma^2} \]

  • Определена параметрами \(\mu\) and \(\sigma\)
    • \(\mu\) задает центр распределения
    • \(\sigma\) задает стандартное откронения (standard deviation), которое определяет то, насколько разбросаны значения вокруг среднего
  • Записывается как \(X \sim N(\mu, \sigma)\)
  • \(E[X] = \mu\), the expected value of a normal random variable equals to its mean
  • \(Var(X) = \sigma^2\), the variance of a normal random variable

Нормальное семейство (Normal family)

Немного R

  • Допустим \(X \sim N(0, 1)\)
  • Мы хотели бы посчитать вероятность события \(P(X \leq 0)\)
  • Формально,

\[F_X(0) = P(X \leq 0) = \int_{-\infty}^{0}\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/2\sigma^2}dx\]

  • Но интуитивно, мы можем заметить, что речь идет о площаде под кривой меньше 0
    • посколько распределение симметричное, она равна 1/2
  • В частном случае, однако, нам придется брать этот сложный интеграл
  • Однако R сделает все за нас с помощью набора функции
    • dnorm(), pnorm(), qnorm(), rnorm()

dnorm()

  • dnorm() принимает на вход значение переменной, а возвращает значение плотности вероятности в этой точке
dnorm(x = c(1, 0, 1), mean = 0, sd = 1)
[1] 0.2419707 0.3989423 0.2419707
  • Я использовал dnorm(), чтобы строить графики
my_tibble <-
  tibble(x = seq(-3, 3, by = 0.05)) %>% # first a create a vector of numbers
  mutate(y = dnorm(x)) # then I create a new variable with values of PDF
my_tibble %>% head()
x y
-3.00 0.0044318
-2.95 0.0051426
-2.90 0.0059525
-2.85 0.0068728
-2.80 0.0079155
-2.75 0.0090936

И потом

my_tibble %>%
  ggplot(aes(x = x, y = y)) +
  geom_line() +
  labs(title = "PDF of a normal distribution") +
  annotate('text', x = 0, y = 0.41, 
        label = "mu==0~sigma==1", parse = TRUE, size = 5)

pnorm()

  • pnorm() - это CDF нормального распределение. На вход функция принимает значение переменной, а выдает то, сколько “вероятности” вы “накопили” к этой точке
# Какова вероятность, что стандартная нормальная с.п.
# (mean = 0, sd = 1) примет значение меньше чем 0
pnorm(0, mean = 0, sd = 1)
[1] 0.5
  • По умолчанию, pnorm() считает вероятность, что переменная будет меньше заданного значения: \(P(X \leq x)\). Если вы хотите найти вероятность, что переменная будет больше заданного значения, просто вычтите значение по умолчанию из 1

\[ P(X > x) = 1 - P(X \leq x) \]

Пример

Какова вероятность, что нормальная с.п. со средним \(10\) и стандартным отклонением \(2\)примет значение больше чем \(15\)

1 - pnorm(15, mean = 10, sd = 2)
[1] 0.006209665
  • Теперь то же самое, но графически

Сначала с PDF

  • Теперь, CDF

qnorm()

  • qnorm() считает квантили, точки, которые делят распределение в заданных пропорциях
  • На вход вы подаете пропорцию, то есть вероятность того, что переменная будет меньше заданного значения, а на выходе получаете искомое значение

\[ qnorm(p) = x: P(X \leq x) = p \]

  • Для какого значения стандартной нормальной с.п. is less than that point 50% of the time?
qnorm(0.5, mean = 0, sd = 1)
[1] 0
  • Where is the point that a random variable is less than that point 50% of the time?
qnorm(0.25, mean = 0, sd = 1)
[1] -0.6744898
  • Where is the point that a random variable is larger than that point only 5% of the time?
# by default `qnorm()` assumes that a random variable takes values less than the point it needs to return, to change that use lower.tail = FALSE argument
qnorm(0.05, mean = 0, sd = 1, lower.tail = FALSE)
[1] 1.644854

rnorm()

  • rnorm() generates values of a normal random variable
my_random_values <- rnorm(10, mean = 0, sd = 1)
my_random_values
 [1]  0.74106864  0.46257699  1.48263404  0.08857171 -0.20525371 -0.66098216
 [7] -0.01067883 -1.37760443  0.10288677  0.64411827
  • Let’s build a histogram out of values like this
tibble(sim_values = rnorm(1000, mean = 0, sd = 1)) %>%
  ggplot(aes(x = sim_values)) +
  geom_histogram(bins = 30, color = "grey")

rnorm()

  • Then we can use these generated data to estimate a PDF of a random variable, it should resemble a normal shape, though it has not to be ideal
tibble(sim_values = rnorm(1000, mean = 0, sd = 1)) %>%
  ggplot(aes(x = sim_values)) +
  geom_histogram(bins = 30, color = "grey", aes(y = ..count../sum(..count..))) +
  geom_density(color = "skyblue2") +
  labs(y = "Proportion")
Warning: The dot-dot notation (`..count..`) was deprecated in ggplot2 3.4.0.
ℹ Please use `after_stat(count)` instead.

rnorm()

  • Let’s compare our generated data with the real PDF of a normal random variable
tibble(sim_values = rnorm(1000, mean = 0, sd = 1)) %>%
  ggplot(aes(x = sim_values)) +
  geom_histogram(bins = 30, color = "grey", aes(y = ..count../sum(..count..))) +
  geom_density(color = "skyblue2") +
  geom_line(data = my_tibble, aes(x = x, y = y), color = "maroon4") +
  labs(y = "Proportion")