Розподіл Пуассона

Вступ до розподілу Пуассона

Розподіл Пуассона — це дискретний розподіл ймовірностей, який описує, скільки разів певна подія може відбутися протягом фіксованого періоду часу або простору. Він застосовується, коли події відбуваються випадково, незалежно одна від одної та з постійною середньою інтенсивністю на спостережуваному проміжку. Цей розподіл особливо корисний для моделювання рідкісних або випадкових подій, таких як кількість приходів клієнтів за годину або частота збоїв у мережі за день.

Формально розподіл Пуассона виражається як

\[ p(x; \lambda) = P(X = x) = \frac{e^{-\lambda} \lambda^x}{x!} \]

де:

  • \( X \) представляє дискретну випадкову величину, що підраховує кількість подій, які відбуваються на заданому проміжку.
  • \( x \) — це конкретна кількість спостережуваних подій.
  • \( \lambda \) — середня інтенсивність виникнення, тобто очікувана кількість подій на проміжок.
  • \( e \) — число Ейлера.
  • \( x! \) позначає факторіал \( x \).

Параметр \( \lambda \) повністю характеризує розподіл Пуассона і має бути додатнім (\( \lambda > 0 \)).

Процес Пуассона

Розподіл Пуассона тісно пов'язаний із процесом Пуассона, який моделює випадкове виникнення та накопичення подій у часі або просторі, тоді як розподіл Пуассона виражає ймовірність спостереження конкретної кількості таких подій на фіксованому проміжку. Процес можна визначити як процес Пуассона, якщо він задовольняє наступні умови:

  • Події відбуваються по одній, ніколи одночасно.
  • Події є незалежними, що означає, що виникнення однієї не впливає на ймовірність іншої.
  • Середня інтенсивність виникнення (\(\lambda\)) залишається постійною в часі або просторі.
  • Ймовірність виникнення більше ніж однієї події на нескінченно малому проміжку є нехтовною.

За цих припущень кількість подій, спостережуваних на будь-якому фіксованому проміжку тривалістю \( t \), підпорядковується розподілу Пуассона з параметром \( \lambda t \), що представляє очікувану кількість виникнень протягом цього проміжку. Формально ймовірність того, що рівно \( x \) подій відбудуться за час \( t \), задається як:

\[ p(x; \lambda t) = P(X = x) = \frac{e^{-\lambda t}(\lambda t)^x}{x!} \] \[ x = 0, 1, 2, \ldots \]

При \( t = 1 \) вираз зводиться до стандартної форми розподілу Пуассона з параметром \( \lambda \).

Ключові особливості

  • \[\text{1. } \quad P(X = x) = \dfrac{\lambda^{x} e^{-\lambda}}{x!} \quad x = 0,1,2,\dots \]

  • \[\text{2. } \quad \mu = E(X) = \lambda \]

  • \[\text{3. } \quad \sigma^{2} = \mathrm{Var}(X) = \lambda \]

  • \[\text{4. } \quad \sigma = \sqrt{\lambda} \]

Кожен вираз підкреслює ключову властивість розподілу Пуассона, описуючи, як він моделює частоту рідкісних подій, де знаходиться його середнє значення і як його мінливість безпосередньо пов'язана з параметром інтенсивності \(\lambda\).

Середнє значення розподілу Пуассона

Середнє значення або математичне сподівання розподілу Пуассона представляє середню кількість подій, які можуть відбутися на фіксованому проміжку часу або простору. Воно забезпечує прякий захід центральної тенденції розподілу. Формально математичне сподівання визначається як:

\[ \mu = E(X) = \sum_{x=0}^{\infty} x \, P(X = x) = \lambda \]

Підставляючи функцію ймовірності розподілу Пуассона, маємо:

\[ E(X) = \sum_{x=0}^{\infty} x \frac{e^{-\lambda}\lambda^x}{x!} \]

Оскільки доданок із \( x = 0 \) дорівнює нулю, ми можемо розпочати підсумовування з \( x = 1 \):

\[ E(X) = e^{-\lambda} \sum_{x=1}^{\infty} \frac{x \lambda^x}{x!}. \]

Використовуючи тотожність для факторіала ( x/x! = 1/(x – 1)! ), вираз можна переписати як:

\[ E(X) = e^{-\lambda} \lambda \sum_{x=1}^{\infty} \frac{\lambda^{x-1}}{(x-1)!}. \]

Змінивши індекс підсумовування \( x-1 = k \), отримаємо:

\[ E(X) = e^{-\lambda} \lambda \sum_{k=0}^{\infty} \frac{\lambda^{k}}{k!}. \]

Нескінченна сума дорівнює \( e^{\lambda} \), що скорочує доданок \(e^{-\lambda} \), даючи:

\[ \mu = E(X) = \lambda \]

Цей результат показує, що для розподілу Пуассона середнє значення дорівнює параметру \( \lambda \), який також представляє очікувану кількість подій, що відбуваються на заданому проміжку. Іншими словами, \( \lambda \) характеризує як середнє значення, так і інтенсивність, з якою відбуваються події.

Дисперсія розподілу Пуассона

Дисперсія розподілу Пуассона описує, наскільки кількість спостережуваних подій має тенденцію коливатися навколо середнього значення \( \mu = \lambda \). У той час як середнє значення виражає очікувану частоту виникнення, дисперсія вказує, наскільки сильно фактичні підрахунки можуть відрізнятися від цього середнього при багатократному повторенні експерименту. За означенням, дисперсія записується як:

\[ \sigma^2 = \mathrm{Var}(X) = E(X^2) - [E(X)]^2 = \lambda \]

Ми можемо переписати \( x^2 \) як \( x[(x-1)+1] \), що дає:

\[ E(X^2) = \lambda e^{-\lambda} \left[ \sum_{x=1}^{\infty} \frac{\lambda^{x-1}}{(x-1)!} + \sum_{x=2}^{\infty} \frac{\lambda^{x-2}}{(x-2)!} \right] \]

Оскільки ці суми відповідають експоненціальним рядам, вираз можна переписати як:

\[ E(X^2) = \lambda e^{-\lambda} (\lambda e^{\lambda} + e^{\lambda}) = \lambda(\lambda + 1) \]

Оскільки середнє значення розподілу Пуассона дорівнює \( E(X) = \lambda \), дисперсія обчислюється як:

\[ \mathrm{Var}(X) = E(X^2) - [E(X)]^2 = \lambda(\lambda + 1) - \lambda^2 = \lambda \]

Таким чином, дисперсія розподілу Пуассона дорівнює його середньому значенню:

\[ \sigma^2 = \lambda \]

Ця рівність між середнім значенням і дисперсією є визначальною властивістю моделі Пуассона, що вказує на те, що очікувана частота подій \( \lambda \) також визначає мінливість, що спостерігається в будь-якому фіксованому інтервалі часу або простору.

Кумулятивний розподіл Пуассона

У багатьох застосуваннях увага зосереджена не на пошуку ймовірності спостереження рівно \( x \) подій, а на визначенні ймовірності спостереження не більше певної кількості подій у фіксованому часовому або просторовому інтервалі. Ця концепція описується кумулятивним розподілом Пуассона, який отримують шляхом додавання ймовірностей усіх результатів від \( x = 0 \) до обраного значення \( x = r \):

\[ F(r; \lambda) = \sum_{x=0}^{r} \frac{e^{-\lambda}\lambda^x}{x!}. \]

Звідси кумулятивна ймовірність того, що випадкова змінна \( X \) набуває значення, меншого або рівного \( r \), становить:

\[ P(X \le r) = e^{-\lambda}\sum_{x=0}^{r}\frac{\lambda^x}{x!} \]

Кожен член цієї суми представляє ймовірність виникнення рівно \( x \) подій, тоді як загальна сума виражає ймовірність спостереження щонайбільше \( r \) подій у заданому інтервалі. Ці ймовірності зазвичай отримують із кумулятивних таблиць Пуассона, які містять попередньо обчислені значення \( P(X \le r) \) для різних значень параметра \( \lambda \). Їхня структура схожа на структуру стандартної нормальної Z-таблиці:

λ x = 0 1 2 3 4
0.02 0.980 1.000
0.04 0.961 0.999 1.000
0.06 0.942 0.998 1.000
0.08 0.923 0.997 1.000
0.10 0.905 0.995 1.000
0.15 0.861 0.990 0.999 1.000

У цій таблиці кожне значення представляє кумулятивну ймовірність розподілу Пуассона. Щоб скористатися нею, знайдіть значення \(\lambda\) у рядках, яке вказує на середню очікувану кількість подій, і знайдіть значення x у стовпцях, яке представляє максимальну кількість розглянутих подій. Комірка на перетині цих двох значень дає кумулятивну ймовірність \( P(X \le x) \), тобто ймовірність того, що спостережувана кількість подій менша або дорівнює x для обраного \(\lambda\).

Там, де числове значення не відображається, ймовірність або надзвичайно мала, або практично дорівнює одиниці, і тому вона пропущена для зручності.

Приклад 1

Розглянемо кол-центр, який приймає дзвінки від клієнтів протягом дня. Історичні дані показують, що в середньому кожні десять хвилин надходить п'ять дзвінків. Ми хочемо визначити ймовірність того, що протягом десятихвилинного проміжку надійде рівно вісім дзвінків.


Нехай \( X \) буде випадковою величиною, що представляє кількість дзвінків, отриманих за десять хвилин. Припускаючи, що дзвінки надходять незалежно та з постійною середньою інтенсивністю, \( X \) має розподіл Пуассона з параметром \( \lambda = 5 \). Функція ймовірності має вигляд:

\[ P(X = x) = \frac{e^{-\lambda}\lambda^x}{x!} \]

Підставляючи \( x = 8 \) та \( \lambda = 5 \), ми отримаємо:

\[ P(X = 8) = \frac{e^{-5}5^8}{8!} \]

Маємо:

\[ P(X = 8) = \frac{e^{-5} \cdot 390625}{40320} \approx 0.0653 \]

Таким чином, ймовірність того, що за десять хвилин надійде рівно вісім дзвінків, становить приблизно 0.065, або 6.5%.


Однак обчислення не завжди є простими, і в таких випадках часто зручніше використовувати таблиці кумулятивного розподілу Пуассона. У цих таблицях кожен запис представляє кумулятивну ймовірність до певного значення \( x \). Отже, щоб знайти ймовірність отримання рівно восьми дзвінків, ми віднімаємо кумулятивну ймовірність до \( x = 7 \) від кумулятивної ймовірності до \( x = 8 \), оскільки обидва значення включають усі результати до відповідних меж.

\[ P(X \le 8) = 0.9319, \quad P(X \le 7) = 0.8666 \]

Різниця між ними дає:

\[ P(X = 8) = 0.9319 - 0.8666 = 0.0653 \]

Отже, ймовірність того, що протягом десятихвилинного проміжку надійде рівно вісім дзвінків, становить приблизно \(0.0653\), що означає, що існує приблизно \(6.5%\) шанс спостерігати таку конкретну кількість дзвінків за припущених умов.

Від біноміального до розподілу Пуассона

Розподіл Пуассона може бути виведений як гранична форма біноміального розподілу, коли кількість випробувань стає дуже великою, а ймовірність успіху в кожному випробуванні стає дуже малою. Уявімо розділення фіксованого проміжку часу \( T \) на \( n \) менших підпроміжків, кожен із яких має довжину \( T/n \). Ми припускаємо, що:

  • У кожному підпроміжку може відбутися не більше одного випадку.
  • Ймовірність виникнення в будь-якому підпроміжку пропорційна його довжині: \[ P(E_k) = \frac{\lambda}{n} \quad (k=1,2, \ldots, n) \] де \( \lambda = cT \) представляє очікувану кількість подій у всьому проміжку.
  • Усі події є незалежними одна від одної.

За цих умов кількість спостережуваних подій \( X \) має біноміальний розподіл: \[ P(X = x) = \binom{n}{x} p^x (1 - p)^{n - x} \quad \text{при } p = \frac{\lambda}{n} \]

Тепер розглянемо границю, коли \( n \) зростає нескінченно, а \( p \) стає дуже малим, при цьому їхній добуток \( n p = \lambda \) залишається сталим. У цій границі біноміальний вираз наближається до:

\[ p(x; \lambda) = P(X = x) = \frac{e^{-\lambda} \lambda^x}{x!} \]

що і є розподілом Пуассона. Розглянемо вивід формально:

\[ P(X = x) = \binom{n}{x} \left(\frac{\lambda}{n}\right)^x \left(1 – \frac{\lambda}{n}\right)^{n - x} \]

\[ = \frac{n!}{x!(n – x)!} \frac{\lambda^x}{n^x} \left(1 - \frac{\lambda}{n}\right)^n \left(1 - \frac{\lambda}{n}\right)^{-x} \]

При збільшенні \( n \):

\[ \left(1 - \frac{\lambda}{n}\right)^n \to e^{-\lambda}, \quad \frac{n!}{(n – x)! n^x} \to 1 \]

і таким чином ми отримаємо границю:

\[ p(x; \lambda) = P(X = x) = \frac{e^{-\lambda} \lambda^x}{x!} \]

Цей граничний зв'язок показує, що розподіл Пуассона може розглядатися як наближення біноміального закону для рідкісних подій, які відбуваються незалежно та рідко в часі або просторі.