Гіпергеометричний розподіл

2025-05-01

Вступ до гіпергеометричного розподілу

Гіпергеометричний розподіл — це дискретний розподіл ймовірностей, який описує кількість успіхів, отриманих при вибірці з скінченної сукупності без повернення. На відміну від біноміального розподілу, де кожне випробування є незалежним, а ймовірність успіху залишається сталою, гіпергеометричний випадок передбачає вибірки, які змінюють склад сукупності на кожному кроці. Як наслідок, ймовірність вибору успіху змінюється після кожного вилучення.

Щоб формалізувати цей сценарій, розглянемо скінченну сукупність, розділену на дві категорії: успіхи та невдачі. Вибірка фіксованого розміру здійснюється без повернення, і випадкова змінна представляє кількість успіхів, помічених у цій вибірці. Ця модель базується на наступних припущеннях:

Сукупність має фіксований розмір із відомою кількістю успіхів і невдач.
З сукупності вилучається вибірка попередньо визначеного розміру.
Вилучення здійснюється без повернення.
Кожне вилучення призводить до вибору або успіху, або невдачі.
Дискретна випадкова змінна \(X\) підраховує, скільки успіхів помічено у вибірці.

Формально гіпергеометричний розподіл визначається як:

\[ P(X = x) = \frac{\binom{K}{x}\,\binom{N-K}{n-x}}{\binom{N}{n}} \]

де:

\(N\) — загальний розмір сукупності.
\(K\) — кількість успіхів у сукупності.
\(N – K\) — кількість невдач у сукупності.
\(n\) — розмір вибірки, що вилучається без повернення.
\(x\) — кількість помічених успіхів.
\(\binom{K}{x}\) — біноміальний коефіцієнт, який підраховує кількість способів обрати \(x\) успіхів із \(K\) доступних.
\(\binom{N-K}{n-x}\) підраховує кількість способів обрати решту елементів із невдач.
\(\binom{N}{n}\) представляє загальну кількість різних вибірок розміром \(n\), які можна вилучити із сукупності розміром \(N\).

Цей розподіл використовується, коли незалежність не зберігається і ймовірність успіху змінюється після кожного вилучення. Він забезпечує надійну модель для вибірки зі скінченних сукупностей, як-от у контролі якості, де вироби перевіряються без повернення з партії з відомою кількістю дефектних і недефектних одиниць.

Ключові особливості

\[ \text{1. } \quad P(X = x) = \frac{\binom{K}{x}\,\binom{N-K}{\,n-x,}}{\binom{N}{n}} \quad x = 0,1,\dots,n \]
\[ \text{2. } \quad \mu = E(X) = n\,\frac{K}{N} \]
\[ \text{3. } \quad \sigma^{2} = \mathrm{Var}(X) = n\,\frac{K}{N}\left(1 - \frac{K}{N}\right)\frac{N-n}{N-1} \]
\[ \text{4. } \quad \sigma = \sqrt{\,n\,\frac{K}{N}\left(1 – \frac{K}{N}\right)\frac{N-n}{N-1}\,} \]

Кожен вираз узагальнює фундаментальний аспект гіпергеометричного розподілу, відображаючи, як він моделює кількість успіхів, отриманих без повернення, де знаходиться його математичне сподівання та як його варіативність залежить від розміру вибірки та скінченності сукупності.

Середнє значення гіпергеометричного розподілу

Середнє значення, або математичне сподівання гіпергеометричного розподілу, представляє середню кількість успіхів, яку можна очікувати при вибірці без повернення зі скінченної сукупності. Щоб формально обчислити середнє значення, почнемо з означення математичного сподівання:

\[ \mu = E(X) = \sum_{x=0}^{n} x \, P(X = x) \]

Підставляючи функцію ймовірності гіпергеометричного розподілу, отримаємо:

\[ E(X) = \sum_{x=0}^{n} x \,\frac{\binom{K}{x}\,\binom{N-K}{\,n-x\,}}{\binom{N}{n}} \]

Щоб спростити цей вираз, використаємо комбінаторну тотожність, яка пов'язує два споріднених біноміальних коефіцієнти шляхом зменшення як кількості доступних успіхів, так і розміру вибірки на одиницю:

\[ x\,\binom{K}{x} = K\,\binom{K-1}{\,x-1\,} \]

Застосування цієї тотожності до суми дає:

\[ E(X) = \frac{K}{\binom{N}{n}} \sum_{x=1}^{n} \binom{K-1}{\,x-1\,}\binom{N-K}{\,n-x\,} \]

Тепер зауважимо, що сума відповідає загальній ймовірності гіпергеометричного розподілу з параметрами \(N-1\), \(K-1\) та розміром вибірки \(n-1\). Отже, сума дорівнює:

\[ \binom{N-1}{\,n-1\,} \]

Підставляючи це у вираз вище, отримаємо:

\[ E(X) = \frac{K}{\binom{N}{n}} \, \binom{N-1}{\,n-1\,} \]

Використовуючи тотожність:

\[ \frac{\binom{N-1}{\,n-1\,}}{\binom{N}{n}} = \frac{n}{N} \]

ми отримаємо кінцевий вираз для середнього значення:

\[ \mu = E(X) = n\,\frac{K}{N} \]

Цей результат показує, що середнє значення гіпергеометричного розподілу залежить від розміру вибірки \(n\) та від частки успіхів у сукупності \(K/N\). У середньому ми очікуємо побачити частку \(K/N\) успіхів у будь-якій вибірці розміром \(n\), навіть якщо вилучення здійснюється без повернення.

Дисперсія гіпергеометричного розподілу

Дисперсія гіпергеометричного розподілу вимірює, наскільки кількість спостерехуваних успіхів очікувано відхиляється від середнього значення \( \mu = n\,K/N \). У той час як середнє значення описує центральну тенденцію розподілу, дисперсія кількісно визначає його розсіювання, тобто наскільки концентрованими або розсіяними є результати при вибірці без повернення з скінченної сукупності. Формально дисперсія визначається як:

\[ \sigma^{2} = \mathrm{Var}(X) = E(X^{2}) - [E(X)]^{2} \]

Щоб обчислити її, нагадаємо, що гіпергеометричний експеримент полягає у виборі \(n\) елементів без повернення зі скінченної сукупності розміром \(N\), що містить \(K\) успіхів та \(N-K\) невдач. Хоча вибірки не є незалежними, дисперсію можна вивести, розглянувши індикаторні змінні для кожного вибору. Нехай \(X\) — загальна кількість успіхів у вибірці, і нехай кожен вибір буде представлений індикаторною змінною:

\[ X = X_{1} + X_{2} + \cdots + X_{n} \]

де \(X_{i} = 1\), якщо \(I\)-й вибір є успіхом, і \(X_{i} = 0\) в іншому випадку. Кожен індикатор має математичне сподівання:

\[ E(X_{i}) = \frac{K}{N} \]

та дисперсію:

\[ \mathrm{Var}(X_{i}) = \frac{K}{N}\left(1 – \frac{K}{N}\right) \]

Однак, оскільки вибірка здійснюється без повернення, кожен вибір трохи змінює склад сукупності. Після того як витягнуто успіх, залишається менше успіхів, а після того як витягнуто невдачу, залишається менше невдач. У результаті вибірки впливають одна на одну, і загальна мінливість зменшується порівняно з біноміальним випадком. Враховуючи цей ефект, дисперсія набуває вигляду:

\[ \mathrm{Var}(X) = n\,\frac{K}{N}\left(1 – \frac{K}{N}\right)\frac{N-n}{\,N-1\,} \]

Отже, дисперсія гіпергеометричного розподілу дорівнює:

\[ \sigma^{2} = n\,\frac{K}{N}\left(1 - \frac{K}{N}\right)\frac{N-n}{\,N-1\,} \]

Цей вираз показує, як розсіювання розподілу залежить не тільки від частки успіхів \(K/N\), але й від того факту, що вибірка здійснюється без повернення.

Приклад 1

Партія містить 800 виробів, з яких 12% є дефектними. Інспектор відбирає вибірку з 25 виробів для контролю якості. Визначте розподіл випадкової змінної \(X\), яка підраховує кількість дефектних виробів, знайдених у вибірці. Хоча це може виглядати схожим на модель з незалежними випробуваннями, ситуація інша: як тільки виріб відібрано, він не повертається назад у партію. Ймовірність вибору дефектного виробу змінюється після кожного вибору, оскільки склад партії змінюється. З цієї причини вибірки не є незалежними.

Задачу можна розв'язати, використовуючи базові комбінаторні міркування. Кількість можливих вибірок з 25 виробів, які можна відібрати з партії з 800 виробів, дорівнює:

\[ \binom{800}{25} \]

У початковій партії є \(0.12 \times 800 = 96\) дефектних виробів та \(800 – 96 = 704\) недефектних виробів. Ймовірність того, що вибірка містить рівно \(x\) дефектних виробів, дорівнює:

\[ P(X = x) = \frac{ \binom{96}{x}\, \binom{704}{25 – x} }{ \binom{800}{25} } \]

Таким чином, \(X\) має гіпергеометричний розподіл з параметрами \(N = 800\), \(K = 96\) та \(n = 25\).

Порівняння з біноміальним розподілом

Гіпергеометричний розподіл часто порівнюють із біноміальним розподілом, оскільки обидва описують кількість успіхів, що спостерігаються у фіксованій кількості випробувань. Основна відмінність полягає в схемі вибірки.

Біноміальний розподіл передбачає незалежні випробування з постійною ймовірністю успіху, якби кожен вибір здійснювався з нескінченної сукупності або якби вибраний елемент повертався назад перед наступним вибором.
Гіпергеометричний розподіл, натомість, моделює вибірку без повернення з скінченної сукупності, тому кожен вибір дещо змінює склад елементів, що залишилися. Як наслідок, ймовірність успіху змінюється від вибору до вибору, а результати не є незалежними.

Попри ці відмінності, ці два розподіли тісно пов'язані. Коли розмір сукупності \(N\) великий порівняно з розміром вибірки \(n\), ефект вилучення кількох елементів стає незначним. У цьому випадку гіпергеометричний розподіл добре наближається біноміальним розподілом з параметром \(p = K/N\):

\[ \text{Hyp}(N, K, n) \;\approx\; \text{Bin}\!\left(n, \frac{K}{N}\right) \]

Це наближення підкреслює, як дві моделі описують схожі ситуації з різних точок зору: біноміальна зосереджена на ідеалізованих незалежних випробуваннях, тоді як гіпергеометрична відображає більш реалістичну поведінку вибірки зі скінченної сукупності.

Вибірка
Гіпергеометричний: без повернення
Біноміальний: з поверненням або незалежні випробування
Ймовірність успіху
Гіпергеометричний: змінюється після кожного вибору
Біноміальний: залишається постійною
Незалежність
Гіпергеометричний: залежні вибори
Біноміальний: незалежні випробування
Сукупність
Гіпергеометричний: скінченна сукупність має явне значення
Біноміальний: сукупність розглядається як нескінченна або несуттєва
Коли використовується
Гіпергеометричний: вибірковий контроль партій, контроль якості, задачі з картами
Біноміальний: повторні експерименти Бернульлі
Концептуальна ідея
Гіпергеометричний: вилучення елементів змінює майбутні ймовірності
Біноміальний: кожен вибір залишає ймовірності незмінними