Що таке вибірковий розподіл?

Вибірковий розподіл — це розподіл ймовірностей статистики, такої як середнє значення вибірки або дисперсія вибірки, отриманої з багатьох можливих вибірок одного розміру, відібраних із генеральної сукупності.

Чому середнє значення вибірки має нормальний розподіл, коли вибірка велика?

Завдяки Центральній граничній теоремі, зі збільшенням розміру вибірки розподіл середнього значення вибірки має тенденцію ставати нормальним, навіть якщо початкова генеральна сукупність не має такого розподілу.

Як пов'язані середнє значення вибірки та середнє значення генеральної сукупності?

Середнє значення всіх можливих середніх значень вибірок дорівнює середньому значенню генеральної сукупності, а мінливість цих середніх значень вибірок залежить від стандартного відхилення генеральної сукупності та розміру вибірки.

Вибіркові розподіли

2025-05-01

Від сукупностей до вибірок

Вибірковий розподіл представляє розподіл статистики, отриманої з усіх можливих вибірок заданого розміру, відібраних із сукупності. У статистиці деякі проблеми через розмір або складність спостережуваних даних не дозволяють проводити прямий аналіз кожного елемента в сукупності.

З цієї причини стає необхідним обрати вибірку, тобто меншу множину спостережень, відібраних із сукупності. Вибірка — це репрезентативна підмножина сукупності, обрана випадковим чином, щоб мінімізувати потенційні викривлення або систематичну похибку, що виникають через інші критерії відбору. Процес відбору вибірки називається вибіркою.

Інференційна статистика використовує вибірки, щоб на основі їхніх спостережуваних характеристик зробити висновок про властивості або параметри всієї сукупності. Статистика — це значення змінної, обчислене за даними вибірки. Прикладами статистик є вибіркове середнє, вибірковий дисперсія та вибіркова частка. Вибіркові розподіли описують, як ці значення змінюються від однієї вибірки до іншої, коли процес відбору повторюється для тієї самої сукупності.

Середнє, мода та медіана вибіркового розподілу

Також для вибіркових розподілів можливо визначити середнє, моду та медіану, кожна з яких по-різному описує центральну тенденцію розподілу. Вибіркове середнє відрізняється від простого арифметичного середнього тим, що воно представляє середнє значення спостережуваних величин у вибірці, отриманій із сукупності, і використовується як оцінка середнього значення сукупності. На відміну від арифметичного середнього, яке описує фіксований набір відомих даних, вибіркове середнє відіграє інференційну роль, оскільки воно змінюється від вибірки до вибірки та має власний вибірковий розподіл.

У формальних термінах вибіркове середнє визначається як

\[ \overline{X} = \frac{1}{n} \sum_{i=1}^{n} X_i \]

\( \overline{X} \) представляє вибіркове середнє.
\( n \) — обсяг вибірки.
\( X_i \) позначає значення \( i \)-го спостереження у вибірці.

Наприклад, розглянемо вибірку \( X \), що складається з \(5\) спостережуваних значень:

\( i \)	1	2	3	4	5
\( X_i \)	4	6	5	7	8

Вибіркове середнє обчислюється як

\[ \overline{X} = \frac{1}{n} \sum_{i=1}^{n} X_i = \frac{1}{5}(4 + 6 + 5 + 7 + 8) \]

\[ \overline{X} = \frac{30}{5} = 6 \]

Отже, вибіркове середнє дорівнює \( \overline{X} = 6 \).

Варто зауважити, що це середнє є репрезентативним лише для конкретної розглянутої вибірки, а не для всіх можливих вибірок, які могли б бути отримані із сукупності, і не для самої сукупності.

Вибіркова мода, з іншого боку, — це значення, яке найчастіше зустрічається у вибірці. Вона представляє найпоширеніше спостереження і вказує на те, де значення вибірки мають тенденцію групуватися. Формально вибіркова мода може бути виражена як

\[ \mathrm{Mode}(X) = x_k \, : \, f(x_k) = \max_{x_i} f(x_i) \]

\( X \) позначає випадкову величину, що представляє дані вибірки.
\( f(x_i) \) позначає частоту значення \( x_i \) у вибірці
\( x_k \) — це спостереження, яке зустрічається найчастіше.

Розглянемо вибірку \( X \), що складається з 7 спостережуваних значень:

\( i \)	1	2	3	4	5	6	7
\( X_i \)	4	6	5	6	8	6	7

Вибірковою модою є значення, яке найчастіше зустрічається у вибірці. У цьому випадку значення \( 6 \) з'являється тричі, що більше ніж будь-яке інше спостереження. Отже, вибіркова мода дорівнює \( 6 \).

Важливо зауважити, що мода чутлива до частоти окремих спостережень і може бути не єдиною — можуть існувати кілька мод, якщо два або більше значень зустрічаються з однаковою найвищою частотою. У таких випадках розподіл називають мультимодальним.

Вибіркова медіана, з іншого боку, визначається як середнє значення впорядкованої вибірки.
Вона поділяє набір даних на дві рівні частини, де 50% спостережень знаходяться нижче і 50% вище цього значення. Формально вибіркова медіана може бути виражена як

\[ \tilde{x} = \begin{cases} x_{\frac{n+1}{2}}, & \text{якщо } n \text{ непарне} \\[6pt] \frac{1}{2}\left(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}\right), & \text{якщо } n \text{ парне} \end{cases} \]

\( x_i \) — впорядковані спостереження вибірки.
\( n \) — обсяг вибірки.

Розглянемо вибірку \( X \), що складається з 6 спостережуваних значень:

\( i \)	1	2	3	4	5	6
\( X_i \)	4	5	6	8	9	10

Щоб знайти вибіркову медіану, спочатку необхідно впорядкувати спостереження від найменшого до найбільшого (що в цьому випадку вже зроблено). Коли обсяг вибірки \( n \) є парним, медіана обчислюється як середнє значення двох центральних величин:

\[ \begin{align} \tilde{x} = \frac{1}{2}\left(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}\right) \end{align} \]

Підставляючи відповідні значення, маємо:

\[ \begin{align} \tilde{x} = \frac{1}{2}(x_3 + x_4) = \frac{1}{2}(6 + 8) = 7 \end{align} \]

Отже, вибіркова медіана дорівнює \( \tilde{x} = 7 \).

Медіана менш чутлива до екстремальних значень (викидів) порівняно із середнім, що робить її більш стійкою мірою центральної тенденції у вибірках, що містять скошени або несиметричні дані.

Вибіркова дисперсія та вибіркове середнє квадратичне відхилення

Вибіркова дисперсія вимірює, як спостереження у вибірці розподілені відносно вибіркового середнього. Більші значення дисперсії вказують на те, що спостереження більш розсіяні навколо середнього, тоді як менші значення вказують на те, що вони більш зосереджені.
Формально, якщо задано \( X_1, X_2, \dots, X_n \) випадкових величин, вибіркова дисперсія визначається як

\[ \begin{align} S^2 = \frac{1}{n – 1} \sum_{i=1}^{n} (X_i - \overline{X})^2 \end{align} \]

\( S^2 \) позначає вибіркову дисперсію
\( \overline{X} \) — вибіркове середнє
\( n \) — обсяг вибірки.

Вибіркова дисперсія відрізняється від простої дисперсії тим, що вона ділиться на \( n – 1 \) замість \( n \), де \( n – 1 \) представляє кількість ступенів свободи. Це коригування враховує той факт, що вибіркове середнє, яке використовується в обчисленні, обмежує одне спостереження і залишає лише \( n – 1 \) значень вільними для зміни. Ділення на \( n – 1 \) компенсує це обмеження та гарантує, що вибіркова дисперсія є незалежним оцінювачем дисперсії генеральної сукупності.

Вибіркову дисперсію також можна записати в еквівалентній обчислювальній формі, яка дозволяє уникнути явного обчислення вибіркового середнього. Цей альтернативний вираз отримано шляхом розкриття квадратів різниць та спрощення членів формули дисперсії:

\[ S^2 = \frac{1}{n(n - 1)} \left[ n \sum_{i=1}^{n} X_i^2 - \left( \sum_{i=1}^{n} X_i \right)^2 \right] \]

Таке формулювання особливо корисне для ручних обчислень або при роботі з великими наборами даних, оскільки воно зменшує потребу в повторному відніманні середнього та мінімізує помилки округлення.

Вибіркове середнє квадратичне відхилення визначається як квадратний корінь з вибіркової дисперсії \( S^2 \). Воно дає міру розсіювання, виражену в тих самих одиницях, що й дані, вказуючи на те, наскільки в середньому спостереження відхиляються від вибіркового середнього.
Формально воно виражається як

\[ S = \sqrt{S^2} = \sqrt{\frac{1}{n – 1} \sum_{i=1}^{n} (X_i - \overline{X})^2} \]

Менше значення \( S \) вказує на те, що точки даних тісно зосереджені навколо середнього, тоді як більше значення свідчить про більшу мінливість у вибірці.

Вибірковий розмах

Вибірковий розмах визначається як різниця між найбільшим і найменшим спостереженими значеннями у вибірці. Він забезпечує простий захід розсіювання, який вказує на загальний розмах даних, хоча він дуже чутливий до екстремальних значень. Формально його можна виразити як

\[ R = X_{\text{max}} - X_{\text{min}} \]

де \( X_{\text{max}} \) та \( X_{\text{min}} \) представляють відповідно максимальне та мінімальне спостереження у вибірці.

Зв'язок із нормальним розподілом

Як наслідок центральної граничної теореми, коли обсяг вибірки \( n \) стає великим, розподіл вибіркового середнього \( \overline{X} \) наближається до нормального розподілу з середнім \( \mu \) та дисперсією \( \frac{\sigma^2}{n} \). Це можна виразити через стандартизовану змінну

\[ Z = \frac{\overline{X} – \mu}{\sigma / \sqrt{n}} \]

яка при достатньо великому \( n \) приблизно відповідає стандартному нормальному розподілу

\[ Z \sim \mathcal{N}(x; 0, 1) \]

незалежно від форми розподілу генеральної сукупності. Не існує точного значення \( n \), яке гарантувало б нормальність, оскільки центральна гранична теорема описує асимптотичну поведінку.
Однак на практиці вибіркове середнє має тенденцію бути приблизно нормальним, коли:

\( n \ge 30 \) для більшості розподілів генеральної сукупності з скінченною дисперсією.
\( n < 30 \), якщо генеральна сукупність вже близька до нормального розподілу.
\( n > 50 \) або \( n > 100 \), якщо розподіл генеральної сукупності має сильний перекіс або містить викиди.

Загалом, чим більший обсяг вибірки, тим ближче вибірковий розподіл середнього до нормального розподілу.

Приклад 1

Щоб показати на практиці, як вибіркові розподіли пов'язані з нормальним розподілом, розглянемо компанію, що виготовляє промислові машини, термін експлуатації яких має нормальний розподіл із середнім значенням 5 000 годин і стандартним відхиленням 200 годин.
Ми хочемо обчислити ймовірність того, що випадкова вибірка з 25 машин матиме середній термін експлуатації менше 4 950 годин.

Згідно з Центральною граничною теоремою, вибірковий розподіл \( \overline{X} \) буде приблизно нормальним, із середнім значенням

\[ \mu_{\overline{X}} = 5000 \]

та стандартним відхиленням

\[ \sigma_{\overline{X}} = \frac{\sigma}{\sqrt{n}} = \frac{200}{\sqrt{25}} = 40 \]

Для отриманого середнього значення вибірки \( \overline{X} = 4950 \) ми можемо застосувати формулу стандартизації, щоб перетворити його на відповідне \( z \)-значення. Перетворення середнього значення вибірки у стандартну нормальну змінну задається формулою:

\[ Z = \frac{\overline{X} - \mu_{\overline{X}}}{\sigma_{\overline{X}}} \]

Підставляючи відомі значення, ми отримаємо

\[ z = \frac{4{,}950 – 5{,}000}{40} = \frac{-50}{40} = -1.25 \]

Це означає, що середнє значення вибірки 4950 годин на 1,25 стандартного відхилення менше за очікуване середнє значення генеральної сукупності. Отже, ми можемо виразити ймовірність, пов'язану із середнім значенням вибірки, через стандартизовану змінну \( Z \). Підставивши відповідне \( z \)-значення, ймовірність набуває вигляду

\[ P(\overline{X} < 4{,}950) = P(Z < -1.25) \]

Використовуючи таблицю стандартного нормального розподілу Z, ми знаходимо, що

\[ P(Z < -1.25) = 0.1056 \]