Медіана та квантилі

2025-05-01

Центральне положення в розподілі даних

Медіана є ключовим показником центральної тенденції, що використовується для опису типового значення в наборі даних. У той час як середнє значення виражає чисельний баланс усіх значень, медіана зосереджується на положенні; вона визначає значення, яке ділить впорядковані дані на дві рівні за розміром групи. Половина спостережень знаходиться нижче медіани, а половина — вище неї. Оскільки вона залежить лише від відносного порядку даних, медіана залишається стабільною за наявності екстремальних значень. Це робить її особливо корисною, коли розподіл є асиметричним або коли викиди в іншому випадку спотворили б середнє арифметичне.

Формальне означення медіани можна висловити наступним чином: нехай $ n $ числових спостережень розташовані в порядку зростання:

\[ x_{1} \leq x_{2} \leq \dots \leq x_{n} \]

Якщо $ n $ є непарним, медіана відповідає центральному елементу послідовності:

\[ \tilde{M} = x_{\left(\frac{n+1}{2}\right)} \]

Якщо $ n $ є парним, вона визначається як середнє двох середніх значень:

\[ \tilde{M} = \frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2}+1\right)}}{2} \]

Це означення гарантує, що кількість точок даних, менших за медіану, дорівнює кількості точок, що є більшими, забезпечуючи ідеально збалансований розподіл набору даних.

Приклад 1

Щоб проілюструвати, як обчислюється медіана, коли кількість спостережень є непарною, розглянемо простий приклад, що показує щомісячну заробітну плату семи працівників, які працюють в одній компанії:

Працівник $x_i$	Зарплата ($)
$x_1$	1,200
$x_2$	1,300
$x_3$	1,400
$x_4$	1,500
$x_5$	3,000
$x_6$	3,200
$x_7$	4,000

Оскільки маємо $ n = 7 $ спостережень, медіана — це значення, що займає центральне положення:

\[ \tilde{M} = x_{\left(\frac{n+1}{2}\right)} = x_{4} \]

Четверте значення у впорядкованому списку дорівнює 1,500, отже медіана становить $\tilde{M} = 1,500$.

Це означає, що половина працівників заробляє менше ніж $ 1,500, а інша половина — більше.

Означення медіани на основі відстані

Медіану можна описати як точку, що мінімізує загальне абсолютне відхилення всіх спостережень:

\[ \tilde{M} = \arg \min_{m} \sum_{i=1}^{n} |x_i – m| \]

де $|x_i – m|$ — це сума абсолютних відхилень. Ця властивість підкреслює, що медіана визначає значення, яке найкраще відображає центральне положення розподілу, коли баланс визначається через відстані, а не через середні значення. Оскільки вона менше залежить від екстремальних значень, медіані часто віддають перевагу, коли дані є асиметричними або містять викиди.

Застосуємо цю властивість до даних з Прикладу 1, де заробітні плати (в доларах) становлять:

\[ 1200,\ 1300,\ 1400,\ 1500,\ 3000,\ 3200,\ 4000 \]

Обчислимо загальне абсолютне відхилення для кількох можливих значень $ m $.

Для $m= 1200$ маємо $\sum_{i=1}^{n} |x_i - m|$: \[ \begin{aligned} &= |1200 – 1200| + \\ &+ |1300 – 1200| \\ &+ |1400 – 1200| \\ &+ |1500 – 1200| \\ &+ |3000 – 1200| \\ &+ |3200 – 1200| \\ &+ |4000 – 1200| \\ &= 7,100 \end{aligned} \]

Для $m= 1300$ маємо $\sum_{i=1}^{n} |x_i – m|$: \[ \begin{aligned} &= |1200 - 1300| + \\ &+ |1300 - 1300| \\ &+ |1400 - 1300| \\ &+ |1500 - 1300| \\ &+ |3000 - 1300| \\ &+ |3200 - 1300| \\ &+ |4000 - 1300| \\ &= 6,700 \end{aligned} \]

Повторення цієї процедури для кожного значення $m$ дає наступні загальні результати.

$m$	$S(m) = \sum \|x_i - m\|$
1200	7,100
1300	6,700
1400	6,400
1500	6,300
3000	7,800
3200	8,400
4000	12,400

Отже, медіана дорівнює $1500$, оскільки це значення мінімізує загальну суму абсолютних відхилень, причому $S(m) = 6300$ є найменшим серед усіх обчислених.

Приклад 2

Тепер розглянемо інший приклад, цього разу з парною кількістю спостережень. Набір даних показує ціни продажу шести будинків, нещодавно проданих в одному околі:

Будинок $x_i$	Ціна $
$x_1$	180,000
$x_2$	190,000
$x_3$	200,000
$x_4$	220,000
$x_5$	300,000
$x_6$	450,000

Оскільки маємо $ n = 6 $ спостережень, медіана визначається як середнє значення двох центральних значень:

\[ \tilde{M} = \frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2}+1\right)}}{2} = \frac{x_{3} + x_{4}}{2} \]

Підставивши відповідні значення:

\[ \tilde{M} = \frac{200,000 + 220,000}{2} = 210,000 \]

Медіанна ціна будинку становить $ 210,000.

Це означає, що половина будинків була продана менш ніж за $ 210,000, а інша половина — дорожче.

Приклад 3

Тепер розглянемо дещо складніший випадок, де дані організовані у частотні класи. Коли дані згруповані за класами, медіана отримується шляхом інтерполяції всередині медіанного класу, що забезпечує оціночну міру центральної тенденції розподілу. У наступній таблиці показано щомісячне споживання електроенергії домогосподарствами (в кВт·год) для групи сімей, згруповане за чотирма класами:

Інтервал класу (кВт·год)	Частота ($f_i$)
(100, 200]	5
(200, 300]	8
(300, 400]	12
(400, 500]	5

Загальна кількість спостережень становить:

\[ n = \sum f_i = 5 + 8 + 12 + 5 = 30 \]

Щоб знайти медіану, ми спочатку визначимо клас, який містить середнє спостереження. Оскільки $ n = 30 $, середня позиція становить:

\[ \frac{n}{2} = \frac{30}{2} = 15 \]

Тепер визначимо кумулятивні частоти, які представляють прогресивну суму спостережень до кожного класу. У цьому прикладі кумулятивна частота дозволяє нам локалізувати клас, що містить середнє спостереження (тобто медіанний клас), за допомогою якого буде обчислено значення медіани.

Інтервал класу (кВт·год)	Частота ($f_i$)	Кумулятивна частота
(100, 200]	5	5
(200, 300]	8	13
(300, 400]	12	25
(400, 500]	5	30

15-те спостереження потрапляє в клас (300, 400], який, отже, є медіанним класом. Медіана для згрупованих даних визначається за формулою:

\[ \tilde{M} = L + \left( \frac{\frac{n}{2} - F}{f_m} \right) \times c \]

де:

$L$ = нижня межа медіанного класу
$F$ = кумулятивна частота перед медіанним класом
$f_m$ = частота медіанного класу
$c$ = ширина класу

Підставивши значення, отримаємо:

\[ L = 300, \quad F = 13, \quad f_m = 12, \quad c = 100 \]

\[ \tilde{M} = 300 + \left( \frac{15 - 13}{12} \right) \times 100 = 300 + \left( \frac{2}{12} \times 100 \right) = 316.7 \]

Медіанне споживання електроенергії становить приблизно 317 кВт·год.

Це означає, що половина сімей споживає менше ніж 317 кВт·год на місяць, а інша половина — більше.

Медіана та квантилі

Медіана є особливим випадком квантилів — статистичних мір, що поділяють розподіл на рівні частини. Зокрема, медіана відповідає квантилю, який відокремлює нижні 50% спостережень від верхніх 50%, і тому вона позначається як квантиль $x_{0.5}$.

Щоб ввести поняття квантиля, розглянемо дійсне число $p$, таке що $0 < p < 1$. Цей параметр визначає частку спостережень, що лежать нижче певного порогу в розподілі. Відповідне значення, що позначається як $x_p$, називається квантилем порядку $p$ і представляє точку, яка поділяє дані таким чином, що частка $p$ спостережень є меншими або рівними йому, а решта $1 - p$ є більшими.

З аналітичної точки зору, квантиль $x_p$ також можна визначити як значення, що мінімізує глобальну функцію втрат, отриману з суми асиметричних відхилень:

\[ g(x_i, \bar{x}) = \begin{cases} (1 - p)\, |x_i – \bar{x}| & \text{якщо } x_i \le \bar{x} \\[6pt] p\, |x_i - \bar{x}| & \text{якщо } x_i > \bar{x} \end{cases} \]

Квантилі, що найчастіше використовуються, включають:

$x_{0.25}$, перший квартиль, який визначає значення, нижче якого лежить $1/4$ розподілу.
$x_{0.50}$, медіана, яка поділяє дані на дві рівні половини $1/2$.
$x_{0.75}$, третій квартиль, який позначає значення, нижче якого лежить $3/4$ спостережень.

Міжквантильний розмах — це міра статистичної дисперсії, що виражає розсіювання центральної частини розподілу. Він визначається як різниця між двома квантилями порядку $p_1$ та $p_2$ $(0 < p_1 < p_2 < 1)$:

\[ IQR = x_{p_2} - x_{p_1} \]

Коли два квантилі відповідають першому та третьому квартилям, тобто $p_1 = 0.25$ та $p_2 = 0.75$, міжквантильний розмах стає:

\[ IQR = x_{0.75} - x_{0.25} \]

Цей інтервал містить центральні 50% спостережень і є особливо корисним для опису варіативності набору даних таким чином, що він стійкий до викидів, оскільки ігнорує екстремальні значення, розташовані в хвостах розподілу.

Приклад 4

Розглянемо невеликий набір даних, що представляє щомісячну заробітну плату десяти працівників компанії:

$i$	$x_i$ (Зарплата в $)
1	2,200
2	2,400
3	2,600
4	2,700
5	2,800
6	2,900
7	3,100
8	3,300
9	3,400
10	3,700

Оскільки маємо $n = 10$ спостережень, ми можемо обчислити позиції першого та третього квартилів як:

\[ Q_1 = x_{0.25} = x_{(n+1)\times0.25} = x_{2.75} \] \[ Q_3 = x_{0.75} = x_{(n+1)\times0.75} = x_{8.25} \]

Ці позиції відповідають дробовим рангам, тому ми інтерполюємо між найближчими спостереженнями.

$x_{2.75}$ лежить між 2-м та 3-м значеннями:
\[ x_{0.25} = 2400 + 0.75 \times (2600 – 2400) = 2400 + 150 = 2550 \]

$x_{8.25}$ лежить між 8-м та 9-м значеннями:
\[ x_{0.75} = 3300 + 0.25 \times (3400 - 3300) = 3300 + 25 = 3325 \]

Тепер обчислимо міжквантильний розмах між третім та першим квантилями. Отримаємо:

\[ IQR = x_{0.75} - x_{0.25} = 3325 - 2550 = 775 \]

Міжквантильний розмах становить 775 доларів.

Працівник \(x_i\)	Зарплата ($)
\(x_1\)	1,200
\(x_2\)	1,300
\(x_3\)	1,400
\(x_4\)	1,500
\(x_5\)	3,000
\(x_6\)	3,200
\(x_7\)	4,000

Медіана та квантилі

Центральне положення в розподілі даних

Приклад 1

Це означає, що половина працівників заробляє менше ніж $ 1,500, а інша половина — більше.

Означення медіани на основі відстані

Приклад 2

Це означає, що половина будинків була продана менш ніж за $ 210,000, а інша половина — дорожче.

Приклад 3

Це означає, що половина сімей споживає менше ніж 317 кВт·год на місяць, а інша половина — більше.

Медіана та квантилі

Приклад 4

Це означає, що центральні 50% працівників мають заробітну плату, яка потрапляє в діапазон 775 доларів.