Медіана та квантилі
Центральне положення в розподілі даних
Медіана є ключовим показником центральної тенденції, що використовується для опису типового значення в наборі даних. У той час як середнє значення виражає чисельний баланс усіх значень, медіана зосереджується на положенні; вона визначає значення, яке ділить впорядковані дані на дві рівні за розміром групи. Половина спостережень знаходиться нижче медіани, а половина — вище неї. Оскільки вона залежить лише від відносного порядку даних, медіана залишається стабільною за наявності екстремальних значень. Це робить її особливо корисною, коли розподіл є асиметричним або коли викиди в іншому випадку спотворили б середнє арифметичне.
Формальне означення медіани можна висловити наступним чином: нехай \( n \) числових спостережень розташовані в порядку зростання:
\[ x_{1} \leq x_{2} \leq \dots \leq x_{n} \]
Якщо \( n \) є непарним, медіана відповідає центральному елементу послідовності:
\[ \tilde{M} = x_{\left(\frac{n+1}{2}\right)} \]
Якщо \( n \) є парним, вона визначається як середнє двох середніх значень:
\[ \tilde{M} = \frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2}+1\right)}}{2} \]
Це означення гарантує, що кількість точок даних, менших за медіану, дорівнює кількості точок, що є більшими, забезпечуючи ідеально збалансований розподіл набору даних.
Приклад 1
Щоб проілюструвати, як обчислюється медіана, коли кількість спостережень є непарною, розглянемо простий приклад, що показує щомісячну заробітну плату семи працівників, які працюють в одній компанії:
| Працівник \(x_i\) | Зарплата ($) |
|---|---|
| \(x_1\) | 1,200 |
| \(x_2\) | 1,300 |
| \(x_3\) | 1,400 |
| \(x_4\) | 1,500 |
| \(x_5\) | 3,000 |
| \(x_6\) | 3,200 |
| \(x_7\) | 4,000 |
Оскільки маємо \( n = 7 \) спостережень, медіана — це значення, що займає центральне положення:
\[ \tilde{M} = x_{\left(\frac{n+1}{2}\right)} = x_{4} \]
Четверте значення у впорядкованому списку дорівнює 1,500, отже медіана становить \(\tilde{M} = 1,500\).
Це означає, що половина працівників заробляє менше ніж $ 1,500, а інша половина — більше.
Означення медіани на основі відстані
Медіану можна описати як точку, що мінімізує загальне абсолютне відхилення всіх спостережень:
\[ \tilde{M} = \arg \min_{m} \sum_{i=1}^{n} |x_i – m| \]
де \(|x_i – m|\) — це сума абсолютних відхилень. Ця властивість підкреслює, що медіана визначає значення, яке найкраще відображає центральне положення розподілу, коли баланс визначається через відстані, а не через середні значення. Оскільки вона менше залежить від екстремальних значень, медіані часто віддають перевагу, коли дані є асиметричними або містять викиди.
Застосуємо цю властивість до даних з Прикладу 1, де заробітні плати (в доларах) становлять:
\[ 1200,\ 1300,\ 1400,\ 1500,\ 3000,\ 3200,\ 4000 \]
Обчислимо загальне абсолютне відхилення для кількох можливих значень \( m \).
Для \(m= 1200\) маємо \(\sum_{i=1}^{n} |x_i - m|\): \[ \begin{aligned} &= |1200 – 1200| + \\ &+ |1300 – 1200| \\ &+ |1400 – 1200| \\ &+ |1500 – 1200| \\ &+ |3000 – 1200| \\ &+ |3200 – 1200| \\ &+ |4000 – 1200| \\ &= 7,100 \end{aligned} \]
Для \(m= 1300\) маємо \(\sum_{i=1}^{n} |x_i – m|\): \[ \begin{aligned} &= |1200 - 1300| + \\ &+ |1300 - 1300| \\ &+ |1400 - 1300| \\ &+ |1500 - 1300| \\ &+ |3000 - 1300| \\ &+ |3200 - 1300| \\ &+ |4000 - 1300| \\ &= 6,700 \end{aligned} \]
Повторення цієї процедури для кожного значення \(m\) дає наступні загальні результати.
| \(m\) | \(S(m) = \sum |x_i - m|\) |
|---|---|
| 1200 | 7,100 |
| 1300 | 6,700 |
| 1400 | 6,400 |
| 1500 | 6,300 |
| 3000 | 7,800 |
| 3200 | 8,400 |
| 4000 | 12,400 |
Отже, медіана дорівнює \(1500\), оскільки це значення мінімізує загальну суму абсолютних відхилень, причому \(S(m) = 6300\) є найменшим серед усіх обчислених.
Приклад 2
Тепер розглянемо інший приклад, цього разу з парною кількістю спостережень. Набір даних показує ціни продажу шести будинків, нещодавно проданих в одному околі:
| Будинок \(x_i\) | Ціна $ |
|---|---|
| \(x_1\) | 180,000 |
| \(x_2\) | 190,000 |
| \(x_3\) | 200,000 |
| \(x_4\) | 220,000 |
| \(x_5\) | 300,000 |
| \(x_6\) | 450,000 |
Оскільки маємо \( n = 6 \) спостережень, медіана визначається як середнє значення двох центральних значень:
\[ \tilde{M} = \frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2}+1\right)}}{2} = \frac{x_{3} + x_{4}}{2} \]
Підставивши відповідні значення:
\[ \tilde{M} = \frac{200,000 + 220,000}{2} = 210,000 \]
Медіанна ціна будинку становить $ 210,000.
Це означає, що половина будинків була продана менш ніж за $ 210,000, а інша половина — дорожче.
Приклад 3
Тепер розглянемо дещо складніший випадок, де дані організовані у частотні класи. Коли дані згруповані за класами, медіана отримується шляхом інтерполяції всередині медіанного класу, що забезпечує оціночну міру центральної тенденції розподілу. У наступній таблиці показано щомісячне споживання електроенергії домогосподарствами (в кВт·год) для групи сімей, згруповане за чотирма класами:
| Інтервал класу (кВт·год) | Частота (\(f_i\)) |
|---|---|
| (100, 200] | 5 |
| (200, 300] | 8 |
| (300, 400] | 12 |
| (400, 500] | 5 |
Загальна кількість спостережень становить:
\[ n = \sum f_i = 5 + 8 + 12 + 5 = 30 \]
Щоб знайти медіану, ми спочатку визначимо клас, який містить середнє спостереження. Оскільки \( n = 30 \), середня позиція становить:
\[ \frac{n}{2} = \frac{30}{2} = 15 \]
Тепер визначимо кумулятивні частоти, які представляють прогресивну суму спостережень до кожного класу. У цьому прикладі кумулятивна частота дозволяє нам локалізувати клас, що містить середнє спостереження (тобто медіанний клас), за допомогою якого буде обчислено значення медіани.
| Інтервал класу (кВт·год) | Частота (\(f_i\)) | Кумулятивна частота |
|---|---|---|
| (100, 200] | 5 | 5 |
| (200, 300] | 8 | 13 |
| (300, 400] | 12 | 25 |
| (400, 500] | 5 | 30 |
15-те спостереження потрапляє в клас (300, 400], який, отже, є медіанним класом. Медіана для згрупованих даних визначається за формулою:
\[ \tilde{M} = L + \left( \frac{\frac{n}{2} - F}{f_m} \right) \times c \]
де:
- \(L\) = нижня межа медіанного класу
- \(F\) = кумулятивна частота перед медіанним класом
- \(f_m\) = частота медіанного класу
- \(c\) = ширина класу
Підставивши значення, отримаємо:
\[ L = 300, \quad F = 13, \quad f_m = 12, \quad c = 100 \]
\[ \tilde{M} = 300 + \left( \frac{15 - 13}{12} \right) \times 100 = 300 + \left( \frac{2}{12} \times 100 \right) = 316.7 \]
Медіанне споживання електроенергії становить приблизно 317 кВт·год.
Це означає, що половина сімей споживає менше ніж 317 кВт·год на місяць, а інша половина — більше.
Медіана та квантилі
Медіана є особливим випадком квантилів — статистичних мір, що поділяють розподіл на рівні частини. Зокрема, медіана відповідає квантилю, який відокремлює нижні 50% спостережень від верхніх 50%, і тому вона позначається як квантиль \(x_{0.5}\).
Щоб ввести поняття квантиля, розглянемо дійсне число \(p\), таке що \(0 < p < 1\). Цей параметр визначає частку спостережень, що лежать нижче певного порогу в розподілі. Відповідне значення, що позначається як \(x_p\), називається квантилем порядку \(p\) і представляє точку, яка поділяє дані таким чином, що частка \(p\) спостережень є меншими або рівними йому, а решта \(1 - p\) є більшими.
З аналітичної точки зору, квантиль \(x_p\) також можна визначити як значення, що мінімізує глобальну функцію втрат, отриману з суми асиметричних відхилень:
\[ g(x_i, \bar{x}) = \begin{cases} (1 - p)\, |x_i – \bar{x}| & \text{якщо } x_i \le \bar{x} \\[6pt] p\, |x_i - \bar{x}| & \text{якщо } x_i > \bar{x} \end{cases} \]
Квантилі, що найчастіше використовуються, включають:
- \(x_{0.25}\), перший квартиль, який визначає значення, нижче якого лежить \(1/4\) розподілу.
- \(x_{0.50}\), медіана, яка поділяє дані на дві рівні половини \(1/2\).
- \(x_{0.75}\), третій квартиль, який позначає значення, нижче якого лежить \(3/4\) спостережень.
Міжквантильний розмах — це міра статистичної дисперсії, що виражає розсіювання центральної частини розподілу. Він визначається як різниця між двома квантилями порядку \(p_1\) та \(p_2\) \((0 < p_1 < p_2 < 1)\):
\[ IQR = x_{p_2} - x_{p_1} \]
Коли два квантилі відповідають першому та третьому квартилям, тобто \(p_1 = 0.25\) та \(p_2 = 0.75\), міжквантильний розмах стає:
\[ IQR = x_{0.75} - x_{0.25} \]
Цей інтервал містить центральні 50% спостережень і є особливо корисним для опису варіативності набору даних таким чином, що він стійкий до викидів, оскільки ігнорує екстремальні значення, розташовані в хвостах розподілу.
Приклад 4
Розглянемо невеликий набір даних, що представляє щомісячну заробітну плату десяти працівників компанії:
| \(i\) | \(x_i\) (Зарплата в $) |
|---|---|
| 1 | 2,200 |
| 2 | 2,400 |
| 3 | 2,600 |
| 4 | 2,700 |
| 5 | 2,800 |
| 6 | 2,900 |
| 7 | 3,100 |
| 8 | 3,300 |
| 9 | 3,400 |
| 10 | 3,700 |
Оскільки маємо \(n = 10\) спостережень, ми можемо обчислити позиції першого та третього квартилів як:
\[ Q_1 = x_{0.25} = x_{(n+1)\times0.25} = x_{2.75} \] \[ Q_3 = x_{0.75} = x_{(n+1)\times0.75} = x_{8.25} \]
Ці позиції відповідають дробовим рангам, тому ми інтерполюємо між найближчими спостереженнями.
\(x_{2.75}\) лежить між 2-м та 3-м значеннями:
\[
x_{0.25} = 2400 + 0.75 \times (2600 – 2400) = 2400 + 150 = 2550
\]
\(x_{8.25}\) лежить між 8-м та 9-м значеннями:
\[
x_{0.75} = 3300 + 0.25 \times (3400 - 3300) = 3300 + 25 = 3325
\]
Тепер обчислимо міжквантильний розмах між третім та першим квантилями. Отримаємо:
\[ IQR = x_{0.75} - x_{0.25} = 3325 - 2550 = 775 \]
Міжквантильний розмах становить 775 доларів.