Медіана та квантилі

Центральне положення в розподілі даних

Медіана є ключовим показником центральної тенденції, що використовується для опису типового значення в наборі даних. У той час як середнє значення виражає чисельний баланс усіх значень, медіана зосереджується на положенні; вона визначає значення, яке ділить впорядковані дані на дві рівні за розміром групи. Половина спостережень знаходиться нижче медіани, а половина — вище неї. Оскільки вона залежить лише від відносного порядку даних, медіана залишається стабільною за наявності екстремальних значень. Це робить її особливо корисною, коли розподіл є асиметричним або коли викиди в іншому випадку спотворили б середнє арифметичне.


Формальне означення медіани можна висловити наступним чином: нехай \( n \) числових спостережень розташовані в порядку зростання:

\[ x_{1} \leq x_{2} \leq \dots \leq x_{n} \]

Якщо \( n \) є непарним, медіана відповідає центральному елементу послідовності:

\[ \tilde{M} = x_{\left(\frac{n+1}{2}\right)} \]

Якщо \( n \) є парним, вона визначається як середнє двох середніх значень:

\[ \tilde{M} = \frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2}+1\right)}}{2} \]

Це означення гарантує, що кількість точок даних, менших за медіану, дорівнює кількості точок, що є більшими, забезпечуючи ідеально збалансований розподіл набору даних.

Приклад 1

Щоб проілюструвати, як обчислюється медіана, коли кількість спостережень є непарною, розглянемо простий приклад, що показує щомісячну заробітну плату семи працівників, які працюють в одній компанії:

Працівник \(x_i\) Зарплата ($)
\(x_1\) 1,200
\(x_2\) 1,300
\(x_3\) 1,400
\(x_4\) 1,500
\(x_5\) 3,000
\(x_6\) 3,200
\(x_7\) 4,000

Оскільки маємо \( n = 7 \) спостережень, медіана — це значення, що займає центральне положення:

\[ \tilde{M} = x_{\left(\frac{n+1}{2}\right)} = x_{4} \]

Четверте значення у впорядкованому списку дорівнює 1,500, отже медіана становить \(\tilde{M} = 1,500\).

Це означає, що половина працівників заробляє менше ніж $ 1,500, а інша половина — більше.

Означення медіани на основі відстані

Медіану можна описати як точку, що мінімізує загальне абсолютне відхилення всіх спостережень:

\[ \tilde{M} = \arg \min_{m} \sum_{i=1}^{n} |x_i – m| \]

де \(|x_i – m|\) — це сума абсолютних відхилень. Ця властивість підкреслює, що медіана визначає значення, яке найкраще відображає центральне положення розподілу, коли баланс визначається через відстані, а не через середні значення. Оскільки вона менше залежить від екстремальних значень, медіані часто віддають перевагу, коли дані є асиметричними або містять викиди.


Застосуємо цю властивість до даних з Прикладу 1, де заробітні плати (в доларах) становлять:

\[ 1200,\ 1300,\ 1400,\ 1500,\ 3000,\ 3200,\ 4000 \]

Обчислимо загальне абсолютне відхилення для кількох можливих значень \( m \).

Для \(m= 1200\) маємо \(\sum_{i=1}^{n} |x_i - m|\): \[ \begin{aligned} &= |1200 – 1200| + \\ &+ |1300 – 1200| \\ &+ |1400 – 1200| \\ &+ |1500 – 1200| \\ &+ |3000 – 1200| \\ &+ |3200 – 1200| \\ &+ |4000 – 1200| \\ &= 7,100 \end{aligned} \]

Для \(m= 1300\) маємо \(\sum_{i=1}^{n} |x_i – m|\): \[ \begin{aligned} &= |1200 - 1300| + \\ &+ |1300 - 1300| \\ &+ |1400 - 1300| \\ &+ |1500 - 1300| \\ &+ |3000 - 1300| \\ &+ |3200 - 1300| \\ &+ |4000 - 1300| \\ &= 6,700 \end{aligned} \]

Повторення цієї процедури для кожного значення \(m\) дає наступні загальні результати.

\(m\) \(S(m) = \sum |x_i - m|\)
1200 7,100
1300 6,700
1400 6,400
1500 6,300
3000 7,800
3200 8,400
4000 12,400

Отже, медіана дорівнює \(1500\), оскільки це значення мінімізує загальну суму абсолютних відхилень, причому \(S(m) = 6300\) є найменшим серед усіх обчислених.

Приклад 2

Тепер розглянемо інший приклад, цього разу з парною кількістю спостережень. Набір даних показує ціни продажу шести будинків, нещодавно проданих в одному околі:

Будинок \(x_i\) Ціна $
\(x_1\) 180,000
\(x_2\) 190,000
\(x_3\) 200,000
\(x_4\) 220,000
\(x_5\) 300,000
\(x_6\) 450,000

Оскільки маємо \( n = 6 \) спостережень, медіана визначається як середнє значення двох центральних значень:

\[ \tilde{M} = \frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2}+1\right)}}{2} = \frac{x_{3} + x_{4}}{2} \]

Підставивши відповідні значення:

\[ \tilde{M} = \frac{200,000 + 220,000}{2} = 210,000 \]

Медіанна ціна будинку становить $ 210,000.

Це означає, що половина будинків була продана менш ніж за $ 210,000, а інша половина — дорожче.

Приклад 3

Тепер розглянемо дещо складніший випадок, де дані організовані у частотні класи. Коли дані згруповані за класами, медіана отримується шляхом інтерполяції всередині медіанного класу, що забезпечує оціночну міру центральної тенденції розподілу. У наступній таблиці показано щомісячне споживання електроенергії домогосподарствами (в кВт·год) для групи сімей, згруповане за чотирма класами:

Інтервал класу (кВт·год) Частота (\(f_i\))
(100, 200] 5
(200, 300] 8
(300, 400] 12
(400, 500] 5

Загальна кількість спостережень становить:

\[ n = \sum f_i = 5 + 8 + 12 + 5 = 30 \]

Щоб знайти медіану, ми спочатку визначимо клас, який містить середнє спостереження. Оскільки \( n = 30 \), середня позиція становить:

\[ \frac{n}{2} = \frac{30}{2} = 15 \]

Тепер визначимо кумулятивні частоти, які представляють прогресивну суму спостережень до кожного класу. У цьому прикладі кумулятивна частота дозволяє нам локалізувати клас, що містить середнє спостереження (тобто медіанний клас), за допомогою якого буде обчислено значення медіани.

Інтервал класу (кВт·год) Частота (\(f_i\)) Кумулятивна частота
(100, 200] 5 5
(200, 300] 8 13
(300, 400] 12 25
(400, 500] 5 30

15-те спостереження потрапляє в клас (300, 400], який, отже, є медіанним класом. Медіана для згрупованих даних визначається за формулою:

\[ \tilde{M} = L + \left( \frac{\frac{n}{2} - F}{f_m} \right) \times c \]

де:

  • \(L\) = нижня межа медіанного класу
  • \(F\) = кумулятивна частота перед медіанним класом
  • \(f_m\) = частота медіанного класу
  • \(c\) = ширина класу

Підставивши значення, отримаємо:

\[ L = 300, \quad F = 13, \quad f_m = 12, \quad c = 100 \]

\[ \tilde{M} = 300 + \left( \frac{15 - 13}{12} \right) \times 100 = 300 + \left( \frac{2}{12} \times 100 \right) = 316.7 \]

Медіанне споживання електроенергії становить приблизно 317 кВт·год.

Це означає, що половина сімей споживає менше ніж 317 кВт·год на місяць, а інша половина — більше.

Медіана та квантилі

Медіана є особливим випадком квантилів — статистичних мір, що поділяють розподіл на рівні частини. Зокрема, медіана відповідає квантилю, який відокремлює нижні 50% спостережень від верхніх 50%, і тому вона позначається як квантиль \(x_{0.5}\).

Щоб ввести поняття квантиля, розглянемо дійсне число \(p\), таке що \(0 < p < 1\). Цей параметр визначає частку спостережень, що лежать нижче певного порогу в розподілі. Відповідне значення, що позначається як \(x_p\), називається квантилем порядку \(p\) і представляє точку, яка поділяє дані таким чином, що частка \(p\) спостережень є меншими або рівними йому, а решта \(1 - p\) є більшими.

З аналітичної точки зору, квантиль \(x_p\) також можна визначити як значення, що мінімізує глобальну функцію втрат, отриману з суми асиметричних відхилень:

\[ g(x_i, \bar{x}) = \begin{cases} (1 - p)\, |x_i – \bar{x}| & \text{якщо } x_i \le \bar{x} \\[6pt] p\, |x_i - \bar{x}| & \text{якщо } x_i > \bar{x} \end{cases} \]

Квантилі, що найчастіше використовуються, включають:

  • \(x_{0.25}\), перший квартиль, який визначає значення, нижче якого лежить \(1/4\) розподілу.
  • \(x_{0.50}\), медіана, яка поділяє дані на дві рівні половини \(1/2\).
  • \(x_{0.75}\), третій квартиль, який позначає значення, нижче якого лежить \(3/4\) спостережень.

Міжквантильний розмах — це міра статистичної дисперсії, що виражає розсіювання центральної частини розподілу. Він визначається як різниця між двома квантилями порядку \(p_1\) та \(p_2\) \((0 < p_1 < p_2 < 1)\):

\[ IQR = x_{p_2} - x_{p_1} \]

Коли два квантилі відповідають першому та третьому квартилям, тобто \(p_1 = 0.25\) та \(p_2 = 0.75\), міжквантильний розмах стає:

\[ IQR = x_{0.75} - x_{0.25} \]

Цей інтервал містить центральні 50% спостережень і є особливо корисним для опису варіативності набору даних таким чином, що він стійкий до викидів, оскільки ігнорує екстремальні значення, розташовані в хвостах розподілу.

Приклад 4

Розглянемо невеликий набір даних, що представляє щомісячну заробітну плату десяти працівників компанії:

\(i\) \(x_i\) (Зарплата в $)
1 2,200
2 2,400
3 2,600
4 2,700
5 2,800
6 2,900
7 3,100
8 3,300
9 3,400
10 3,700

Оскільки маємо \(n = 10\) спостережень, ми можемо обчислити позиції першого та третього квартилів як:

\[ Q_1 = x_{0.25} = x_{(n+1)\times0.25} = x_{2.75} \] \[ Q_3 = x_{0.75} = x_{(n+1)\times0.75} = x_{8.25} \]

Ці позиції відповідають дробовим рангам, тому ми інтерполюємо між найближчими спостереженнями.

\(x_{2.75}\) лежить між 2-м та 3-м значеннями:
\[ x_{0.25} = 2400 + 0.75 \times (2600 – 2400) = 2400 + 150 = 2550 \]

\(x_{8.25}\) лежить між 8-м та 9-м значеннями:
\[ x_{0.75} = 3300 + 0.25 \times (3400 - 3300) = 3300 + 25 = 3325 \]

Тепер обчислимо міжквантильний розмах між третім та першим квантилями. Отримаємо:

\[ IQR = x_{0.75} - x_{0.25} = 3325 - 2550 = 775 \]

Міжквантильний розмах становить 775 доларів.

Це означає, що центральні 50% працівників мають заробітну плату, яка потрапляє в діапазон 775 доларів.