Що таке дисперсія в статистиці?

Дисперсія — це статистична міра, яка вказує, наскільки значення в наборі даних відхиляються від середнього. Вона кількісно визначає ступінь розсіювання, показуючи, чи зосереджені точки даних близько до середнього значення, чи вони широко розсіяні.

Як обчислюється дисперсія?

Дисперсія обчислюється як середнє значення квадратів різниць між кожним спостереженням і середнім значенням набору даних. Математично це середнє квадратичне відхилення від середнього.

Дисперсія

2025-05-01

Вступ до середніх відхилень

Одним із ключових принципів статистики є те, що один лише середній не може повністю описати набір даних. Справді важливим є розуміння того, як окремі спостереження розподілені навколо середнього, тобто наскільки кожне значення відхиляється від центральної тенденції. З цієї причини необхідно ввести поняття середніх відхилень, що виражається наступною загальною формулою:

\[ ^sS_{\bar{x}} = \left[ \frac{ \sum_{i=1}^{n} \left| x_i – \bar{x} \right|^s }{n} \right]^{1/s} \]

Символ \(\bar{x}\) представляє базове середнє значення, відносно якого вимірюються відхилення.
Надскрипт \(s\) позначає порядок розглянутого степеневого середнього.

У сімействі середніх відхилень квадратичне середнє відхилення (або середньоквадратичне відхилення) вимірює середню величину відхилень від середнього. Воно визначається як квадратний корінь із відношення суми квадратів відхилень (також відомої як девіація) до загальної кількості спостережень:

\[ ^2S = \sqrt{ \frac{\sum_{i=1}^{n}(x_i - M)^2}{n} } \]

Тут \(x_i\) представляє \(i\)-те спостереження в наборі даних, тоді як \(M\) позначає базове середнє значення, зазвичай середнє арифметичне.

Приклад 1

Щоб проілюструвати, як обчислюється квадратичне середнє відхилення, розглянемо простий набір даних, що складається з п'яти спостережуваних значень. Цей показник дозволить нам зрозуміти, наскільки в середньому кожне спостереження віддалене від середнього, коли більшим відхиленням надається пропорційно більша вага. Набір даних є наступним:

\(X_i\)	Спостереження
\(x_{1}\)	3
\(x_{2}\)	5
\(x_{3}\)	7
\(x_{4}\)	10
\(x_{5}\)	15

Середнє арифметичне спостережень дорівнює:

\[ \bar{x} = \frac{3 + 5 + 7 + 10 + 15}{5} = \frac{40}{5} = 8 \]

Далі обчислимо квадрати відхилень кожного спостереження від середнього:

\(x_i\)	\(x_i – \bar{x}\)	\((x_i - \bar{x})^2\)
3	-5	25
5	-3	9
7	-1	1
10	2	4
15	7	49

Сума квадратів відхилень дорівнює:

\[ \sum (x_i - \bar{x})^2 = 25 + 9 + 1 + 4 + 49 = 88 \]

Поділивши це значення на загальну кількість спостережень і взявши квадратний корінь, отримаємо:

\[ ^2S = \sqrt{ \frac{ \sum (x_i - \bar{x})^2 }{n} } = \sqrt{ \frac{88}{5} } = \sqrt{17.6} \approx 4.195 \]

Отже, квадратичне середнє відхилення набору даних становить \(^2S \approx 4.20\). Це означає, що в середньому спостереження відрізняються від середнього приблизно на 4.2 одиниці.

Дисперсія

Квадрат середнього квадратичного відхилення називається дисперсією. Вона представляє середнє значення квадратів різниць між кожним спостереженням і опорним значенням \(M\), що дає міру того, наскільки широко дані розсіяні навколо цієї точки. На відміну від середнього квадратичного відхилення, яке зберігає ту саму одиницю виміру, що й дані, дисперсія виражається в квадратних одиницях. Її вираз має вигляд:

\[ \sigma^2 = \frac{\sum_{i=1}^{n}(x_i – M)^2}{n} \]

Коли \(\sigma^2 = 0\), всі спостережувані значення збігаються з опорним значенням \(M\). У цьому випадку дисперсія повністю відсутня, оскільки кожне спостереження є ідентичним і точно відповідає середньому.
Коли \(\sigma^2 = 1\), середнє квадратичне відхилення спостережень від опорного значення (M) дорівнює рівно одній одиниці. Це означає, що в середньому кожне спостереження відрізняється від (M) на одну одиницю у квадраті. На практиці це вказує на помірний рівень дисперсії: дані не є ідентичними, але їхні відхилення від середнього відносно малі та збалансовані.
Якщо до всіх спостережень додати сталу величину, дисперсія залишиться незмінною.
Якщо кожне спостереження помножити на сталу \(a\), дисперсія помножиться на \(a^2\).
Чим більша дисперсія, тим більший розкид даних навколо \(M\), що вказує на вищу неоднорідність набору даних.

Дисперсію також можна виразити в альтернативній і більш компактній формі, розкривши квадрат у її означенні. Почнемо із загальної формули:

\[ \sigma^2 = \frac{\sum_{i=1}^{n}(x_i - M)^2}{n} \]

Розкриття квадрата дає:

\[ (x_i - M)^2 = x_i^2 - 2Mx_i + M^2 \]

Підставивши цей вираз у початкову формулу, отримаємо:

\[ \sigma^2 = \frac{\sum_{i=1}^{n}x_i^2 – 2M\sum_{i=1}^{n}x_i + nM^2}{n} \]

На цьому етапі згадаємо, що середнє \(M\) визначається як \(M = \frac{\sum_{i=1}^{n}x_i}{n}\). Заміна цієї залежності в рівнянні дозволяє нам спростити вираз крок за кроком:

\[ \sigma^2 = \frac{\sum_{i=1}^{n}x_i^2}{n} – 2M^2 + M^2 \]

Спрощуючи далі, два члени з \(M^2\) об'єднуються наступним чином:

\[ \sigma^2 = \frac{\sum_{i=1}^{n}x_i^2}{n} - M^2 \]

Таким чином, ми можемо виразити дисперсію більш компактним і елегантним способом:

\[ \sigma^2 = M(x^2) – M^2 \]

Тут \(M(x^2)\) представляє середнє квадратів спостережень, тоді як \(M\) позначає середнє значення вихідних даних. Ця тотожність показує, що дисперсію можна обчислити просто як різницю між середнім квадратів і квадратом середнього.

Приклад 2

Тепер обчислимо дисперсію для наступного набору даних, який складається з п'яти спостережуваних значень:

\(X_i\)	Спостереження
\(x_{(1)}\)	5
\(x_{(2)}\)	7
\(x_{(3)}\)	9
\(x_{(4)}\)	12
\(x_{(5)}\)	17

Першим кроком є визначення середнього значення спостережень. Додавши всі значення та поділивши на кількість випадків, отримаємо:

\[ M = \frac{5 + 7 + 9 + 12 + 17}{5} = \frac{50}{5} = 10 \]

Тепер кожне спостереження можна порівняти із середнім, щоб дізнатися, наскільки воно від нього відхиляється.
Потім ми підносимо ці відхилення до квадрата, щоб уникнути взаємного скасування знаків і надати більшої ваги більшим різницям:

\(x_i\)	\(x_i – M\)	\((x_i – M)^2\)
5	-5	25
7	-3	9
9	-1	1
12	2	4
17	7	49

Сума всіх квадратів відхилень становить:

\[ \sum (x_i - M)^2 = 25 + 9 + 1 + 4 + 49 = 88 \]

Щоб отримати дисперсію, ми ділимо цю суму на кількість спостережень:

\[ \sigma^2 = \frac{88}{5} = 17.6 \]

Отже, дисперсія цього набору даних дорівнює:

\[ \sigma^2 = 17.6 \]

Цей результат означає, що в середньому квадрат відстані спостережень від середнього значення становить 17,6 одиниці. Якщо ми візьмемо квадратний корінь із цього значення, ми знайдемо відповідне середнє квадратичне відхилення \(\sigma = \sqrt{17.6} \approx 4.20\). Іншими словами, значення даних відрізняються від середнього приблизно на 4,2 одиниці в середньому, що вказує на помірний рівень дисперсії навколо центрального значення.

Приклад 3

У деяких випадках дисперсію можна обчислити ефективніше, використовуючи альтернативний вираз, який включає середнє значення квадратів значень та квадрат середнього значення. Така формуляція дає той самий результат, що й стандартне означення, але спрощує обчислення, особливо коли необхідні суми вже відомі. Давайте подивимося, як це працює на простому прикладі. Розглянемо наступний набір даних:

\(i\)	\(x_i\)
1	3
2	9
3	11
4	14

Спочатку обчислимо середнє значення спостережень:

\[ M = \frac{3 + 9 + 11 + 14}{4} = \frac{37}{4} = 9.25 \]

Далі знайдемо середнє значення квадратів значень:

\[ \begin{align} M(x^2) &= \frac{3^2 + 9^2 + 11^2 + 14^2}{4} \\[3pt] &= \frac{9 + 81 + 121 + 196}{4} \\[3pt] &= \frac{407}{4} = 101.75 \end{align} \]

Тепер застосуємо спрощену формулу для дисперсії:

\[ \sigma^2 = M(x^2) - M^2 \]

Підставляючи значення, отримаємо:

\[ \sigma^2 = 101.75 – (9.25)^2 = 101.75 – 85.56 = 16.19 \]

Отже, дисперсія набору даних становить \(\sigma^2 = 16.19\).

Цей підхід показує, що дисперсію можна вивести безпосередньо із середнього значення квадратів значень та квадрата середнього значення, що пропонує більш раціональний спосіб вимірювання розсіювання даних при роботі з агрегованою інформацією.

Дисперсія дискретних та неперервних випадкових величин

У випадку дискретних випадкових величин, дисперсія визначається як:

\[ \sigma^2 = E[(X – \mu)^2] = \sum_x (x – \mu)^2 f(x) \]

де \( x \) позначає кожне можливе значення, яке може набути випадкова величина \( X\), \( \mu = E[X] \) представляє математичне сподівання або теоретичне середнє значення змінної, а \( f(x) \) — функція ймовірності, яка присвоює ймовірність кожному можливому результату \( X \).

У випадку неперервних випадкових величин, дисперсія визначається як:

\[ \sigma^2 = E[(X - \mu)^2] = \int_{-\infty}^{+\infty} (x - \mu)^2 f(x),dx \]

Тут \( f(x) \) — це функція щільності ймовірності, яка описує, як ймовірність розподілена по можливих значеннях \( X \).

Дисперсія вибіркового розподілу

Вибіркова дисперсія описує, як дані у вибірці розподілені навколо вибіркового середнього. Більша дисперсія означає, що спостереження більш розсіяні, тоді як менша дисперсія вказує на те, що вони ближче до середнього. Формально, задано випадкові величини \( X_1, X_2, \ldots, X_n \), вибіркова дисперсія визначається як:

\[ S^2 = \frac{1}{n – 1} \sum_{i=1}^{n} (X_i - \overline{X})^2 \]

де \( S^2 \) — вибіркова дисперсія, \( \overline{X} \) — вибіркове середнє, а \( n \) — обсяг вибірки.