Що таке теорема Байєса?

Теорема Байєса — це основна концепція в теорії ймовірностей, яка пояснює, як оновити правдоподібність події на основі нових даних. Вона виражається як: P(A|B) = [P(B|A) * P(A)] / P(B).

Чому теорема Байєса важлива для аналізу даних?

Теорема Байєса має вирішальне значення для аналізу даних, оскільки вона надає структурований спосіб поєднання попередніх знань із новими доказами, що веде до більш обґрунтованих висновків і прогнозів.

Які основні терміни в теоремі Байєса?

Основними термінами є: апріорна ймовірність (початкове переконання), правдоподібність (докази за умови гіпотези) та апостеріорна ймовірність (оновлене переконання після розгляду доказів).

Як теорема Байєса використовується в машинному навчанні?

Теорема Байєса є фундаментальною для різних алгоритмів машинного навчання, особливо в задачах класифікації, де вона допомагає визначити ймовірність належності точки даних до конкретного класу.

Чи можете ви навести простий приклад теореми Байєса?

Уявіть медичний тест. Теорема Байєса допомагає обчислити фактичну ймовірність наявності захворювання після позитивного результату тесту, враховуючи точність тесту та поширеність захворювання.

Теорема Баєса

2025-05-01

Що це таке і для чого використовується теорема Байєса

Теорема Байєса — це фундаментальний результат у теорії ймовірностей, який описує, як обчислити умовну ймовірність гіпотези за наявності спостережуваних доказів. Вона забезпечує формальний механізм оновлення попередніх переконань у світлі нових даних, пов'язуючи апостеріорну ймовірність із априорною ймовірністю та правдоподібністю спостережуваних доказів.

У формальних термінах, для двох подій $A$ та $B$, теорема Байєса стверджує, що апостеріорна ймовірність події $A$ за умови події $B$ дорівнює правдоподібності події $B$ за умови події $A$, помноженій на априорну ймовірність події $A$, і все це поділено на маргінальну ймовірність (або доказ) події $B$.

\[P(A|B) = \frac{P(B|A)P(A)}{P(B)}\]

$P(A|B)$, апостеріорна ймовірність: ймовірність того, що подія $A$ відбудеться за умови, що подія $B$ вже відбулася. Вона представляє наше оновлене переконання щодо $A$ після спостереження $B$.
$P(B|A)$, правдоподібність: ймовірність спостереження події $B$, якщо подія $A$ була б істинною. Вона вимірює, наскільки спостережувані дані ($B$) сумісні з гіпотезою ($A$).
$P(A)$, априорна ймовірність: початкова ймовірність того, що подія $A$ відбудеться до спостереження будь-яких доказів ($B$). Вона представляє наше початкове переконання щодо $A$.
$P(B)$, маргінальна ймовірність або доказ: загальна ймовірність того, що подія $B$ відбудеться. Її можна обчислити як суму (або інтеграл у неперервному випадку) ймовірностей $B$ за умови всіх можливих станів $A$, зважених за їхніми априорними ймовірностями.

Формально, маргінальна ймовірність події $B$ обчислюється за допомогою формули повної ймовірності, яка виражає $P(B)$ як суму ймовірностей $B$ за умови всіх можливих подій іншої повної та виключної множини подій (таких як $A$ та її доповнення $¬A$), зважених за ймовірностями цих подій:

\[P(B) = P(B|A)P(A) + P(B|\neg A)P(\neg A)\]

Ця формула є вирішальною, оскільки вона має значне практичне значення для обчислення маргінальної ймовірності події (B) при розв'язанні задач, у яких використовується теорема Байєса.

Як вивести теорему Байєса

Щоб вивести теорему Байєса, розглянемо спільну ймовірність двох подій $A$ та $B$, яку можна виразити як:

\[(A \cap B) = P(A|B)P(B)\]

Оскільки перетин двох множин є комутативним, порядок не змінює результату, отже, ми також маємо, що спільна ймовірність $B$ та $A$ може бути виражена як:

\[(B \cap A) = P(B|A)P(A)\]

Звідси випливає, що:

\[(A \cap B) = P(A|B)P(B) = P(B|A)P(A) = (B \cap A)\]

Таким чином, ми отримаємо:

\[( P(A|B) = \frac{P(B|A)P(A)}{P(B)}\]

Приклад

Система фільтрації електронної пошти намагається класифікувати листи на дві категорії: спам і не спам. Фільтр використовує наявність певних ключових слів для прийняття цього рішення. Розглянемо слово «знижка».

Спочатку визначимо події, що відбуваються в цій задачі:

$S$: лист є спамом.
$\neg S$: лист не є спамом.
$D$: лист містить слово «знижка».

Тепер розглянемо наступні ймовірності, припустимо, що слово «знижка» присутнє у 95% спам-листів, тоді як у неспам-листах воно присутнє лише у 2% випадків.

Априорна ймовірність спаму: $P(S) = 0.40$.
Априорна ймовірність не спаму: $P(\neg S) = 0.60$.
Правдоподібність «знижки» за умови спаму: $P(D|S) = 0.95$.
Правдоподібність «знижки» за умови не спаму: $P(D|\neg S) = 0.02$.

Ми хочемо знайти ймовірність того, що лист є спамом за умови, що він містить слово «знижка», тобто $P(S|D)$.

Застосуємо теорему Байєса до нашої задачі, і отримаємо:

\[P(S|D) = \frac{P(D|S)P(S)}{P(D)}\]

Нам невідома маргінальна ймовірність знаходження слова «знижка» в будь-якому листі, $P(D)$. Ми можемо обчислити її за допомогою формули повної ймовірності:

\[P(D) = P(D|S)P(S) + P(D|\neg S)P(\neg S)\]

Обчислення $P(D)$ дає нам:

\begin{align*} P(D) &= (0.95 \times 0.40) + (0.02 \times 0.60) \\[0.5em] P(D) &= 0.38 + 0.012 \\[0.5em] P(D) &= 0.392 \end{align*}

Підставляючи значення $P(B)$ у формулу теореми Байєса, ми отримуємо:

\begin{align*} P(S|D) &= \frac{0.95 \times 0.40}{0.392} \\[1em] P(S|D) &= \frac{0.38}{0.392} \\[1.5em] P(S|D) &\approx 0.969 \end{align*}

Отже, можна зробити висновок, що за умови, що лист містить слово «знижка», ймовірність того, що він є спамом, становить приблизно 96.94%.

Глосарій

Теорема Байєса: фундаментальний результат у теорії ймовірностей, який описує, як обчислити умовну ймовірність гіпотези за наявності спостережуваних доказів, забезпечуючи основу для оновлення попередніх переконань.
Апостеріорна ймовірність $P(A|B)$: оновлена ймовірність настання події $A$ після спостереження нових доказів $B$.
Апріорна ймовірність $P(A)$: початкова ймовірність настання події $A$ до спостереження будь-яких доказів.
Правдоподібність $P(B|A)$: ймовірність спостереження доказів $B$, якщо гіпотеза $A$ була б істинною.
Маргінальна ймовірність $P(B)$: загальна ймовірність настання доказів $B$, незалежно від істинності гіпотези $A$. Також називається ймовірністю доказів.
Умовна ймовірність: ймовірність настання події за умови, що інша подія вже відбулася.
Спільна ймовірність $P(A \cap B)$: ймовірність того, що дві події $A$ та $B$ відбудуться одночасно.