Сигмоїдна функція

Концепція
Структура статті представлена на концептуальній карті, де кожна гілка відображає основний компонент, а підвузли підсвічують конкретні поняття, що розглядаються.
Просунутий рівень
2
Потребує
0
Дозволяє
Наступні концепції, Показникова функція, Функції, є необхідними передумовами для цієї статті.

Означення

Сигмоїдальна функція — це дійснозна функція дійсної змінної, яка набуває значень суворо між \(0\) та \(1\), наближаючись до кожного з двох екстремумів асимптотично. Вона забезпечує гладке відображення дійсної прямої на одиничний проміжок і широко використовується в аналізі та машинному навчанні. Її означення є наступним:

\[ \sigma(x) = \frac{1}{1 + e^{-x}} \]

Сигмоїдальна функція може бути записана в еквівалентних формах, які іноді є зручнішими для обчислень або для встановлення певних властивостей. Одна з таких форм отримується шляхом множення чисельника та знаменника на \(e^x\):

\[ \sigma(x) = \frac{e^x}{e^x + 1} \]

Цей вираз повністю еквівалентний початковому означенню і може спростити певні алгебраїчні маніпуляції.

Sigmoid function.
  • Область визначення — \(\mathbb{R}\), тоді як область значень — відкритий інтервал \((0,1)\).
  • Функція є строго зростаючою на \(\mathbb{R}\), оскільки її похідна завжди додатня, і, отже, є бієктивною з \(\mathbb{R}\) на \((0,1)\).
  • Функція не має локальних екстремумів і має рівно одну точку перегину в \((0, \frac{1}{2})\).
  • Границі на нескінченності є наступними: \[ \lim_{x \to -\infty} \sigma(x) = 0\] \[ \lim_{x \to +\infty} \sigma(x) = 1\]

S-подібна крива відображає поведінку функції: повільний ріст для дуже від'ємних значень \(x\), швидкий перехід в околі початку координат і насичення для дуже додатних значень.

Властивості сигмоїдальної функції

Наступні властивості характеризують сигмоїдальну функцію аналітично та обґрунтовують її широке використання як у математичному аналізі, так і в прикладних задачах. Функція задовольняє наступному відношенню симетрії відносно початку координат:

\[ \sigma(-x) = 1 – \sigma(x) \]

Ця тотожність, яку можна перевірити шляхом прямої підстановки, означає, що графік \(\sigma\) симетричний відносно точки:

\[\left(0,\, \frac{1}{2}\right)\]

Значення функції в початку координат дорівнює:

\[ \sigma(0) = \frac{1}{1 + e^{0}} = \frac{1}{2} \]

Границі на краях дійсної прямої є наступними:

\[\lim_{x \to -\infty} \sigma(x) = 0\] \[ \lim_{x \to +\infty} \sigma(x) = 1\]

Прямі \(y = 0\) та \(y = 1\), отже, є горизонтальними асимптотами графіка.

Похідна сигмоїдальної функції

Однією з найвизначніших властивостей сигмоїдальної функції є те, що її похідна може бути виражена в надзвичайно компактній формі через саму функцію. Перша похідна має наступний вигляд:

\[ \sigma’(x) = \sigma(x)\,\bigl(1 - \sigma(x)\bigr) \]

Щоб перевірити цю тотожність, можна скористатися прямим обчисленням. Записуючи \(\sigma(x) = (1 + e^{-x})^{-1}\) та застосовуючи правило ланцюга, отримаємо наступне:

\[ \sigma’(x) = \frac{e^{-x}}{(1 + e^{-x})^2} \]

Зауважимо, що чисельник можна записати як \((1 + e^{-x}) – 1\), тоді вираз розпадається на добуток:

\[ \begin{align} \sigma’(x) &= \frac{1}{1 + e^{-x}} \cdot \frac{e^{-x}}{1 + e^{-x}} \\[6pt] &= \sigma(x)\,\bigl(1 – \sigma(x)\bigr) \end{align} \]

Оскільки \(\sigma(x) \in (0, 1)\) для кожного \(x \in \mathbb{R}\), похідна завжди є суворо додатною, що підтверджує, що функція є суворо зростаючою. Максимальне значення похідної досягається при \(x = 0\), де \(\sigma’(0) = 1/4\).

Друга похідна та випуклість

Друга похідна сигмоїдальної функції отримується шляхом диференціювання виразу: \[\sigma’(x) = \sigma(x)\,(1 - \sigma(x))\]

Застосовуючи правило добутку та підставляючи вираз для \(\sigma’(x)\), отримаємо наступне:

\[ \begin{align} \sigma’‘(x) &= \sigma’(x),(1 – \sigma(x)) - \sigma(x)\,\sigma’(x) \\[6pt] &= \sigma’(x)\,(1 – 2\sigma(x)) \\[6pt] &= \sigma(x)\,(1 - \sigma(x))\,(1 - 2\sigma(x)) \end{align} \]

Знак \(\sigma’'(x)\) повністю визначається множником \(1 – 2\sigma(x)\), оскільки \(\sigma(x)(1 – \sigma(x)) > 0\) для всіх \(x \in \mathbb{R}\). Оскільки \(\sigma\) є строго зростаючою і \(\sigma(0) = \tfrac{1}{2}\), множник \(1 – 2\sigma(x)\) є додатним при \(x < 0\) та від'ємним при \(x > 0\).

Звідси випливає, що функція є випуклою вниз на \((-\infty, 0)\) та випуклою вгору на \((0, +\infty)\). Точка \(x = 0\), отже, є точкою перегину, в якій \(\sigma’'(0) = 0\) і випуклість змінює знак.

Зв'язок із логістичною функцією

Сигмоїдальна функція збігається з особливим випадком логістичної функції, в якому швидкість зростання дорівнює \(1\), а точка перегину розташована в початку координат. Загальний вигляд логістичної функції є наступним:

\[ f(x) = \frac{L}{1 + e^{-k(x - x_0)}} \]

У цьому виразі \(L\) позначає верхнє асимптотичне значення, \(k\) — швидкість зростання, а \(x_0\) — точку перегину. Стандартна сигмоїдальна функція відповідає вибору \(L = 1\), \(k = 1\) та \(x_0 = 0\).

Зв'язок із гіперболічним тангенсом

Сигмоїдальна функція тісно пов'язана з гіперболічним тангенсом \(\tanh.\) Виконується наступна тотожність:

\[ \sigma(x) = \frac{1 + \tanh\!\left(\dfrac{x}{2}\right)}{2} \]

Еквівалентна форма є наступною:

\[ \tanh(x) = 2\,\sigma(2x) – 1 \]

Цей зв'язок показує, що дві функції відрізняються суттєво лише вертикальним зсувом та масштабуванням. У той час як сигмоїда відображає \(\mathbb{R}\) в інтервал \((0, 1)\), гіперболічний тангенс відображає \(\mathbb{R}\) в інтервал \((-1, 1)\). Обидві функції мають однакову S-подібну криву та однаковий тип насичення на краях.

Обернена сигмоїдальна функція

Оскільки сигмоїдальна функція є строго монотонною, вона має обернену функцію, визначену на \((0, 1)\). Ця обернена функція відома як логіт-функція, і її вираз є наступним:

\[ \sigma^{-1}(p) = \ln\!\left(\frac{p}{1-p}\right) \]

Аргумент логарифма називається відношенням шансів. Таким чином, логіт-функція відображає ймовірність \(p \in (0,1)\) у відповідне дійсне значення за шкалою логарифма шансів.

Приклад

Розглянемо задачу обчислення значення сигмоїдальної функції при \(x = 2\) та перевірки того, що її похідна в цій точці узгоджується з формулою \(\sigma’(x) = \sigma(x)(1 - \sigma(x))\). Значення функції є наступним:

\[ \sigma(2) = \frac{1}{1 + e^{-2}} \]

Оскільки \(e^{-2} \approx 0.1353\), отримаємо:

\[ \sigma(2) \approx \frac{1}{1.1353} \approx 0.8808 \]

Застосовуючи формулу похідної, значення \(\sigma’(2)\) є наступним:

\[ \sigma’(2) = \sigma(2),\bigl(1 - \sigma(2)\bigr) \approx 0.8808 \cdot 0.1192 \approx 0.1050 \]

Значення похідної сигмоїдальної функції при \(x = 2\), отже, приблизно дорівнює \(0.1050\), що підтверджує як формулу, так і той факт, що функція зростає дуже повільно в цій області, вже наблизившись до насичення.