【勉強ログ】ベイズの識別規則について - 知的好奇心ログ〜興味のおもむくままに〜

はじめに

はじめましての方しかいないと思うのではじめまして（強制）。

ユタカタと申します。

本ページは、最近学習を進めている書籍「はじめてのパターン認識」（通称はじパタ本。機械学習コミュニティ内で初学者向けとして認知されている本）の第二章のベイズの識別規則について、学習内容の整理と定着をはかるための自分用勉強ログとなっています。

この分野は素人なので内容に誤りなどがありましたら指摘していただけるとありがたいです(^^)

（注: 自称素人教授とかではないです）

ベイズの識別規則とは？

ベイズの識別規則とは一言で言うと、「ベイズの定理内に現れる事後確率を指標とした識別方法」です。

説明をしやすくするために、以下の図のような状況を考えます。

f:id:yutakata_log:20191004215157p:plain

クラス $C_1, C_2$ は実数を要素として持つ集合で、 $x$ をどちらかのクラスから抽出された観測データとします。また、観測者は観測データ $x$ がどのクラスから抽出されたデータなのかは分からないものとします。

ここで、クラス $C_i$ の事前確率を $P(C_i)$ 、観測データ $x$ に関する周辺確率を $P(x)$ 、観測データ $x$ が与えられた上でのクラス $C_i$ に関する尤度関数を $P(x|C_i)$ としたとき、ベイズの定理は以下の等式で表現される。

$\begin{align} ^{\forall}x \in \mathbb{R},\,\, C_i\in \{C_1,\, C_2\}、P(C_i | x) = \frac{P(x | C_i)\, P(C_i)}{P(x)} \tag{1} \end{align}$

※ちなみに、上記等式は同時分布 $P(x, C_i)$ の定義よりすぐに求まる。

$P(x, C_i) = P(x) P(C_i\, |\, x) = P(C_i) P(x\, |\, C_i)$

上記ベイズの定理を用いて再度説明すると、『ベイズの識別規則とは、ベイズの定理式 $(1)$ の左辺が最大となる時のクラス $C^{\ast }$ を観測データ $x$ の所属クラスとして判別する規則』となります。

すなわち、ベイズの識別規則により推定されるクラス $C^{\ast }$ は以下の等式を満たすものです。

$\begin{align} C^{\ast } = \underset{C_i \in \{C_1,\, C_2\} }{argmax} P(C_i | x) \\ = \underset{C_i \in \{C_1,\, C_2\}}{argmax} \frac{P(x | C_i)\, P(C_i)}{P(x)}\end{align}$

さらに、上記ベイズの定理中では、 $P(x)$ は固定値であるため

$\begin{align} C^{\ast } = \underset{C_i \in \{C_1,\, C_2\}}{argmax}\frac{P(x | C_i)\, P(C_i)}{P(x)}\\ = \underset{C_i \in \{C_1,\, C_2\}}{argmax} P(x | C_i)\, P(C_i)\end{align}$

と式変形できます。

ベイズの識別境界

まず、事後分布 $P(C_1\, |\, x)、P(C_2\, |\, x)$ に関して以下の等式 $(2)$ が成立する $x$ を考えます。

$\begin{align}P(C_1\, |\, x) = P(C_2 \, |\, x)\tag{2} \end{align}$

また、 $(2)$ 式は以下の $(3)$ 式へと変形することができます。

$P(x\, | \, C_1)\, P(C_1) = P(x\, |\, C_2)\, P(C_2)\tag{3}$

上記等式 $(3)$ を満たす $x$ のことをベイズの識別境界と呼び、所属クラスを判別する際の一種の基準となります。

以下、具体例となります。

具体例1）

クラス $C_1$ を『平均 $-1$ 、分散 $1$ の正規分布 $f(x) = \frac{1}{\sqrt{2\pi } }\exp \left\{- \frac{(x + 1)^2}{2} \right\}$ から発生する実数の集合』、クラス $C_2$ を『平均 $1$ 、分散 $1$ の正規分布 $g(x) = \frac{1}{\sqrt{2\pi }}\exp \left\{- \frac{(x - 1)^2}{2} \right\}$ から発生する実数の集合』としたとき、

$\begin{align}P(x | C_1) = \frac{1}{\sqrt{2\pi } }\exp \left\{- \frac{(x + 1)^2}{2} \right\},\,\,\, P(x | C_2) = \frac{1}{\sqrt{2\pi }}\exp \left\{- \frac{(x - 1)^2}{2} \right\}\end{align}$

と表現することができます。

さらに、事前確率 $P(C_1),\, P(C_2)$ をそれぞれ

$\begin{align}P(C_1) = \frac{1}{2},\,\,\, P(C_2) = \frac{1}{2}\end{align}$

と仮定した時、識別境界は以下の等式 $(4)$ を満たす $x$ となります。

$\begin{align} \frac{1}{2}\, \frac{1}{\sqrt{2\pi } }\exp \left\{- \frac{(x + 1)^2}{2} \right\} = \frac{1}{2}\, \frac{1}{\sqrt{2\pi }}\exp \left\{- \frac{(x - 1)^2}{2} \right\} \tag{4} \end{align}$

実際に、識別境界を図示したグラフは以下のようになります。

f:id:yutakata_log:20191005195733p:plain

上図から、ちょうど $x = 0$ のラインで二つの曲線 $P(x | C_1)\,P(C_1),\,P(x | C_2)\, P(C_2)$ が交わっていることがわかります。この $x = 0$ がベイズの識別境界です。（実際に等式(4)に $x = 1$ を代入してみても成立することがわかるかと思います。）識別境界 $x = 0$ よりも左側（ $x \lt 0$ ）の領域では、観測データはクラス $C_1$ に所属しているものと判別し、識別境界 $x = 0$ よりも右側（ $x \gt 0$ ）の領域では、観測データはクラス $C_2$ に所属しているものとして判別されます。