ナツメ社
売り上げランキング: 33,414
- ベイズの定理
- ベイズの基本公式
- ベイズの展開公式
- ベイズ理論の計算の3ステップ
- 理由不十分の原則
- ベイズ更新
- 検査の問題
- ナイーブ・ベイズ・フィルター
- 確率分布のベイズ推定
- ベイジアンネットワーク
- ベイズ統計学
「ベイズの定理」の解釈の違いにより、ベイズ確率論とベイズ統計論に分かれる。
ベイズ確率論 |
A・・・原因 B・・・結果 |
---|---|
ベイズ統計論 |
A・・・確率分布の母数 B・・・データ |
統計学 | 従来の統計学(頻度論) |
|
---|---|---|
ベイズ統計学 |
|
データへの対応 | 母数(平均,分散,など) | |
---|---|---|
従来の統計学 | たくさんある中の一つとして扱う | 母集団固有の唯一値を仮定 |
ベイズ統計学 | 一期一会的に扱う | 確率変数であり、その分布を調べようとする |
条件付き確率 | P(B|A) | 事象Aが起こったという条件のもとで事象Bが起こる確率。 |
---|---|---|
同時確率 | P(B∩A) | 事象Aと事象Bが同時に起こる確率。 |
-
ベイズの定理のAやBの解釈を変える。
- A → 原因や仮定(Hypothesis)
- B → 結果やデータ(Data)
- ベイズの基本公式は、原因から結果をたどるように変換してくれる。
- 左辺P(H|D)は、「データDが得られたときの原因がHである」条件付き確率。
データDは原因H1, H2, ... Hn のどれか1つから生まれると仮定する。 このときデータDが得られたとき、その原因Hiである確率P(Hi|D)は、
事後確率 Posterior Probability |
データDが原因Hiから得られた確率 | |
尤度 (ゆうど) likelihood |
原因HiのもとでデータDが得られる確率 | |
事前確率 Prior Probability |
データDを得る前の原因Hiの確からしさ |
国際ホテルの部屋 H1, H2, ... Hn に泊まっている客を任意に選ぶ。 選ばれた客が日本人である事象を D とする。
事後確率 P(Hi|D) | 「日本人が選ばれたとき、彼が部屋Hiから来た」確率 |
---|---|
尤度 P(D|Hi) | 「部屋Hiの中で、日本人が選ばれる」確率 |
事前確率 P(Hi) | 一人が選ばれる前の「部屋Hiの選ばれやすさ」 |
- モデル化し、それから尤度を算出
- 事前確率を設定
- ベイズの展開公式を用いて事後確率を算出
H1 | 取り出した玉が壺1からのものである |
---|---|
H2 | 取り出した玉が壺2からのものである |
H3 | 取り出した玉が壺3からのものである |
R | 取り出した玉が赤(Red)である |
P(H1|R) | 取り出した玉が赤のとき、それが壺1から来た確率 | |
---|---|---|
P(H2|R) | 取り出した玉が赤のとき、それが壺2から来た確率 | |
P(H3|R) | 取り出した玉が赤のとき、それが壺3から来た確率 | これを求めたい |
P(R|H1) | 壺1から取り出された玉が赤である確率 | 1/3 |
---|---|---|
P(R|H2) | 壺2から取り出された玉が赤である確率 | 2/3 |
P(R|H3) | 壺3から取り出された玉が赤である確率 | 3/3 |
P(H1) | 壺1が選ばれる確率 | 3/6 |
---|---|---|
P(H2) | 壺2が選ばれる確率 | 2/6 |
P(H3) | 壺3が選ばれる確率 | 1/6 |
「何も情報がなければ確率は同等」という発想。
前の例題では事前確率(それぞれの壺の選ばれやすさ=3 : 2 : 1)が与えられていたが、与えられていない場合は「理由不十分の原則」に従い、以下のようになる。
P(H1) | 壺1が選ばれる確率 | 1/3 |
---|---|---|
P(H2) | 壺2が選ばれる確率 | 1/3 |
P(H3) | 壺3が選ばれる確率 | 1/3 |
1回目のデータ解析で得られた事後確率を、2回めのデータ解析の際の新たな事前確率として利用すること。
例題. 「真珠 → 真珠 → ガラス」の場合、箱がA社製である確率は?
↓
真珠 | P(S|HA) | 3/4 |
---|---|---|
P(S|HB) | 1/4 | |
ガラス | P(G|HA) | 1/4 |
P(G|HB) | 3/4 |
P(HA) | 1/2 |
---|---|
P(HB) | 1/2 |
P(HA|S) | |
---|---|
P(HB|S) |
P(HA) | 3/4 |
---|---|
P(HB) | 1/4 |
P(HA|S) | |
---|---|
P(HB|S) |
P(HA) | 9/10 |
---|---|
P(HB) | 1/10 |
P(HA|S) | |
---|---|
P(HB|S) |
事後確率の変動と「信念」の揺らぎとが、よく似通っている。ベイズの論理が人間心理をよく表現する、と言われれる所以。
データが同じであれば解析順序に依らないことが保証されている。 前の例題では「真珠 → 真珠 → ガラス」であったが、「真珠 → ガラス → 真珠」でも「ガラス → 真珠 → 真珠」でも結果は同じになる。
- 病気にかかっている人が検査Tを受ける → 98%の確率で病気であると「正」判定される。
- 病気にかかっていない人が検査Tを受ける → 5%の確率で病気であると「誤」判定される。
- 人全体でその病気にかかっている人 = 3%
- 人全体でその病気にかかっていない人= 97%
- 無作為に抽出した1人に検査Tを受けさせ、病気であると判定された場合、この人が実際に病気にかかっている確率は?
- つまり求めたいのは、事後確率 P(病人|陽性) 。
P(D|H1) = P(陽性|病人) | 0.98 |
---|---|
P(D|H2) = P(陽性|健康) | 0.05 |
P(H1) = P(病人) | 0.03 |
---|---|
P(H2) = P(健康) | 0.97 |
P(H1|D) = P(病人|陽性) | ? |
---|---|
P(H2|D) = P(健康|陽性) | ー |
人は尤度に目を奪われ事前確率に疎くなってしまう。
「文書やメールの中の単語はすべて独立」という苦しい仮定(ナイーブな仮定)の基、文書やメールをフィルタリングする方法。
中の見えない1つの壺。
赤玉と白玉が合計3つ入っている。
「無作為に取り出し、元に戻す」を2回行なった。
すると、2回続けて赤玉が出た。
壺の中の赤玉の個数の確率分布は?
3種類の壺があると仮定する。
- H1 = 赤玉が1個入った壺
- H2 = 赤玉が2個入った壺
- H3 = 赤玉が3個入った壺
- P(R|H1) = 1/3
- P(R|H2) = 2/3
- P(R|H3) = 3/3
「理由不十分の原理」より事前確率を
- P(H1) = 1/3
- P(H2) = 1/3
- P(H3) = 1/3
1回目は赤玉が出たので、「ベイズの展開公式」より、その事後確率は
- P(H1|R) = 1/6
- P(H2|R) = 1/3
- P(H3|R) = 1/2
次に、2回めの解析を行なう。
尤度は変わらない。
事前確率は、1回めの事後確率を使用する。
- P(H1) = 1/6
- P(H2) = 1/3
- P(H3) = 1/2
2回目も赤玉が出たが、「ベイズの展開公式」より、その事後確率は
- P(H1|R) = 1/14
- P(H2|R) = 2/7
- P(H3|R) = 9/14
2回目の事後確率より、壺の中の赤玉の期待値は
- (1 * 1/14) + (2 * 2/7) + (3 * 9/14) = 2.57 [個]
また、原因H3の事後確率が最大であることから、壺の中の赤玉の個数のMAP推定値は
- 3 [個]
事後確率が最大な原因を真の原因と推定する方法。
Maximum ap posteriori
以下の振動に反応する警報機(Alarm)がある。
- 泥棒(Burglar)
- 地震(Earthquake)
警報機(Alarm)が作動すると、以下のどちらか、または両方に通報される。
- 警察(Police)
- 警備会社(Security)
問1.警報機(Alarm)が作動したとき、原因が泥棒(Burglar)である確率 P(B|A) は?
問2.警備会社(Secutiry)に通報が来たとき、原因が泥棒(Burglar)である確率 P(B|S) は?
問1.警報機(Alarm)が作動したとき、原因が泥棒(Burglar)である確率 P(B|A) は?
ベイズの定理より
上式の
- P(A|B)・・・泥棒が入ったときに警報機が鳴る確率
- P(B)・・・泥棒が入る確率
- P(A)・・・警報機が鳴る確率
公式より
(カンマは同時確率∩の意味)
表より
P(A|B)=0.95 * 0.02 + 0.94 * 0.98 = 0.9402
表より
P(B) = 0.01
「確率の乗法定理」とか「BとEが独立である事実〜P(B∩E)=P(B)P(E)」とか表より
P(A) = 0.0092166
以上より、
P(B|A) = 10.2%
確率密度関数 | |
---|---|
平均値 | |
分散 |
確率密度関数 | |
---|---|
平均値 | |
分散 |
確率密度関数 | |
---|---|
平均値 | |
分散 |
確率密度関数 |
(kは定数、p,qは正の定数、) |
---|---|
平均値 | |
分散 | |
モード |
従来の統計学 |
母数(平均や分散)は定数。 その値が問題になる。 |
---|---|
ベイズ統計学 |
母数(平均や分散)は確率変数。 その分布が問題になる。 |
母数をとすると、
事後確率 | データDが得られたとき、それが母数の確率分布から得られた確率 | |
尤度 | 母数の確率分布のもとで、データDが得られる確率 | |
事前確率 | データDを得る前の母数の生起確率 |
分母はデータDを得るときの確率P(D)である。
とすると、
母数を離散的ではなく連続的であると捉えると、
離散的 | 連続的 | ||
---|---|---|---|
事後確率 | 事後分布 | ||
尤度 | 尤度 | ||
事前確率 | 事前分布 |
ベイズ統計学の基本公式が得られる。
事後分布 | データDが得られたとき、それが母数の確率分布から得られた確率 | |
尤度 | 母数の確率分布のもとで、データDが得られる確率 | |
事前分布 | データDを得る前の母数の生起確率 |
内容量xは正規分布に従う。
分布はである。
製品1つを抽出したら、内容量xは101グラムであった。
この工場から作られる製品内容量の「平均値μの確率分布」(μの確率密度関数)は?
【答】
「ベイズ統計学の基本公式」に代入する。
↓
事後分布 | 内容量x=101グラムが得られたとき、それが平均値μの確率分布から得られた確率 | |
尤度 |
平均値μの確率分布(正規分布)のもとで、内容量x=101グラムが得られる確率
|
|
事前分布 |
内容量x=101グラムを得る前の平均値μの生起確率
「理由不十分の原則」より、一様分布を仮定する。 =1 |
以上より事後分布は、
尤度 | 平均値μの正規分布(分散12)(確率密度関数)において、101が得られる確率。 | |
---|---|---|
× | ||
事前分布 | なにも情報がない状態なので、一様分布を仮定する。 | |
|| | ||
事後分布 |
事前分布が一様分布なので、形は尤度と同じ。
x軸はμ。 平均値μの確率分布。 平均値μは101である確率が最も大きい。 |
表の出る確率がθであるコインを投げた。
1回目・・・表
2回目・・・表
3回目・・・表
4回目・・・裏
「表が出る確率θ」の確率分布(事後分布)は?
【答】
■尤度(母数θである確率分布において、表が出る確率)
f(表|θ) = θ
f(裏|θ) = 1 - θ
(↑ベルヌーイ分布)
■1回目の事前分布(コインを投げる前の「表の出る確率θ」がどんな値になるかの確率)
「理由不十分の原則」より
π0(θ) = 1
(↑一様分布)
■1回目の事後分布
ベイズ統計学の基本公式より、
π(θ|D) = kf(D|θ)π(θ)
1回目は表だから、
π1(θ|表) = k1f(表|θ)π(θ)
尤度・事前分布に具体的な値を代入すると、
π1(θ|表) = k1θ
確率の総和は1になるので(規格化条件)、
k1 = 2
よって1回目の事後分布は
π1(θ|表) = 2θ
■2回目の事前分布
1回目の事後分布である。
π1(θ|表) = 2θ
■2回目の事後分布
ベイズ統計学の基本公式より、
π(θ|D) = kf(D|θ)π(θ)
1回目は表だから、
π2(θ|表) = k2f(表|θ)π(θ)
尤度・事前分布に具体的な値を代入すると、
π2(θ|表) = k2 × θ × 2θ
π2(θ|表) = 2k2θ2
確率の総和は1になるので(規格化条件)、
k2 = 3/2
π2(θ|表) = 3θ2
■3回目の事前分布
2回目の事後分布である。
π2(θ|表) = 3θ2
■3回目の事後分布
ベイズ統計学の基本公式より、
π(θ|D) = kf(D|θ)π(θ)
3回目は表だから、
π3(θ|表) = k3f(表|θ)π(θ)
尤度・事前分布に具体的な値を代入すると、
π3(θ|表) = k3 × θ × 3θ2
π3(θ|表) = 3k3θ3
確率の総和は1になるので(規格化条件)、k3が求まり、
π3(θ|表) = 4θ3
■4回目の事前分布
3回目の事後分布である。
π3(θ|表) = 4θ3
■4回目の事後分布
ベイズ統計学の基本公式より、
π(θ|D) = kf(D|θ)π(θ)
4回目は裏だから、
π4(θ|裏) = k4f(裏|θ)π(θ)
尤度・事前分布に具体的な値を代入すると、
π4(θ|裏) = k4 × (1 - θ) × 4θ3
π4(θ|裏) = 20θ3(1 - θ)
事後分布を最大にするθは、
θ = 3/4 = 0.75
MAP推定より、「表の出る確率θ」の推定値は
3/4 である。
4回投げて3回表だから当たり前か。
■まとめ
1回目の事前分布 | π0(θ) = 1 |
---|---|
1回目の事後分布 2回目の事前分布 |
π1(θ|表) = 2θ |
2回目の事後分布 3回目の事前分布 |
π2(θ|表) = 3θ2 |
3回目の事後分布 4回目の事前分布 |
π3(θ|表) = 4θ3 |
4回目の事後分布 | π4(θ|裏) = 20θ3(1 - θ) |
【別解】
尤度をまとめれば一発で事後確率が求まる。
■尤度
f(表表表裏|θ) = θ3(1-θ)
■事後確率
π(θ|表表表裏) = k × f(表表表裏|θ) × π(θ)
= k × θ3(1-θ) × 1
= 20θ3(1-θ)
内容量xグラムは正規分布に従い、分散は12。
製品を3つ調べた。
1回目・・・ 99グラム
2回目・・・101グラム
3回目・・・103グラム
内容量xの「平均値μの確率分布」は?
【答】
■尤度
まとめて求める。
f(90,101,103|μ) = 略(正規分布になる)
■事前分布
とりあえず、なだらかな正規分布を仮定する。
■事後分布
略 (正規分布になる)
ある分布に従うデータに対して、事前分布に特定の分布を指定すると、事後分布が事前分布と同じになる関係を「自然な共役分布の関係」という。
データの分布 | 事前分布 | 事後分布 |
---|---|---|
ベルヌーイ分布 | ベータ分布 | ベータ分布 |
正規分布 | 正規分布 | 正規分布 |
正規分布 | 逆ガンマ分布 | 逆ガンマ分布 |
ポアソン分布 | ガンマ分布 | ガンマ分布 |
ナツメ社
売り上げランキング: 33,414