ベイズの定理 例題 迷惑メール

=============================================ナイーブベイズ分類器、あるいは単純ベイズ分類器という分類器について解説したいと思います。何それ?という方。まずはわけがわからないとしてもWikipediaのエントリを見てみましょう。上の説明でよくわかったという方はこれ以上先に進む必要はありません。ナイーブベイズ分類器は、一言でいうと、分類問題ってベイズの定理を使えば解けるんじゃね?というものです。入力 $X$ が与えられた時に出力 $Y$ が得られる確率 $P(Y|X)$ は以下の等式で表す事が出来ます:$$これがベイズの定理です。 $P(Y)$ は事前分布と呼ばれ、 $P(X|Y)$ は尤度とか条件付き確率とか呼ばれます。例を挙げると、のように、Xには何らかの起こった事象や入力データを、Yにはそこから推論したい事柄などを当てはめるわけです。ナイーブベイズ分類器は上の式の右辺を求めるわけですが、右辺を完璧に求めたいわけではなく、あるXに対して$$分母の $P(X)$ がなくなりました。最終的にはこの式の右辺を求めて、右辺が最大になるYを答えとして求める事になります。このままでは単なるベイズ分類器です。ナイーブベイズ分類器は確率分布 $P(X|Y)$ をシンプルな分布に限定します。いま、 Xはなんかよくわからんものですが、これを多次元変数であるとしましょう:$$なので、みなさんは自分で解きたい問題を頑張って多次元変数にする必要があります。X=俺の今の気持ち、とかしても無理です。$$これがナイーブベイズ分類器です。以上終わり。・・・とこれで終わってしまうと味気なさすぎるので、もうちょっと突っ込んでいきます。今、学習データとしてD個の正解を今持っているとします:$$$(S_j, T_j)$ は入力と出力の正解データのペアを表しています。また、取りうるYの値は離散値で、1, 2, ..., Kのうちのどれかだとします。ちゃんと書くと、$$です。正解データはそれぞれ独立していて、データの順番は関係ないものとします。さて、求める確率分布はこれら正解データをちゃんと再現出来ていなければなりません。$S_1$ だった時 $T_1$ で、かつ $S_2$ だった時 $T_2$ で、かつ ... で、かつ $S_D$ だった時 $T_D$ である確率を最大化する先ほどのベイズモデルをちょっと具体的にして、$$とします。ここで $\Theta = \{ \theta_1, \theta_2, ..., \theta_M \}$、$\Phi = \{ \phi_1, \phi_2, ..., \phi_L \}$ は確率分布を特徴付けるパラメータです。この式を使うと、最大化する確率は$$と書くことが出来ます。この時点で、変数はもはや $\Theta$ と $\Phi$ だけです。つまり、やるべきことはMを最大にする $\Theta$ と $\Phi$ を求める事です。この式はもう少しだけ整理することが出来ます。 $T_j$ は1からKのどれかなので、正解データを綺麗に1から順番になるように並び替えましょう。正解データは独立なのでいくら並び替えても文句はないはずです。Y=kの正解データの個数を $Q_k$ と書くと、$$ここで、 $S_{ki}$ はY=kになるSのi番目、という意味です。Mが最大になる必要条件は?それは、微分して0になることです:$$一般化したのでとりあえずこれ以上先には進めません。次にいくつかの具体例でこの条件を解いてみます。$P(x_i|Y)$ にガウス分布を仮定したモデルです:$$一つのYにつき、一組の $(\mu_Y, \sigma_Y)$ でモデル化しています。 $\mu_Y$はN次元の量である事に注意です。ではガウスモデルを解いてみます。一例として、事前分布 $P(Y)$ は一様分布(定数)だとします。この時、変数 $\Phi$ に相当するものは無いので考える必要はありません。変数 $\Theta$ に対応するのは $(\mu_Y, \sigma_Y)$ です。最大化すべきMは、$$です。小文字sがえらい事になっていますが、"Y=kになる正解データのi番目の入力データのj番目の要素"です。$\vec{\mu}$ のある一つの要素 $\mu_{lm}$ について微分したものが0になる条件は、$$$\mu_{lm}$ が無限大、という解は置いておいて、$$が得られました。直感的に当たり前な感じでいい感じですね!次に、ある $\sigma_l$ について微分したものが0になる条件は、$$$\sigma_l$ が無限大、という解は置いておいて、$$が得られました。こちらも直感的に当たり前な感じでいいですね!得られた $\vec{\mu}$ 、 $\vec{\sigma}$ を $P(X|Y)$ の式に入れてあげればモデルの完成です。各 $x_i$ が二値でしか表されない時に用いられる最もシンプルなモデルです。値はなんでもいいんですが、例えば0か1しかない、つまり$$な状況において、次のような式で表されます:$$ここで、 $\delta(\cdot)$ はデルタ関数です。 $p_i$ は $x_i=1$ となる確率そのものを表している変数です。$$です。$p_{kj}$ はY=kの時の $x_j$ の確率そのものを表しています。 $\vec{p}$ のある一つの要素 $p_{lm}$ について微分したものが0になる条件は、$$最初のカッコの中を0にすればいいので、$$これで、確率の比$$が得られます。 $p_{lm}$ は、$$という関係を使って、$$で得ることができます。この式の右辺は $s_{lum} = 1$となる正解データの個数を全体で割ったものです。この節では、文書分類を具体例に多項分布のモデルを解いてみます。ナイーブベイズがよく使われる例に文書分類タスクがあります。文書分類タスクというのは、文書が与えられた時に例えばそのカテゴリやトピック、タグのようなものを割り当てるというタスクです。別に文書と言っていますがメールだったりツイートだったり、なんかまとまったテキストの事です。迷惑メールの自動振り分けなんかもこれで、迷惑メールであるかそうでないかの2つのカテゴリを割り当てる事に対応します。文書分類タスクをナイーブベイズで解く際に用いられる最も単純なモデルは多項分布モデルです。このモデルは文書を確率で表現する際に、という条件を課す事で得られます。この条件でモデルを作ってみましょう。事前分布 $P(Y)$ はひとまず置いておきます。$$と書けます。条件2があるので確率が単語毎にバラバラになりますね。次に、条件3があるので、 $P(w_i|Y)$ は文書中の出現位置iに依存しません。なので、単語 $w_i$ を50音順にソートしてしまいましょう。例えば、”この りんご は おいしい りんご だ”という文は”おいしい この だ は りんご りんご”になります。単語にIDを1から順に振って、 $P(\text{ID}|Y) = p_{\text{ID}}$ とすると、$$ここで、Vは単語数(単語IDの上限)、 $c_i$ は単語ID i番の単語の文書X中での出現数になります。実は、この節のタイトルは多項分布モデルとなっていますが、厳密な意味では多項分布の形にはなっていません。原因は、文書を多次元変数として捉えるときに、今回の様に一次元系列として捉えるか、単語の出現頻度を文書の表現として捉えるかの立場の違いによります。まずは一様な事前分布を仮定して解いてみます。最大化すべき関数Mは$$です。事前分布は定数項なのでカットします。また、 $S_{ki}$ に対応するのは $p_{kj}$ と $c_{kij}$ です。 $p_{kj}$ はカテゴリがkである文書が持つ、単語IDがjの単語の確率です。 $c_{kij}$ はカテゴリがkである文書の、i番目の正解データの、単語IDがjの単語が出てくる数、です。ちょっと見通しが悪いので、iに関する積をまとめて指数の肩に載せましょう:$$ここで、$$はカテゴリがkである正解データに含まれる単語ID jの単語の総数、です。$$さて、Mを $\vec{p}$ のある一つの要素 $p_{lm}$ で微分して極値を求めましょう。ただし、今回は $p_{kj}$ に以下の条件が付きます:$$この条件をみたすようにMを最大化するためにラグランジュの未定定数法を使います。$$ここで、$$の条件を使って、両辺和を取ると、$$これを $\beta$ に代入してあげれば、$$もう一度説明すると、 $\tau_{lm}$ は、カテゴリがlである正解データに含まれる単語ID mの単語の総数、です。上で解いた分布には実用上大きな問題があります。それは、というものです。式中では $\tau_{lm}$ に相当します。せっかくなので、この問題に事前分布を設定することによって対処します。業界では、この事を”事前知識を与える”等と言ったりします。多項分布モデルでよく使われる事前分布はディリクレ分布です。ディリクレ分布というのは下の形のような分布です:$$$\Gamma$はガンマ関数です。これをいまの問題設定に当てはめてみます。この分布はこのままだと連続的に変化するベクトル $\vec{p}$ に対する分布になっているので、$$要は確率の定義域を変えます。すると、 $P(Y)$ のあるY=kでの確率は以下の様に書けるはずです:$$2つ目の式、kに関する和が確率全部足したら1、という条件を満たすための定数項を表しています。この関数 $Z$ は分配関数とも呼ばれています(今回はこのあたりには突っ込んでいきません)。この事前分布を持つような多項分布モデルにおけるMは次のようになります:$$事前分布が一様の場合と比べてほとんど形が一緒ですね。定数項のZを除くと $\tau_{kj}$ が $\tau_{kj} + \alpha_j - 1$ に変わっただけです。つまり、 $p_{lm}$ は$$である、という事です。これでディリクレ事前分布を仮定した多項分布モデルが解けました。で、この $\alpha_i$ って一体どうやって決めればいいのでしょうか?ひとつの方法は、”適当に決める”です。いや、本当です。$$とする事ができます。これは加算スムージングと呼ばれている方法になります。あとは $\alpha = 1$ なりなんなり適当に設定してください。周辺尤度最大化法と呼ばれる方法もあります。周辺尤度は入力データの出現確率 $P(S_1, S_2, \dots, S_D)$ を最大にするようにパラメータを調整するというものです。 $S_i$ は正解の入力データです。それではやってみましょう。周辺尤度を $L$ とします。$$途中でディリクレ分布の正規化に関する等式$$を使いました。あとは $\alpha$を色々動かして、最大値を探せばOKです。多分この式は解析的に解けず、数値的に解くことになります。いかがでしたでしょうか?なるべく途中式を書いていたので数式アレルギーの人はきつかったかもしれません。

.

楽天 茂木 現在, ゼクシィ 縁結び LINE交換後 退会, 日ハム 13 番 歴代, 朝ドラ なつ ぞ ら 1話 動画, アメリカ 通販 服, マイクラ クリエイティブ 修繕, 金田朋子 神谷浩史 ファミ通, PUBG コート PS4, アレルギー性紫斑病 大人 ブログ, JR 西日本 岡山支社 企画 課, 山形 駅から東京駅 新幹線時刻表, ダンス 反転 なぜ, 荒野行動 専属ガチャ 単発, マリノス ユニフォーム アウェイ, ドーム ベッド 手作り, プロスピ2019 フォーム変更 巨人, パズル 糊付け 外す, 血界戦線 ホワイト 再登場, パプリカ 楽譜 入門, 風 と いっしょ に Animony, 象印 Stan 炊飯器 ヨドバシ, 蒼穹のファフナー EXODUS 22話 動画, コンゴーレッド 染色 原理, 高校サッカー プロ内定 2018, 坂本 真綾 Flyingdog, ささやき戦術 長嶋 なんj, 亜鉛 ブルー イング, キャンパスコレクション 2020 仙台, アメリカ 電子タバコ 販売禁止, 湘南純愛組 漫画 ネタバレ, 電機メーカー 年収 ランキング, 九 里亜 蓮 父, 相棒 堕ち た巨星, 渡辺まゆ Facebook 山梨, 夢 おいしい 炊飯器 評価, The Story 意味, 血が 吹き出す 英語, 甲状腺腫瘍 手術 入院期間, 行川アイランド フラミンゴ 野生化, アナデン 無課金 星5, ブルーチーズ パスタ ブロッコリー, 金沢 日帰り 大阪, ダンクシュート 雑誌 楽天, みやこ町 ランチ テレビ, 金スマ オードリー 後編 動画, 部屋 虹 スピリチュアル, 新三国志 武将 組み合わせ, No I Don't Know, さくらんぼ ナポレオン 値段, Iga 腎症 手遅れ, Pubgモバイル チート Iphone, 動画編集ソフト 初心者 無料, プロスピ バグ 報告, 湯田温泉 日帰り温泉 ユラリ, 一丁 福山 カップ ラーメン, ソユーズ 型 ロケット, マイクラ ランタン無限 スイッチ, Queentet サマーライブ セトリ, ガチャ ベルト 作る, 明治安田生命 株価 チャート, 安定 志向 類語, ニコニコモンズ 動画素材 使い方, ねんどろいど イタチ 偽物, ハネッコ ポポッコ ワタッコ, ふれあい 歌 中村雅俊, アンパンマン 衣装 子供, サロメ 首 なぜ, 黒 英語 大文字, β2マイクログロブリン 尿 高値, 性転換手術 外観 画像, 創約 とある魔術の禁書目録(2巻 発売日), 長門市 萩 バス, レモン イラスト 手書き, 異世界 長編 漫画, シャーロック ホームズ 動画, ビオチン 効能 肌, クロラムブシル 犬 副作用, 東京コインランドリー ドラマ Yahoo, 横浜Fマリノス ユニフォーム 2019, PUBG ランキング 日本, Permission Permit 違い, マルティナ クレンジング 落ちない, チヨダ 靴 下取り, Pouring Rain 意味, 中華 野菜 ターサイ, クロノトリガー お金 単位,