ベイズの定理例題迷惑メール

=============================================ナイーブベイズ分類器、あるいは単純ベイズ分類器という分類器について解説したいと思います。何それ？という方。まずはわけがわからないとしてもWikipediaのエントリを見てみましょう。上の説明でよくわかったという方はこれ以上先に進む必要はありません。ナイーブベイズ分類器は、一言でいうと、分類問題ってベイズの定理を使えば解けるんじゃね？というものです。入力 $X$ が与えられた時に出力 $Y$ が得られる確率 $P(Y|X)$ は以下の等式で表す事が出来ます：$$これがベイズの定理です。 $P(Y)$ は事前分布と呼ばれ、 $P(X|Y)$ は尤度とか条件付き確率とか呼ばれます。例を挙げると、のように、Xには何らかの起こった事象や入力データを、Yにはそこから推論したい事柄などを当てはめるわけです。ナイーブベイズ分類器は上の式の右辺を求めるわけですが、右辺を完璧に求めたいわけではなく、あるXに対して$$分母の $P(X)$ がなくなりました。最終的にはこの式の右辺を求めて、右辺が最大になるYを答えとして求める事になります。このままでは単なるベイズ分類器です。ナイーブベイズ分類器は確率分布 $P(X|Y)$ をシンプルな分布に限定します。いま、 Xはなんかよくわからんものですが、これを多次元変数であるとしましょう：$$なので、みなさんは自分で解きたい問題を頑張って多次元変数にする必要があります。X=俺の今の気持ち、とかしても無理です。$$これがナイーブベイズ分類器です。以上終わり。・・・とこれで終わってしまうと味気なさすぎるので、もうちょっと突っ込んでいきます。今、学習データとしてD個の正解を今持っているとします：$$$(S_j, T_j)$ は入力と出力の正解データのペアを表しています。また、取りうるYの値は離散値で、1, 2, ..., Kのうちのどれかだとします。ちゃんと書くと、$$です。正解データはそれぞれ独立していて、データの順番は関係ないものとします。さて、求める確率分布はこれら正解データをちゃんと再現出来ていなければなりません。$S_1$ だった時 $T_1$ で、かつ $S_2$ だった時 $T_2$ で、かつ ... で、かつ $S_D$ だった時 $T_D$ である確率を最大化する先ほどのベイズモデルをちょっと具体的にして、$$とします。ここで $\Theta = \{ \theta_1, \theta_2, ..., \theta_M \}$、$\Phi = \{ \phi_1, \phi_2, ..., \phi_L \}$ は確率分布を特徴付けるパラメータです。この式を使うと、最大化する確率は$$と書くことが出来ます。この時点で、変数はもはや $\Theta$ と $\Phi$ だけです。つまり、やるべきことはMを最大にする $\Theta$ と $\Phi$ を求める事です。この式はもう少しだけ整理することが出来ます。 $T_j$ は1からKのどれかなので、正解データを綺麗に1から順番になるように並び替えましょう。正解データは独立なのでいくら並び替えても文句はないはずです。Y=kの正解データの個数を $Q_k$ と書くと、$$ここで、 $S_{ki}$ はY=kになるSのi番目、という意味です。Mが最大になる必要条件は？それは、微分して0になることです：$$一般化したのでとりあえずこれ以上先には進めません。次にいくつかの具体例でこの条件を解いてみます。$P(x_i|Y)$ にガウス分布を仮定したモデルです：$$一つのYにつき、一組の $(\mu_Y, \sigma_Y)$ でモデル化しています。 $\mu_Y$はN次元の量である事に注意です。ではガウスモデルを解いてみます。一例として、事前分布 $P(Y)$ は一様分布（定数）だとします。この時、変数 $\Phi$ に相当するものは無いので考える必要はありません。変数 $\Theta$ に対応するのは $(\mu_Y, \sigma_Y)$ です。最大化すべきMは、$$です。小文字sがえらい事になっていますが、"Y=kになる正解データのi番目の入力データのj番目の要素"です。$\vec{\mu}$ のある一つの要素 $\mu_{lm}$ について微分したものが0になる条件は、$$$\mu_{lm}$ が無限大、という解は置いておいて、$$が得られました。直感的に当たり前な感じでいい感じですね！次に、ある $\sigma_l$ について微分したものが0になる条件は、$$$\sigma_l$ が無限大、という解は置いておいて、$$が得られました。こちらも直感的に当たり前な感じでいいですね！得られた $\vec{\mu}$ 、 $\vec{\sigma}$ を $P(X|Y)$ の式に入れてあげればモデルの完成です。各 $x_i$ が二値でしか表されない時に用いられる最もシンプルなモデルです。値はなんでもいいんですが、例えば0か1しかない、つまり$$な状況において、次のような式で表されます：$$ここで、 $\delta(\cdot)$ はデルタ関数です。 $p_i$ は $x_i=1$ となる確率そのものを表している変数です。$$です。$p_{kj}$ はY=kの時の $x_j$ の確率そのものを表しています。 $\vec{p}$ のある一つの要素 $p_{lm}$ について微分したものが0になる条件は、$$最初のカッコの中を0にすればいいので、$$これで、確率の比$$が得られます。 $p_{lm}$ は、$$という関係を使って、$$で得ることができます。この式の右辺は $s_{lum} = 1$となる正解データの個数を全体で割ったものです。この節では、文書分類を具体例に多項分布のモデルを解いてみます。ナイーブベイズがよく使われる例に文書分類タスクがあります。文書分類タスクというのは、文書が与えられた時に例えばそのカテゴリやトピック、タグのようなものを割り当てるというタスクです。別に文書と言っていますがメールだったりツイートだったり、なんかまとまったテキストの事です。迷惑メールの自動振り分けなんかもこれで、迷惑メールであるかそうでないかの２つのカテゴリを割り当てる事に対応します。文書分類タスクをナイーブベイズで解く際に用いられる最も単純なモデルは多項分布モデルです。このモデルは文書を確率で表現する際に、という条件を課す事で得られます。この条件でモデルを作ってみましょう。事前分布 $P(Y)$ はひとまず置いておきます。$$と書けます。条件２があるので確率が単語毎にバラバラになりますね。次に、条件３があるので、 $P(w_i|Y)$ は文書中の出現位置iに依存しません。なので、単語 $w_i$ を50音順にソートしてしまいましょう。例えば、”このりんごはおいしいりんごだ”という文は”おいしいこのだはりんごりんご”になります。単語にIDを1から順に振って、 $P(\text{ID}|Y) = p_{\text{ID}}$ とすると、$$ここで、Vは単語数（単語IDの上限）、 $c_i$ は単語ID i番の単語の文書X中での出現数になります。実は、この節のタイトルは多項分布モデルとなっていますが、厳密な意味では多項分布の形にはなっていません。原因は、文書を多次元変数として捉えるときに、今回の様に一次元系列として捉えるか、単語の出現頻度を文書の表現として捉えるかの立場の違いによります。まずは一様な事前分布を仮定して解いてみます。最大化すべき関数Mは$$です。事前分布は定数項なのでカットします。また、 $S_{ki}$ に対応するのは $p_{kj}$ と $c_{kij}$ です。 $p_{kj}$ はカテゴリがkである文書が持つ、単語IDがjの単語の確率です。 $c_{kij}$ はカテゴリがkである文書の、i番目の正解データの、単語IDがjの単語が出てくる数、です。ちょっと見通しが悪いので、iに関する積をまとめて指数の肩に載せましょう：$$ここで、$$はカテゴリがkである正解データに含まれる単語ID jの単語の総数、です。$$さて、Mを $\vec{p}$ のある一つの要素 $p_{lm}$ で微分して極値を求めましょう。ただし、今回は $p_{kj}$ に以下の条件が付きます：$$この条件をみたすようにMを最大化するためにラグランジュの未定定数法を使います。$$ここで、$$の条件を使って、両辺和を取ると、$$これを $\beta$ に代入してあげれば、$$もう一度説明すると、 $\tau_{lm}$ は、カテゴリがlである正解データに含まれる単語ID mの単語の総数、です。上で解いた分布には実用上大きな問題があります。それは、というものです。式中では $\tau_{lm}$ に相当します。せっかくなので、この問題に事前分布を設定することによって対処します。業界では、この事を”事前知識を与える”等と言ったりします。多項分布モデルでよく使われる事前分布はディリクレ分布です。ディリクレ分布というのは下の形のような分布です：$$$\Gamma$はガンマ関数です。これをいまの問題設定に当てはめてみます。この分布はこのままだと連続的に変化するベクトル $\vec{p}$ に対する分布になっているので、$$要は確率の定義域を変えます。すると、 $P(Y)$ のあるY=kでの確率は以下の様に書けるはずです：$$２つ目の式、kに関する和が確率全部足したら１、という条件を満たすための定数項を表しています。この関数 $Z$ は分配関数とも呼ばれています（今回はこのあたりには突っ込んでいきません）。この事前分布を持つような多項分布モデルにおけるMは次のようになります：$$事前分布が一様の場合と比べてほとんど形が一緒ですね。定数項のZを除くと $\tau_{kj}$ が $\tau_{kj} + \alpha_j - 1$ に変わっただけです。つまり、 $p_{lm}$ は$$である、という事です。これでディリクレ事前分布を仮定した多項分布モデルが解けました。で、この $\alpha_i$ って一体どうやって決めればいいのでしょうか？ひとつの方法は、”適当に決める”です。いや、本当です。$$とする事ができます。これは加算スムージングと呼ばれている方法になります。あとは $\alpha = 1$ なりなんなり適当に設定してください。周辺尤度最大化法と呼ばれる方法もあります。周辺尤度は入力データの出現確率 $P(S_1, S_2, \dots, S_D)$ を最大にするようにパラメータを調整するというものです。 $S_i$ は正解の入力データです。それではやってみましょう。周辺尤度を $L$ とします。$$途中でディリクレ分布の正規化に関する等式$$を使いました。あとは $\alpha$を色々動かして、最大値を探せばOKです。多分この式は解析的に解けず、数値的に解くことになります。いかがでしたでしょうか？なるべく途中式を書いていたので数式アレルギーの人はきつかったかもしれません。

楽天茂木現在, ゼクシィ縁結び LINE交換後退会, 日ハム 13 番歴代, 朝ドラなつぞら 1話動画, アメリカ通販服, マイクラクリエイティブ修繕, 金田朋子神谷浩史ファミ通, PUBG コート PS4, アレルギー性紫斑病大人ブログ, JR 西日本岡山支社企画課, 山形駅から東京駅新幹線時刻表, ダンス反転なぜ, 荒野行動専属ガチャ単発, マリノスユニフォームアウェイ, ドームベッド手作り, プロスピ2019 フォーム変更巨人, パズル糊付け外す, 血界戦線ホワイト再登場, パプリカ楽譜入門, 風といっしょに Animony, 象印 Stan 炊飯器ヨドバシ, 蒼穹のファフナー EXODUS 22話動画, コンゴーレッド染色原理, 高校サッカープロ内定 2018, 坂本真綾 Flyingdog, ささやき戦術長嶋なんj, 亜鉛ブルーイング, キャンパスコレクション 2020 仙台, アメリカ電子タバコ販売禁止, 湘南純愛組漫画ネタバレ, 電機メーカー年収ランキング, 九里亜蓮父, 相棒堕ちた巨星, 渡辺まゆ Facebook 山梨, 夢おいしい炊飯器評価, The Story 意味, 血が吹き出す英語, 甲状腺腫瘍手術入院期間, 行川アイランドフラミンゴ野生化, アナデン無課金星5, ブルーチーズパスタブロッコリー, 金沢日帰り大阪, ダンクシュート雑誌楽天, みやこ町ランチテレビ, 金スマオードリー後編動画, 部屋虹スピリチュアル, 新三国志武将組み合わせ, No I Don't Know, さくらんぼナポレオン値段, Iga 腎症手遅れ, Pubgモバイルチート Iphone, 動画編集ソフト初心者無料, プロスピバグ報告, 湯田温泉日帰り温泉ユラリ, 一丁福山カップラーメン, ソユーズ型ロケット, マイクラランタン無限スイッチ, Queentet サマーライブセトリ, ガチャベルト作る, 明治安田生命株価チャート, 安定志向類語, ニコニコモンズ動画素材使い方, ねんどろいどイタチ偽物, ハネッコポポッコワタッコ, ふれあい歌中村雅俊, アンパンマン衣装子供, サロメ首なぜ, 黒英語大文字, β2マイクログロブリン尿高値, 性転換手術外観画像, 創約とある魔術の禁書目録(2巻発売日), 長門市萩バス, レモンイラスト手書き, 異世界長編漫画, シャーロックホームズ動画, ビオチン効能肌, クロラムブシル犬副作用, 東京コインランドリードラマ Yahoo, 横浜Fマリノスユニフォーム 2019, PUBG ランキング日本, Permission Permit 違い, マルティナクレンジング落ちない, チヨダ靴下取り, Pouring Rain 意味, 中華野菜ターサイ, クロノトリガーお金単位,