12/22知能システム論ノート(第10回)
- 最優推定法は、学習データの生起確率(尤度)を最大にするパラメータを求める
- 最優推定法の問題点
- 言語モデルの推定には不適切
- 学習データになかったデータの確率が0になったり、たまたまでてきたマイナー単語の確率が高くなることがある。
- 何らかの方法で、見たことがない単語列の確率を推定する必要がある。
- スムージング(ディスカウンティング)
- 確率0の事象に確率値をちょっとずつ分け与える
- たまたま出てきた事象は確率値が高めに推定されているはず
- 未観測の事象は確率0ではないはず
- 確率を足したら1になるように振り分ける
- どういうふうに割り振るか?
- Laplace法
- すべての事象は1回は観測されたとする
- Add-oneスムージングとも呼ばれる
- 複数のモデルの組み合わせ
- おなじみ観測の現象でも、確率値は違うのではないか?
- Nグラムは未観測でも、N-1グラムが観測されている場合、
- N-1グラムの確率値が高ければ、Nグラムの確率も高い
- N-1グラムの確率値が低ければ、Nグラムの確率も低い
- 線形補間
- 複数のモデルの線形結合
- 例:Trigramモデルとbigram, unigramモデルと組み合わせる
- 手書き③
- 統計学では混合モデルと呼ばれる。
- EM学習
- その他いろいろ
- Good-Turing
- Absolute discounting
- Linear discounting
- バックオフ
- Kneser-Ney法
- などが提案されている
- 実世界データから確率を学習するときは、スムージングなしではまともに動かない。
- 機械学習
- 実際のデータから規則性を自動的に学習したい
- 学習した結果を新しいデータに適用する
- さまざまな分野で活用されている
- 画像・音声認識
- 言語処理・検索
- 株価の予測
- 事故の自動検出
- ・・・
- 分類問題
- 何らかの入力に対してラベルを付ける問題
- 二値分類:ラベル=o or x
- 多値分類:ラベル=有限集合
- テキスト分類:ラベル={政治・経済・スポーツ・etc..}
- 機械学習の枠組み
- 例:スパムフィルター
- 電子メールをスパムかそうでないかに分類(二値分類)
- まず、各メールにどういう単語が出てきているかに注目=特徴ベクトルを決める
- 特徴ベクトル
- 事象xのさまざまな特徴を特徴ベクトル(素性ベクトル)f(x)で表す
- これにより、現実世界のさまざまなものを数学の世界に持って行ける
- 線形分類器
- 特徴ベクトルfの関数としてスパムらしさを定義
- 線形分類器:特徴ベクトルの線形関数を考える
- σ(x)>0->スパム