動画像から取得した骨格データからの個人識別において観測方向などを潜在変数としてモデルに組み込むために,深層学習を用いた生成モデルを用いたアプローチで識別を行った論文です.生成モデルとして,連続に学習できる混合ガウス分布を用いた変分オートエンコーダ―を提案しています.ここでは混合ガウス分布を用いた変分オートエンコーダ―について解説します.
変分オートエンコーダ―の学習では,事前分布と同じ確率分布を持つ近似事後分布を深層モデルでパラメタライズし変分推論します.この論文では事前分布と近似事後分布を混合ガウス分布とするため,混合ガウス分布からの勾配逆伝播可能なサンプリングと生成モデルの変分下限の計算が必要となります.
生成モデル
混合ガウス分布に従う潜在変数をzとし,クラス分類におけるカテゴリを意味する潜在変数をsとすると,この変分オートエンコーダの生成モデルは以下で表せられます.
p(x,z,s)=pθ(x∣z,s)p(z,s)(1)
ここで,混合ガウス分布とする事前分布p(z,s)=p(z∣s)p(s)は以下のようにカテゴリカル分布部分とガウス分布部分に分けられます
p(z∣s)p(s)=i=1∏KN(z∣μi,Σi)si=i=1∏Kπsi
混合ガウス分布からの勾配逆伝播可能なサンプリング
カテゴリカル分布部分についてはConcrete Distribution[1]を用います.これはカテゴリカル分布に温度パラメータを導入して連続化したものです.次にガウス分布部分であるp(z∣s)は対数をとって以下のように変形できます.
logp(z∣s)=i=1∑KsilogN(z∣μi,Σi)=i=1∑K−2si{(z−μi)TΣi−1(z−μi)}+const.=−21[zT{i=1∑KsiΣi−1}z−2zT{i=1∑KsiΣi−1μi}]+const.
ここで,確率変数zを含まない項を定数項const.としてまとめています.上の式は確率変数zについて二次の多項式であるため,p(z∣s)はガウス分布となります.そしてその平均μgmm
と共分散行列Σgmmは以下となります.
p(z∣s)Σgmm−1μgmm=N(z∣μgmm,Σgmm)=i=1∑KsiΣi−1=Σgmm{i=1∑KsiΣi−1μi}
変分オートエンコーダ―では通常は共分散行列Σi(i=1,…,K)を対角行列とするので逆行列は簡単に計算できます.結局,潜在変数zはガウス分布のreparametarization-trick[2]によって勾配逆伝播可能なサンプリングができます.これはカテゴリカル潜在変数sが連続であっても同様です.
変分下限
式1で表される生成モデルの変分下限は以下となります.
L[ϕ,θ]=∬qϕ(z,s∣x)logqϕ(z,s∣x)p(x,z,s)dzds=Ez,s∼qϕ(z,s∣x)[logpθ(x∣z,s)]−DKL[qϕ(z,s∣x)∣∣p(z,s)]
この変分下限の負の値を学習の損失関数とします.ここでDKLはKLダイバージェンスです.
上の式の第一項は再構成誤差と解釈できるため,第二項のKLダイバージェンス項について考えます.第二項は以下のように変形できます.
DKL[qϕ(z,s∣x)∣∣p(z,s)]=∬qϕ(z,s∣x)logp(z,s)qϕ(z,s∣x)dzds=∬qϕ(z∣s,x)qϕ(s∣x)logp(z∣s)p(s)qϕ(z∣s,x)qϕ(s∣x)dsdz=∬qϕ(z∣s,x)qϕ(s∣x)logp(z∣s)qϕ(z∣s,x)dzds+∬qϕ(z∣s,x)qϕ(s∣x)logp(s)qϕ(s∣x)dzds=∫qϕ(s∣x)∫qϕ(z∣s,x)logp(z∣s)qϕ(z∣s,x)dzds+∫qϕ(s∣x)logp(s)qϕ(s∣x)ds=∫qϕ(s∣x)DKL[qϕ(z∣s,z)∣∣p(z∣s)]ds+∫qϕ(s∣x)logp(s)qϕ(s∣x)ds
DKL[qϕ(z∣s,x)∣∣p(z∣s)]
はガウス分布のKLダイバージェンスであり解析的に計算できるので,第一項はConcrete Distributionに従うカテゴリ潜在変数sのサンプリングによるモンテカルロ推定で近似計算計算できます.第二項はConcrete DistributionのKLダイバージェンスであるため,Concrete Distributionの対数尤度比をモンテカルロ推定によって近似計算できます[3].以上で損失関数が計算できます.
論文では,このモデルを利用してクラス分類を行っています.教師データはConcrete Distributionの事前分布として与えています.
[1]: The concrete distribution: A
Continuous Relaxation of Discrete Random Variables
[2]: Auto-Encoding Variational Bayes
[3]: The concrete distribution: A
Continuous Relaxation of Discrete Random Variables