在變分貝葉斯方法中,證據下界(英語:evidence lower bound,ELBO;有時也稱為變分下界[1]或負變分自由能)是一種用於估計一些觀測數據的對數似然的下限。
術語和符號
設和是隨機變量,其聯合分佈為。例如,是的邊緣分佈,是在給定的條件下,的條件分佈。那麼對於任何從中抽取的樣本和任何分佈,我們有:
我們將上述不等式稱為ELBO不等式。其中,左側稱為的證據,右側稱為的證據下界(ELBO)。
在變分貝葉斯方法的術語中,分佈稱為證據。一些人使用「證據」一詞來表示,而其他作者將稱為對數證據,有些人會交替使用證據和對數證據這兩個術語。
ELBO 沒有普遍且固定的表示法。在本文中我們使用
動機
變分貝葉斯推理
假設我們有一個可觀察的隨機變量,並且我們想找到其真實分佈。這將允許我們通過抽樣生成數據,並估計未來事件的概率。一般來說,精確找到是不可能的,因此我們不得不尋找一個近似。
也就是說,我們定義一個足夠大的參數化分佈族,然後最小化某種損失函數,。解決這個問題的一種可能方法是考慮從到的微小變化,並解決。這是變分法中的一個變分問題,因此被稱為變分方法。
由於明確參數化的分佈族並不多(所有經典的分佈族,如正態分佈、Gumbel分佈等都太過簡單,無法很好地模擬真實分佈),我們考慮隱式參數化的概率分佈:
- 首先,定義一個在潛在隨機變量上的簡單分佈。通常情況下,正態分佈或均勻分佈已足夠。
- 接下來,定義一個由參數化的複雜函數族(例如深度神經網絡)。
- 最後,定義一種將任何轉換為可觀測隨機變量的簡單分佈的方法。例如,讓具有兩個輸出,那麼我們可以將相應的分佈定義為在上的正態分佈。
這定義了一個關於的聯合分佈族。從中抽取樣本變得非常容易:只需從中抽樣,然後計算,最後使用來抽樣。
換句話說,我們擁有了一個可觀測量和潛在隨機變量的生成模型。
現在,我們認為一個分佈是好的,如果它是的一個接近近似:由於右側的分佈僅涉及到,因此左側的分佈必須消除潛在變量的影響,即要對進行邊緣化。
一般情況下,我們無法積分,這迫使我們尋找另一個近似。
由於,因此我們只需要找到一個的好的近似即可。因此,我們定義另一個分佈族來近似,這是一個針對潛在變量的判別模型。
下表概述了所有情況:
:觀測量
|
|
:潛變量
|
可近似的
|
|
,簡單
|
|
,簡單
|
|
可近似的
|
|
,簡單
|
用貝葉斯的方式來說,是觀測到的證據,是潛在/未觀測到的隨機變量。分佈在上是的先驗分佈,是似然函數,而是的後驗分佈。
給定一個觀測值,我們可以通過計算來推斷出可能導致出現的。通常的貝葉斯方法是估計積分:
然後通過貝葉斯定理計算:
這通常是非常耗時的,但如果我們可以找到一個在大多數下的好近似,那麼我們就可以快速地從推斷出。因此,尋找一個好的也稱為攤銷推斷。
綜上所述,我們找到了一個變分貝葉斯推斷問題。
推導ELBO
變分推斷中的一個基本結果是,最小化Kullback–Leibler 散度(KL散度)等價於最大化對數似然:其中是真實分佈的熵。因此,如果我們可以最大化
我們就可以最小化
因此找到一個準確的近似。要最大化我們只需從真實分佈中抽取許多樣本,然後使用:為了最大化,必須要找到:[註 1]這通常沒有解析解,必須進行估計。估計積分的常用方法是使用重要性採樣進行蒙特卡洛積分:其中,是我們用於進行蒙特卡羅積分的在上的抽樣分佈。因此,我們可以看到,如果我們抽樣,那麼是的一個無偏估計量。不幸的是,這並不能給我們一個對的無偏估計量,因為是非線性的。事實上,由於琴生(Jensen)不等式,我們有:事實上,所有明顯的的估計量都是向下偏的,因為無論我們取多少個的樣本,我們都可以由琴生不等式得到:減去右邊,我們可以看出問題歸結為零的有偏估計問題:通過delta 方法,我們有如果我們繼續推導,我們將得到加權自編碼器。[2]但是讓我們先回到最簡單的情況,即:不等式的緊度有一個解析解:這樣我們就得到了ELBO函數:
最大化 ELBO
對於固定的,優化的同時試圖最大化和最小化。如果和的參數化足夠靈活,我們會得到一些 ,使得我們同時得到了以下近似:由於我們有所以也就是說: 最大化ELBO將同時使我們得到一個準確的生成模型和一個準確的判別模型 。
主要形式
ELBO具有許多可能的表達式,每個表達式都有不同的強調。這個形式表明,如果我們抽樣 , 則是 ELBO 的無偏估計量。這種形式顯示 ELBO 是證據的下界 ,並且關於最大化 ELBO 等價於最小化從到 KL 散度 .這種形式顯示,最大化ELBO同時試圖將保持接近,並將集中在最大化的那些上。也就是說,近似後驗在保持先驗的同時,朝着最大似然移動。這個形式顯示,最大化ELBO同時試圖保持的熵高,並將集中於最大化的那些 。也就是說,近似後驗在均勻分佈和向最大後驗之間保持平衡。
數據處理不等式
假設我們從中取個獨立樣本,並將它們收集在數據集中,則我們具有經驗分佈。其中表示衝激函數(Dirac函數)。
從擬合通常可以通過最大化對數似然來完成:現在,根據 ELBO 不等式,我們可以約束 , 因此右側簡化為 KL 散度,因此我們得到:這個結果可以解釋為數據處理不等式的一個特例。
在這個解釋下,最大化等價於最小化,其中上式是真實的需要估計的量的上界,通過數據處理不等式獲得。也就是說,我們通過將潛在空間與觀測空間連接起來,為了更高效地最小化KL散度而付出了較弱的不等式代價。[3]
參考
- ^ Kingma. Auto-Encoding Variational Bayes. arXiv:1312.6114 .
- ^ Burda, Yuri; Grosse, Roger; Salakhutdinov, Ruslan. Importance Weighted Autoencoders. 2015-09-01 [2023-03-22]. (原始內容存檔於2023-03-22).
- ^ Kingma, Diederik P.; Welling, Max. An Introduction to Variational Autoencoders. Foundations and Trends in Machine Learning. 2019-11-27, 12 (4). Section 2.7 [2023-03-22]. ISSN 1935-8237. arXiv:1906.02691 . doi:10.1561/2200000056. (原始內容存檔於2023-03-22) (English).
註釋