跳至內容

泛魔識別架構

本頁使用了標題或全文手工轉換
維基百科,自由的百科全書
奧利弗·塞爾弗里奇在1959年提出最早的泛魔識別模型

泛魔識別架構(英語:Pandemonium architecture),又稱為鬼域模型群魔混戰模型,是對於範本比對理論(template matching,或稱模板匹配理論)無法為圖像恆常性現象提供生物學上合理的解釋所作的回應。 當代的研究人員對泛魔識別架構的優美及創意讚譽有加;讓具有多個獨立系統(如特徵檢測器)平行工作以解決圖像辨識的圖像恆常性現象,這樣的想法非常強大,卻又很簡單。泛魔識別架構的基本思想是,人們在感知「整體」的圖像之前,會先感知其各個部分。[1]

泛魔識別架構是圖像辨識中最早的計算模型之一。儘管並不完美,但泛魔識別架構仍影響了現代聯結主義者、人工智能單詞辨識模型的發展。[2]

歷史

我們感知到狗,但是我們是如何感知?還有為什麼能夠感知呢?

大多數關於知覺的研究都聚焦在視覺系統上,研究人們如何看到和理解物體的機制。 視覺系統的關鍵功能是其辨識圖像的能力,但是實現這一功能的機制尚不清楚。 [3]

最早試圖解釋人們如何辨識圖像的理論是範本比對模型。根據該模型,人們會將所有外部刺激與內部心智表徵進行比較。如果所感知到的刺激與內部表徵之間存在「足夠」的重疊,人們將能夠「辨別」該刺激。 儘管某些機器符合範本比對模型(例如,銀行機器驗證簽章和帳目編號),但該理論在解釋圖像恆常性的方面存在嚴重缺陷:無論刺激物的呈現形式如何變化,人們都能輕易地辨別出該刺激(例如,T和T都可以很容易認作字母T)。人們不太可能為每個單一圖像的所有變體都提供儲存模板。 [4]

由於對範本比對模型有着生物學合理性的批評,特徵檢測模型開始興起。在特徵檢測模型中,首先會感知圖像個別的基本元素,然後再把它作為一個整體的物體來識別。 例如,當看到字母A時,人們會先看到一條較短的水平線和兩條傾斜的長對角線,然後將特徵組合起來,完成對A的感知。每個獨特的圖像都由不同的特徵組合而成,這意味着那些由相同特徵形成的圖像將產生相同的識別效果。 也就是說,無論人們如何旋轉字母A,這些旋轉後的對象仍然會被認作字母A。這種架構很容易解釋圖像的恆定現象,這是因為只需要在基本特徵層面上「匹配」即可,這層面被假定作有限的,因此在生物學上是合理的。 最著名的特徵檢測模型稱為泛魔識別架構。 [4]

泛魔識別架構

泛魔識別架構最初由奧利弗·塞爾弗里奇在1950年代後期所開發。 該架構由獨立工作以處理視覺刺激的不同組別的「惡魔」團體所構成。 每組惡魔都會被分配到某個辨識的特定階段,而惡魔會在每個團體中平行工作。 原始架構中有四組主要惡魔。 [3]

泛魔識別架構的四個主要處理階段 [3]
階段 惡魔名字 功能
1 圖片惡魔 記錄視網膜中接收到的圖像。
2 特徵惡魔 特徵惡魔很多,每個惡魔代表一個特定的特徵。 例如,某個特徵惡魔負責短直線,另一個惡魔則負責曲線,依此類推。 如果特徵惡魔檢測到它們所對應的特徵,它們的工作就是負責「吶喊」。 請注意,特徵惡魔並不代表任何特定的神經元 ,而是要代表一群具有相似功能的神經元。 例如,垂直線特徵惡魔用於表示那些對視網膜圖像中的垂直線作出反應的神經元。
3 認知惡魔 認知惡魔會觀望來自特徵魔鬼的「吶喊」。每個認知惡魔負責特定的圖像(例如,字母表中的字母)。 認知惡魔是基於特徵惡魔檢測到的圖像數量來「吶喊」。 認知惡魔發現與他們的圖像相對應的特徵越多,它們「吶喊」的聲音就越大。 例如,如果曲線、長直線和短角線的特徵惡魔發出了大聲吶喊,那麼R字母認知惡魔可能會非常興奮,而P字母認知惡魔也可能會變得有些興奮。但是Z字母認知惡魔則很可能保持安靜。
4 決策惡魔 代表處理的最後階段。決策惡魔會傾聽認知惡魔發出的「吶喊」。它會從中選擇最響亮的認知惡魔。被選中的惡魔則成為意識知覺。沿續前面的例子,R認知惡魔的聲音將會是最響亮的,其次是P認知惡魔。因此人們會感知到R,但是如果由於顯示條件不好(例如,字母快速閃爍或部分被遮擋)而出錯,則很可能會感知到P。

注意,「泛魔識別」(pandemonium)僅表示系統所產生的「吶喊」累積。

特徵惡魔的概念,即特定的神經元專用於執行專門的處理,在神經科學研究上得到了支援。休伯爾威澤爾發現腦中有特定的細胞對特定長度和方向的線作出反應。在青蛙章魚和其他各種動物中也有類似的發現。人們發現章魚只對線條的垂直度敏感,而青蛙則表現出更寬的敏感性。 這些動物實驗表明,特徵檢測器似乎是非常早期就發展而成。也就是說,它不是由於人類的更高認知發展所致。毫不奇怪,也有證據表明人腦也具有這些基本特徵檢測器。[5] [6] [7]

此外,這種架構還能夠學習類似於反向傳播型的神經網絡。認知惡魔和特徵惡魔之間的權重可以根據正確圖像和來自認知惡魔的激發之間的差異,按比例來調整。延續前面的例子,當第一次學習字母R時,人們知道字母R是由曲線、長直線和短角線組成。因此當人們感知到這些特徵時,人們感知到的是R,但是字母P也是由非常相似的特徵組成,所以在第一次學習的時候,這個架構很可能會誤將R辨識為P,但是透過不斷的接觸確認R的特徵而將其辨識為R,R的特徵對P的權重會被調整,所以P的反應就會被抑制(例如,當檢測到短角線時學會抑制P響應)。 原則上,泛魔識別架構可以辨識任何圖像。 [8]

如前所述,該架構基於重疊特徵的數量進行錯誤預測。例如,R最有可能的錯誤應該是P。因此,為了表明這種架構代表了人類圖像識別系統,必須對這些預測進行測試。研究人員構建了一些場景,在這些場景中,各種字母呈現出難以辨識的情況;然後觀察錯誤的類型,用來生成混淆矩陣(記錄所有每個字母的錯誤)。 通常,這些實驗的結果與泛魔識別架構的錯誤預測相匹配。 此外,由於這些實驗,研究人員也提出了一些模型,試圖列出羅馬字母中的所有基本特徵。[9][10][11][12]

批評

泛魔識別架構主要令人詬病的地方在於,它採用了完全自下而上的處理:識別完全是由目標刺激的物理特徵所驅動。 這意味着它不能解釋任何自上而下的處理效果,像是脈絡效果( 例如空想性錯視 ),也就是脈絡線索可以促進處理(如單詞優勢效應:當字母是單詞的一部分時,這時識別它要比單獨識別它要容易)。 然而,這批評對整體架構來說,並不是致命錯誤,因為添加一群脈絡惡魔來與認知惡魔一起工作來解釋這些脈絡效應是相對容易的。 [13]

全域到局部假設的證明:人們會看到H之前,先看到A。

雖然泛魔識別架構是建立在它可以解釋圖像恆定現象的基礎上的,但一些研究者卻提出了相反的觀點;並指出泛魔識別架構可能與範本比對模型有着同樣的缺陷。例如,字母H是由2條長垂直線和1條短水平線組成;但如果將H向任一方向旋轉90度,現在它是由2條長水平線和1條短垂直線組成。為了將旋轉後的H識別為H,就需要一個旋轉後的H認知惡魔。因此,最終可能會得到需要大量認知惡魔才能準確識別的系統,這將重演對範本比對模型同樣的生物學合理性批評。然而,要判斷這種批評的有效性相當困難,因為泛魔識別架構並沒有具體說明,如何提取感官輸入資訊中的特徵,以及要提取什麼特徵,它只是概述了圖像識別的可能階段。但這當然會導致了該模型自身的問題,如果如果這種模型不包括具體的參數,幾乎沒辦法對此批評。另外,在沒有定義如何提取特徵和提取什麼特徵的情況下,該理論似乎相當不完整,這也被事實證明,該問題在複雜的圖像(例如,提取一隻狗的重量和特徵)的情況下尤其嚴重。 [3] [14]

一些研究者還指出,泛魔識別架構的支援證據在研究方法上非常勉強。大多數支援這種架構的研究常常提到其識別簡單示意圖的能力,這些示意圖是從一個小量的有限集合(如羅馬字母表中的字母)中選出。這類實驗的證據可能會導致過度概括和誤導性的結論,因為三維圖像的識別過程很複雜,可能與簡單的示意圖有很大不同。此外,有些人還批評了生成混淆矩陣的研究方法,因為它把知覺混淆(錯誤答案和正確答案之間的特徵發生重疊,進而造成識別錯誤)和知覺後猜測(無法確定看到什麼,於是隨機猜測)混為一談。然而,當用其他範式(例如,去/不去和同異任務)複製類似的結果時,這些批評在某種程度上得到了解決,支援了人類確實有基本特徵檢測器的說法。這些新的範式依靠反應時間作為因變數,這也避免了混淆矩陣原生的空單元格問題(當數據有空單元格時,統計分析很難進行和解釋)。 [7]

此外,一些研究人員指出,像泛魔識別架構這樣的特徵積累理論,幾乎把圖像識別的處理階段弄反。 這種批評主要是由全域到局部理論的擁護者使用,他們爭論並提供了證據,即知覺首先是從模糊的整體觀開始,隨着時間的流逝而不斷完善,這意味着特徵提取不會發生在識別的早期階段。 [15]然而,沒有什麼可以阻止一個惡魔在識別一個全域圖像的同時,其他惡魔也在全域圖像中識別局部圖像。

應用和影響

基於泛魔識別的系統能夠正確地將所有這些刺激辨識為字母A,而不用事先接觸這些確切的刺激。

泛魔識別架構已被應用於解決實際問題,例如翻譯手動傳送的摩爾斯電碼和辨識手寫的字母。基於泛魔識別模型的總體精度令人印象深刻,即使該系統的學習時間很短也是如此。 例如,Doyle構建了一個基於泛魔識別的系統,擁有超過30個複雜的特徵剖析器。然後,他給系統輸入了幾百個字母進行學習。在這個階段,系統對輸入的字母進行分析,並產生自己的輸出(系統將輸入識別成什麼樣的字母)。系統的輸出結果會與正確的識別結果進行比較,並向系統送回誤差訊號,進而相應調整特徵剖析器之間的權重。在測試階段時,會將系統不熟悉的字母呈現給系統(與學習階段所呈現的字母風格和大小不同),而系統能夠達到接近90%的準確率。 由於其出色的辨識單詞的能力,所有關於人類如何閱讀和識別單詞的現代理論都遵循着這種分層式結構:單詞識別會從提取字母的特徵開始,然後激發字母檢測器[16] (例如SOLAR, [17] SERIOL, [18] IA, [19] DRC [20] )。

約翰·傑克遜(John Jackson)在最初的泛魔識別架構的基礎上進行擴充,將該理論擴展到解釋超出感知範圍之外的現象。傑克遜提出了一個競技場的比喻來解釋 "意識"。他的競技場由一個看台、一個運動場和一個子競技場組成。競技場內擠滿了惡魔。在運動場上被指定的惡魔是活躍的惡魔,因為它們代表了人類意識的活躍元素。看台上的惡魔則會觀察那些運動場上的惡魔,直到有什麼東西讓他們興奮起來,每個惡魔是由不同的東西所激勵。惡魔們越是興奮,他們的叫喊聲就越大。如果惡魔的叫喊聲達到一個設置門檻,就可以加入運動場的其他惡魔,一起發揮它們的功能,然後可能又接着激勵其他惡魔,如此不斷循環下去。模擬的子競技場則作為系統的學習和反饋機制。這裏的學習系統類似於其他任何神經樣式的網絡,透過修改惡魔之間的聯結強度來學習,換句話說,就是惡魔們如何回應彼此的叫喊。這種多代理的人類訊息處理方式成為了許多現代人工智能系統的假設。 [21] [22]

比較

與範本比對理論的比較

儘管泛魔識別架構是作為回應範本比對理論的詬病而出現,但實際上兩者在某種意義上非常相似:存在一個歷程,將一組檢驗項目的特定特徵集與某種心理表徵進行匹配。兩者之間的關鍵區別在於,在範本比對理論中,圖像是直接與內部表徵進行對比,而在泛魔識別架構中,圖像是先在特徵層面進行擴散和處理。這就賦予了泛魔識別架構巨大的威力,因為它能在刺激物的大小、風格和其他變換都會發生改變的情況下,依然能夠將其辨別刺激,而不需要假定有着無限的圖像記憶。在面對現實的視覺輸入時,範本比對理論也不可能正常發揮作用,因為在現實中,物體是以三維的方式呈現,而且經常被其他物體遮擋(例如,一本書有半個部分被紙遮住,但仍然可以容易地將其辨識為一本書)。儘管如此,一些研究者還是進行了兩種理論的比較實驗。毫不意外的是,結果往往傾向於像泛魔識別架構這樣的分層式特徵之建模。[23] [24] [25]

與赫布圖像辨識的比較

赫布模型在許多方面類似於像是泛魔識別架構的特徵導向理論。赫布模型中的第一級處理稱為細胞叢集(Cell Assemblies),其功能與特徵惡魔非常相似。但是,細胞叢集較特徵惡魔更受限制,因為它只能提取線、角度和輪廓。 細胞叢集會被組合來形成相序,這與認知惡魔的功能非常相似。 從某種意義上說,許多人認為赫布模型是範本比對理論和特徵匹配理論之間的交叉點,這是因為從赫布模型中所提取的特徵可以視為簡單模板。 [8]

參見

參考文獻

  1. ^ Anderson, James A.; Rosenfeld, Edward. Neurocomputing 2nd print. Cambridge, Mass.: MIT Press. 1988. ISBN 978-0262010979. 
  2. ^ Gernsbacher, Morton Ann. Handbook of psycholinguistics [Nachdr.] San Diego, Calif. [u.a.]: Academic Press. 1998. ISBN 978-0-12-280890-6. 
  3. ^ 3.0 3.1 3.2 3.3 Lindsay, Peter H.; Norman, Donald A. Human Information Processing 2nd. New York: Academic Press. 1977. ISBN 978-0124509603. 
  4. ^ 4.0 4.1 Friedenberg, Jay; Silverman, Gordon. Cognitive Science: An introduction to the study of mind 2nd. Thousand Oaks, Calif.: SAGE. 2011-07-14. ISBN 9781412977616. 
  5. ^ Sutherland, Stuart. Visual Discrimination of Shape by Octopus. British Journal of Psychology. 1957, 48 (1): 55–70. PMID 13413184. doi:10.1111/j.2044-8295.1957.tb00599.x. 
  6. ^ Lettvin, J.; Maturana, H., McCulloch, W., Pitts, W. What the Frog's Eye Tells the Frog's Brain. Proceedings of the IRE. 1959-11-01, 47 (11): 1940–1951. doi:10.1109/JRPROC.1959.287207. 
  7. ^ 7.0 7.1 Grainger, Jonathan; Rey, Arnaud, Dufau, Stéphane. Letter perception: from pixels to pandemonium. Trends in Cognitive Sciences. 2008-10-01, 12 (10): 381–387. PMID 18760658. doi:10.1016/j.tics.2008.06.006. 
  8. ^ 8.0 8.1 Neisser, Ulric. Cognitive Psychology. New York: Appleton-Century-Crofts. 1967. Neisser, Ulric. 
  9. ^ Kinney, Glenn; Marsetta, Marion; Showman, Diana. Studies of Display Symbol Legibility, Part XII: The legibility of alphanumeric symbols for digitalized television. Bedford, Mass: The Mitre Corporation. 1966. [失效連結]
  10. ^ Gibson, Eleanor J. Principles of Perceptual Learning and Development. New York: Appleton-Century-Crofts. 1969. ISBN 9780390361455. 
  11. ^ Geyer, L. H.; DeWald, C. G. Feature lists and confusion matrices. Perception & Psychophysics. 1973-10-01, 14 (3): 471–482. doi:10.3758/BF03211185. 
  12. ^ Keren, Gideon; Baggen, Stan. Recognition models of alphanumeric characters. Perception & Psychophysics. 1981-05-01, 29 (3): 234–246. PMID 7267275. doi:10.3758/BF03207290. 
  13. ^ Reicher, Gerald M. Perceptual recognition as a function of meaningfulness of stimulus material.. Journal of Experimental Psychology. 1969-01-01, 81 (2): 275–280. PMID 5811803. doi:10.1037/h0027768. 
  14. ^ Minsky, Marvin Lee; Papert, Seymour. Perceptrons: An introduction to computational geometry 2nd print. with corr. Cambridge, Mass.: MIT Press. 1969. ISBN 978-0262630221. 
  15. ^ Lupker, Stephen J. On the nature of perceptual information during letter perception. Perception & Psychophysics. 1979-07-01, 25 (4): 303–312. PMID 461090. doi:10.3758/BF03198809. 
  16. ^ Doyle, W. Recognition of sloppy, hand-printed characters. San Francisco, California: Proc. West Joint Computer Conference. 1960. 
  17. ^ Davis, Colin J. The spatial coding model of visual word identification. Psychological Review. 2010-01-01, 117 (3): 713–758. PMID 20658851. doi:10.1037/a0019738. 
  18. ^ Whitney, Carol. How the brain encodes the order of letters in a printed word: The SERIOL model and selective literature review. Psychonomic Bulletin & Review. 2001-06-01, 8 (2): 221–243. PMID 11495111. doi:10.3758/BF03196158. 
  19. ^ McClelland, James L.; Rumelhart, David E. An interactive activation model of context effects in letter perception: I. An account of basic findings.. Psychological Review. 1981-01-01, 88 (5): 375–407. doi:10.1037/0033-295X.88.5.375. 
  20. ^ Coltheart, Max; Rastle, Kathleen, Perry, Conrad, Langdon, Robyn, Ziegler, Johannes. DRC: A dual route cascaded model of visual word recognition and reading aloud.. Psychological Review. 2001-01-01, 108 (1): 204–256. PMID 11212628. doi:10.1037/0033-295X.108.1.204. 
  21. ^ Jackson, John. Idea for a Mind. Sigart Newsletter. July 1987. 
  22. ^ Ntuen, Celestine A.; Park, Eui H. Human interactions with complex systems: Conceptual principles and design practice. Springer. 1996. ISBN 978-0792397793. 
  23. ^ Gibson, J. Learning to Read. Science. May 1965, 148 (3673): 1066–1072. Bibcode:1965Sci...148.1066G. PMID 14289608. doi:10.1126/science.148.3673.1066. 
  24. ^ Wheeler, Daniel D. Processes in word recognition. Cognitive Psychology. 1970-01-01, 1 (1): 59–85. doi:10.1016/0010-0285(70)90005-8. 
  25. ^ Larsen, Axel; Bundesen, Claus. A template-matching pandemonium recognizes unconstrained handwritten characters with high accuracy. Memory & Cognition. 1996-03-01, 24 (2): 136–143. PMID 8881318. doi:10.3758/BF03200876.