跳转到内容

泛魔識別架構

本页使用了标题或全文手工转换
维基百科,自由的百科全书
奥利弗·塞尔弗里奇在1959年提出最早的泛魔識別模型

泛魔識別架構(英語:Pandemonium architecture),又稱為鬼域模型群魔混戰模型,是對於範本比對理論(template matching,或稱模板匹配理論)無法为圖像恆常性現象提供生物学上合理的解释所作的回應。 当代的研究人员對泛魔識別架構的優美及創意讚譽有加;讓具有多个独立系统(如特征检测器)平行工作以解决圖像辨識的图像恆常性现象,這樣的想法非常强大,卻又很简单。泛魔識別架構的基本思想是,人們在感知「整體」的圖像之前,會先感知其各个部分。[1]

泛魔識別架構是圖像辨識中最早的计算模型之一。尽管並不完美,但泛魔識別架構仍影响了现代聯結主義者、人工智能单词辨識模型的发展。[2]

历史

我们感知到狗,但是我們是如何感知?還有为什么能夠感知呢?

大多数关于知覺的研究都聚焦在视觉系统上,研究人们如何看到和理解物体的机制。 视觉系统的关键功能是其辨識圖像的能力,但是实现这一功能的机制尚不清楚。 [3]

最早试图解释人们如何辨識圖像的理论是範本比對模型。根据该模型,人们會将所有外部刺激与内部心智表徵进行比较。如果所感知到的刺激与内部表徵之间存在「足够」的重叠,人们将能夠「辨别」该刺激。 尽管某些机器符合範本比對模型(例如,银行机器验证签名和帐目编号),但该理论在解释图像恆常性的方面存在严重缺陷:无论刺激物的呈现形式如何变化,人们都能輕易地辨別出該刺激(例如,T和T都可以很容易認作字母T)。人們不太可能為每個單一圖像的所有變體都提供存儲模板。 [4]

由于对範本比對模型有著生物学合理性的批评,特征检测模型开始兴起。在特征检测模型中,首先會感知圖像個別的基本元素,然後再把它作為一個整體的物體來識別。 例如,当看到字母A时,人們會先看到一條較短的水平線和兩條傾斜的長對角線,然后將特徵組合起來,完成对A的感知。每个獨特的圖像都由不同的特征组合而成,这意味着那些由相同特徵形成的圖像將產生相同的識別效果。 也就是说,无论人们如何旋转字母A,這些旋轉後的對象仍然會被認作字母A。这种架構很容易解釋圖像的恆定现象,這是因为只需要在基本特徵層面上「匹配」即可,這層面被假定作有限的,因此在生物学上是合理的。 最著名的特征检测模型称为泛魔識別架構。 [4]

泛魔識別架構

泛魔識別架構最初由奧利弗·塞爾弗里奇在1950年代後期所開發。 该架构由独立工作以处理视觉刺激的不同组別的「恶魔」團體所構成。 每组恶魔都會被分配到某個辨識的特定阶段,而恶魔會在每個團體中平行工作。 原始架構中有四組主要恶魔。 [3]

泛魔識別架構的四个主要处理阶段 [3]
阶段 恶魔名字 功能
1 图片恶魔 记录视网膜中接收到的图像。
2 特徵恶魔 特征恶魔很多,每个惡魔代表一个特定的特征。 例如,某個特征恶魔負責短直线,另一个恶魔則負責曲线,依此類推。 如果特征恶魔检测到它們所对应的特征,它們的工作就是負責“吶喊”。 请注意,特征恶魔并不代表任何特定的神经元 ,而是要代表一群具有相似功能的神经元。 例如,垂直線特徵惡魔用於表示那些對視網膜圖像中的垂直線作出反應的神經元。
3 认知恶魔 认知恶魔會觀望來自特徵魔鬼的“吶喊”。每个认知恶魔负责特定的圖像(例如,字母表中的字母)。 认知恶魔是基于特征恶魔检测到的圖像数量來“吶喊”。 认知恶魔发现与他们的圖像相对应的特征越多,它们“吶喊”的声音就越大。 例如,如果曲線、長直線和短角線的特徵惡魔發出了大聲吶喊,那么R字母认知恶魔可能会非常兴奋,而P字母認知惡魔也可能會變得有些興奮。但是Z字母认知恶魔則很可能保持安静。
4 决策恶魔 代表處理的最後階段。決策惡魔會傾聽認知惡魔發出的“吶喊”。它會從中選擇最響亮的認知惡魔。被選中的惡魔則成為意識知覺。沿續前面的例子,R認知惡魔的聲音將會是最響亮的,其次是P認知惡魔。因此人們會感知到R,但是如果由於顯示條件不好(例如,字母快速閃爍或部分被遮擋)而出錯,則很可能會感知到P。

注意,「泛魔識別」(pandemonium)僅表示系統所產生的“吶喊”累積。

特征恶魔的概念,即特定的神经元专用于执行专门的处理,在神经科学研究上得到了支持。休伯爾威泽尔发现脑中有特定的细胞对特定长度和方向的线作出反应。在青蛙章鱼和其他各种动物中也有类似的发现。人们发现章鱼只对线条的垂直度敏感,而青蛙则表现出更宽的敏感性。 这些动物实验表明,特征检测器似乎是非常早期就发展而成。也就是说,它不是由于人类的更高认知发展所致。毫不奇怪,也有证据表明人脑也具有这些基本特征检测器。[5] [6] [7]

此外,这种架构还能够学习类似于反向传播型的神经網路。認知惡魔和特徵惡魔之間的權重可以根據正確圖像和來自認知惡魔的激發之間的差異,按比例來調整。延續前面的例子,当第一次学习字母R时,人们知道字母R是由曲线、长直线和短角线组成。因此当人们感知到这些特征时,人们感知到的是R,但是字母P也是由非常相似的特征组成,所以在第一次學習的時候,这个架构很可能会误将R辨識为P,但是透過不断的接触确认R的特征而將其辨識为R,R的特征对P的权重会被调整,所以P的反应就会被抑制(例如,当检测到短角线时学会抑制P响应)。 原则上,泛魔識別架構可以辨識任何圖像。 [8]

如前所述,该架構基于重叠特征的数量進行錯誤預測。例如,R最有可能的錯誤應該是P。因此,为了表明这种架構代表了人類圖像識別系統,必須對這些預測進行測試。研究人员构建了一些场景,在这些场景中,各种字母呈现出难以辨識的情况;然后观察错误的类型,用来生成混淆矩阵(记录所有每个字母的错误)。 通常,这些实验的结果与泛魔識別架構的错误预测相匹配。 此外,由於這些實驗,研究人员也提出了一些模型,试图列出罗马字母中的所有基本特征。[9][10][11][12]

批评

泛魔識別架構主要令人詬病的地方在於,它采用了完全自下而上的处理:識別完全是由目標刺激的物理特徵所驅動。 這意味著它不能解釋任何自上而下的處理效果,像是脈絡效果( 例如空想性错视 ),也就是脈絡線索可以促進處理(如單詞優勢效應:當字母是單詞的一部分時,這時識別它要比單獨識別它要容易)。 然而,這批評對整體架构來說,並不是致命錯誤,因為添加一群脈絡惡魔來與認知惡魔一起工作來解釋這些脈絡效應是相對容易的。 [13]

全局到局部假设的证明:人们會看到H之前,先看到A。

雖然泛魔識別架構是建立在它可以解釋圖像恆定現象的基礎上的,但一些研究者卻提出了相反的觀點;並指出泛魔識別架構可能與範本比對模型有著同樣的缺陷。例如,字母H是由2條長垂直線和1條短水平線組成;但如果將H向任一方向旋轉90度,現在它是由2條長水平線和1條短垂直線組成。為了將旋轉後的H識別為H,就需要一個旋轉後的H認知惡魔。因此,最終可能會得到需要大量認知惡魔才能準確識別的系統,這將重演對範本比對模型同樣的生物學合理性批評。然而,要判斷這種批評的有效性相當困難,因為泛魔識別架構並沒有具體說明,如何提取感官輸入資訊中的特徵,以及要提取什麼特徵,它只是概述了圖像識別的可能階段。但這當然會導致了該模型自身的問題,如果如果這種模型不包括具體的參數,幾乎沒辦法對此批評。另外,在沒有定義如何提取特徵和提取什麼特徵的情況下,該理論似乎相當不完整,這也被事實證明,該問題在複雜的圖像(例如,提取一隻狗的重量和特徵)的情況下尤其嚴重。 [3] [14]

一些研究者還指出,泛魔識別架構的支持證據在研究方法上非常勉強。大多數支持這種架構的研究常常提到其識別簡單示意圖的能力,這些示意圖是從一個小量的有限集合(如羅馬字母表中的字母)中選出。這類實驗的證據可能會導致過度概括和誤導性的結論,因為三維圖像的識別過程很複雜,可能與簡單的示意圖有很大不同。此外,有些人還批評了生成混淆矩陣的研究方法,因為它把知覺混淆(錯誤答案和正確答案之間的特徵發生重疊,進而造成識別錯誤)和知覺後猜測(無法確定看到什麼,於是隨機猜測)混為一談。然而,當用其他範式(例如,去/不去和同異任務)複製類似的結果時,這些批評在某種程度上得到了解決,支持了人類確實有基本特徵檢測器的說法。這些新的範式依靠反應時間作為因變量,這也避免了混淆矩陣固有的空單元格問題(當數據有空單元格時,統計分析很難進行和解釋)。 [7]

此外,一些研究人员指出,像泛魔識別架構这样的特徵積累理論,幾乎把圖像識別的處理階段弄反。 这种批评主要是由全局到局部理论的拥护者使用,他们爭論并提供了证据,即知覺首先是從模糊的整體觀開始,随着时间的流逝而不斷完善,這意味著特徵提取不會發生在識別的早期階段。 [15]然而,沒有什麼可以阻止一個惡魔在識別一個全局圖像的同時,其他惡魔也在全局圖像中識別局部圖像。

应用和影响

基于泛魔識別的系统能够正确地将所有这些刺激辨識为字母A,而不用事先接觸这些确切的刺激。

泛魔識別架構已被應用於解決實際問題,例如翻译手動發送的摩尔斯电码和辨識手写的字母。基于泛魔識別模型的總體精度令人印象深刻,即使该系统的學習時間很短也是如此。 例如,Doyle构建了一个基于泛魔識別的系统,擁有超過30個複雜的特徵分析器。然後,他給系統輸入了幾百個字母進行學習。在這個階段,系統對輸入的字母進行分析,並產生自己的輸出(系統將輸入識別成什麼樣的字母)。系統的輸出結果會與正確的識別結果進行比較,並向系統送回誤差訊號,進而相應調整特徵分析器之間的權重。在測試階段時,會將系統不熟悉的字母呈現給系統(與學習階段所呈現的字母風格和大小不同),而系統能夠達到接近90%的準確率。 由於其出色的辨識单词的能力,所有關於人類如何閱讀和識別單詞的現代理論都遵循著這種分層式結構:單詞識別會從提取字母的特徵開始,然後激發字母檢測器[16] (例如SOLAR, [17] SERIOL, [18] IA, [19] DRC [20] )。

約翰·傑克遜(John Jackson)在最初的泛魔識別架構的基础上進行扩展,將該理論擴展到解释超出感知范围之外的现象。傑克遜提出了一個競技場的比喻來解釋 "意识"。他的競技場由一個看台、一個運動場和一個子競技場組成。競技場內擠滿了惡魔。在運動場上被指定的惡魔是活躍的惡魔,因為它們代表了人類意識的活躍元素。看台上的惡魔則會觀察那些運動場上的惡魔,直到有什麼東西讓他們興奮起來,每個惡魔是由不同的東西所激勵。惡魔們越是興奮,他們的叫喊聲就越大。如果惡魔的叫喊聲達到一個設定門檻,就可以加入運動場的其他惡魔,一起發揮它們的功能,然後可能又接著激勵其他惡魔,如此不斷循環下去。類比的子競技場則作為系統的學習和反饋機制。這裡的學習系統類似於其他任何神經樣式的網路,透過修改惡魔之間的聯結強度來學習,換句話說,就是惡魔們如何回應彼此的叫喊。這種多代理的人類訊息處理方式成為了許多現代人工智能系統的假設。 [21] [22]

比较

与範本比對理论的比较

尽管泛魔識別架構是作为回应範本比對理论的诟病而出现,但实际上两者在某种意义上非常相似:存在一个歷程,將一組檢驗項目的特定特徵集與某種心理表徵進行匹配。两者之间的关键区别在于,在範本比對理论中,图像是直接与内部表征进行对比,而在泛魔識別架構中,图像是先在特徵层面进行扩散和处理。这就赋予了泛魔識別架構巨大的威力,因为它能在刺激物的大小、风格和其他变换都會發生改變的情況下,依然能夠將其辨別刺激,而不需要假定有著无限的圖像记忆。在面对现实的视觉输入时,範本比對理论也不可能正常发挥作用,因为在现实中,物体是以三维的方式呈现,而且经常被其他物体遮挡(例如,一本书有半個部分被纸遮住,但仍然可以容易地将其辨識为一本书)。尽管如此,一些研究者还是进行了两种理论的比较实验。毫不意外的是,结果往往倾向于像泛魔識別架構这样的分層式特征之建模。[23] [24] [25]

与赫布圖像辨識的比较

赫布模型在許多方面類似於像是泛魔識別架構的特徵導向理論。赫布模型中的第一级处理称为細胞集群(Cell Assemblies),其功能与特徵恶魔非常相似。但是,細胞集群較特徵惡魔更受限制,因為它只能提取線、角度和輪廓。 細胞集群會被组合來形成相序,这与认知恶魔的功能非常相似。 从某种意义上说,许多人认为赫布模型是範本比對理论和特征匹配理论之间的交叉点,這是因为从赫布模型中所提取的特征可以视为简单模板。 [8]

參見

参考文献

  1. ^ Anderson, James A.; Rosenfeld, Edward. Neurocomputing 2nd print. Cambridge, Mass.: MIT Press. 1988. ISBN 978-0262010979. 
  2. ^ Gernsbacher, Morton Ann. Handbook of psycholinguistics [Nachdr.] San Diego, Calif. [u.a.]: Academic Press. 1998. ISBN 978-0-12-280890-6. 
  3. ^ 3.0 3.1 3.2 3.3 Lindsay, Peter H.; Norman, Donald A. Human Information Processing 2nd. New York: Academic Press. 1977. ISBN 978-0124509603. 
  4. ^ 4.0 4.1 Friedenberg, Jay; Silverman, Gordon. Cognitive Science: An introduction to the study of mind 2nd. Thousand Oaks, Calif.: SAGE. 2011-07-14. ISBN 9781412977616. 
  5. ^ Sutherland, Stuart. Visual Discrimination of Shape by Octopus. British Journal of Psychology. 1957, 48 (1): 55–70. PMID 13413184. doi:10.1111/j.2044-8295.1957.tb00599.x. 
  6. ^ Lettvin, J.; Maturana, H., McCulloch, W., Pitts, W. What the Frog's Eye Tells the Frog's Brain. Proceedings of the IRE. 1959-11-01, 47 (11): 1940–1951. doi:10.1109/JRPROC.1959.287207. 
  7. ^ 7.0 7.1 Grainger, Jonathan; Rey, Arnaud, Dufau, Stéphane. Letter perception: from pixels to pandemonium. Trends in Cognitive Sciences. 2008-10-01, 12 (10): 381–387. PMID 18760658. doi:10.1016/j.tics.2008.06.006. 
  8. ^ 8.0 8.1 Neisser, Ulric. Cognitive Psychology. New York: Appleton-Century-Crofts. 1967. Neisser, Ulric. 
  9. ^ Kinney, Glenn; Marsetta, Marion; Showman, Diana. Studies of Display Symbol Legibility, Part XII: The legibility of alphanumeric symbols for digitalized television. Bedford, Mass: The Mitre Corporation. 1966. [失效連結]
  10. ^ Gibson, Eleanor J. Principles of Perceptual Learning and Development. New York: Appleton-Century-Crofts. 1969. ISBN 9780390361455. 
  11. ^ Geyer, L. H.; DeWald, C. G. Feature lists and confusion matrices. Perception & Psychophysics. 1973-10-01, 14 (3): 471–482. doi:10.3758/BF03211185. 
  12. ^ Keren, Gideon; Baggen, Stan. Recognition models of alphanumeric characters. Perception & Psychophysics. 1981-05-01, 29 (3): 234–246. PMID 7267275. doi:10.3758/BF03207290. 
  13. ^ Reicher, Gerald M. Perceptual recognition as a function of meaningfulness of stimulus material.. Journal of Experimental Psychology. 1969-01-01, 81 (2): 275–280. PMID 5811803. doi:10.1037/h0027768. 
  14. ^ Minsky, Marvin Lee; Papert, Seymour. Perceptrons: An introduction to computational geometry 2nd print. with corr. Cambridge, Mass.: MIT Press. 1969. ISBN 978-0262630221. 
  15. ^ Lupker, Stephen J. On the nature of perceptual information during letter perception. Perception & Psychophysics. 1979-07-01, 25 (4): 303–312. PMID 461090. doi:10.3758/BF03198809. 
  16. ^ Doyle, W. Recognition of sloppy, hand-printed characters. San Francisco, California: Proc. West Joint Computer Conference. 1960. 
  17. ^ Davis, Colin J. The spatial coding model of visual word identification. Psychological Review. 2010-01-01, 117 (3): 713–758. PMID 20658851. doi:10.1037/a0019738. 
  18. ^ Whitney, Carol. How the brain encodes the order of letters in a printed word: The SERIOL model and selective literature review. Psychonomic Bulletin & Review. 2001-06-01, 8 (2): 221–243. PMID 11495111. doi:10.3758/BF03196158. 
  19. ^ McClelland, James L.; Rumelhart, David E. An interactive activation model of context effects in letter perception: I. An account of basic findings.. Psychological Review. 1981-01-01, 88 (5): 375–407. doi:10.1037/0033-295X.88.5.375. 
  20. ^ Coltheart, Max; Rastle, Kathleen, Perry, Conrad, Langdon, Robyn, Ziegler, Johannes. DRC: A dual route cascaded model of visual word recognition and reading aloud.. Psychological Review. 2001-01-01, 108 (1): 204–256. PMID 11212628. doi:10.1037/0033-295X.108.1.204. 
  21. ^ Jackson, John. Idea for a Mind. Sigart Newsletter. July 1987. 
  22. ^ Ntuen, Celestine A.; Park, Eui H. Human interactions with complex systems: Conceptual principles and design practice. Springer. 1996. ISBN 978-0792397793. 
  23. ^ Gibson, J. Learning to Read. Science. May 1965, 148 (3673): 1066–1072. Bibcode:1965Sci...148.1066G. PMID 14289608. doi:10.1126/science.148.3673.1066. 
  24. ^ Wheeler, Daniel D. Processes in word recognition. Cognitive Psychology. 1970-01-01, 1 (1): 59–85. doi:10.1016/0010-0285(70)90005-8. 
  25. ^ Larsen, Axel; Bundesen, Claus. A template-matching pandemonium recognizes unconstrained handwritten characters with high accuracy. Memory & Cognition. 1996-03-01, 24 (2): 136–143. PMID 8881318. doi:10.3758/BF03200876.