草稿:演算法偏見

维基百科,自由的百科全书

演算法偏見是一種電腦系統中可重複的系統性錯誤。這種錯誤經常導致「不公平」的結果,使得演算法傾向於給予特定群體一些優勢,或是劣勢,且這樣的結果並非演算法原先設計的本意。

演算法偏見的例子如,徵才招聘演算法中對性別的偏見[1],臉部辨識 AI 對非裔人種的辨識準確率較低[2]等等。這樣的偏見可能會產生各種對種族、性別、性向、文化中不同群體的傷害,或是強化既有的偏見。演算法偏見在近期已被納入許多國家或區域的法律中,例如歐盟的《通用資料保護規則》 (2018 年)和擬議的《人工智慧法案》 (2021 年)。

隨著演算法在社會中各領域的普及與能力的擴張,學者開始注意數據的操縱、非預期的演算結果所帶來的演算法偏見,會如何影響現實社會。由於人們傾向認為演算法是中立且公正、無情感的,因此社會大眾普遍會給予演算法過度的權威,甚至高於人類本身(部分基於「自動化偏見」的心理現象)。在某些情況下,對於演算法的依賴很可能會導致沒有人能對演算法的結果負責。

演算法偏見可能肇生於許多因素:

  1. 既存於社會中的偏見。此類偏見可能體現於用來訓練演算法的數據或資料集當中,或是演算法的設計者本身即帶有偏見。例如:因為歷史資料中傾向雇用男性成為工程師,因此招聘演算法錯誤地學習並傾向給予男性較高的分數。
  2. 技術上的限制。例如:非裔人種在臉部識別系統中有較高的錯誤率,因為非裔臉孔在資料集的比例中佔比較少(佔比少的原因也可能來自既存的偏見)。
  3. 使用情境的變換。例如:原先設計用來在特定族群中使用的演算法,被挪用到另一族群中。


類別

既存偏見

既存偏見來自社會或組織中長存的意識形態。演算法設計者在設計的過程中可能會有意識地帶著這樣的偏見,或是在無意識下被其影響[3][4]。既存偏見通常隨著演算法的訓練資料(資料本身就隱含偏見,或是蒐集的過程帶有偏見[5])進到系統當中,社會中的偏見自此得以在演算法中被系統性地保存。若沒有任何修正,這樣的偏見會不斷地於系統裡再現而不會消失[6][7]

1981年英國國籍法令系統(British Nationality Act Program),是在該法於1981年設立後,為了自動化是否具有英國國籍資格的檢驗流程而設計的程式[3]。此程式精準地依循法令中的規則來判斷一個人是否具有國籍資格。例如法令中記述:「若某人為一男性的婚生子女,則視該男性為此人的父親。而若某人為一女性所生,無論婚生與否,視該女性為此人的母親。」[8]該演算法忠實地將此規則納入系統的判斷標準中。即便該法案未來失效了,所有該法案中隱藏的偏見,仍會被保存於此系統之中。此即為既存偏見體現於系統中的案例之一。

標籤選擇錯誤也是一種常見的既存偏見[9]。此類偏見通常肇因於用來預測或衡量的數據本身在不同群體之間有所差異,因而造成結果對該群體特別有利或不利。例如在判斷醫療照護需求演算法中,設計時通常假設「醫療花費」跟「醫療需求」有正向的相關關係,因此在數據中透過「醫療花費」來代表個體的醫療需求多寡,進而訓練演算法。

事實上基於種種原因,非裔病患的「醫療花費」普遍較其他族群低。因此即便健康狀況和其他族群的人一樣糟,演算法根據歷史資料會預測該非裔病患的「醫療花費」較其他人低,因而認為他的「醫療需求」較低[10]。這裡選擇「醫療花費」作為標籤,即是一種既存偏見的體現。

技術性偏見

技術性偏見來自於電腦程式、運算能力、設計,或是其他的系統上的限制。有時這樣的偏見也會促成系統設計上的限縮。例如,搜尋引擎僅能在一頁中顯示三筆搜尋結果,則前三筆搜尋結果相較他者在此系統中更有利(許多情況下,字典序較前面者會比較有利)。另一個例子則是隨機亂數產生器,若在某系統中使用的隨機亂數不夠隨機,則某些物件在排序時會比較容易被排在前面或是後面。


例如抄襲偵測軟體Turnitin,軟體使用的演算法比較學生撰寫的文字以及網路上檢索到的資訊,並給出學生是否抄襲的信心分數。由於演算法基於比較文字用字的相似度,此演算法將使得使用英語為母語者較非母語者有優勢,因為他們更有能力去替換詞彙、拆解語句來降低信心分數。因此,Turnitin的演算法對母語者帶來了優勢因為他們能更容易地規避抄襲檢測[11],此為演算法方法所帶來的技術性偏見。

衍生型偏見

衍生型偏見發生於演算法的挪用,使其悖離原先設計時設想的使用情境。演算法本身並不會隨著時間取得新的知識,因此演算法無法隨著如醫藥界的新發現、法律的更新、商業模式或文化價值觀等等的改變而自行調整。此外,衍生型偏見也出現在當用於訓練演算法的資料與現實世界中演算法應用的母體不同時所產生的誤差。

西元1990年,一個為美國的醫學生配對分發醫院的軟體(National Residency Match Program,簡稱NRMP)完美地展示了衍生型偏見。此演算法要求每位學生提供志願序,而各醫院亦依據學生的成績排序,演算法會尋找相對平衡的配對去分配學生與醫院。當分發的演算法在設計時,需要分發的醫學生中鮮少有配偶兩人同時在名單中而需要綁定同一所醫院。隨著時間經過,越來越多女性投入醫學院,配偶雙方都是醫學生且尋求綁定分發的情形亦越來越多。而若兩人選擇綁定分發,演算法的結果會選擇成績高者的高志願醫院,通常是另一半的低志願醫院,而非選擇對雙方而言的折衷方案。

  1. ^ 《合作媒體》PINGWEST. 亞馬遜的 AI 在履歷篩選中歧視女性? AI 犯的錯來自人類的偏見. INSIDE. 2018-10-16 [2023-11-20]. 
  2. ^ 號稱種族及性別平權的Google,為何在AI界掀起歧視的風暴? - 報導者 The Reporter. www.twreporter.org. [2023-11-20] (中文(臺灣)). 
  3. ^ 3.0 3.1 Friedman, Batya; Nissenbaum, Helen. Bias in Computer Systems (PDF). ACM Transactions on Information Systems. July 1996, 14 (3): 330–347 [10 March 2019]. S2CID 207195759. doi:10.1145/230538.230561. 
  4. ^ Tewell, Eamon. Toward the Resistant Reading of Information: Google, Resistant Spectatorship, and Critical Information Literacy. Portal: Libraries and the Academy. 4 April 2016, 16 (2): 289–310 [19 November 2017]. ISSN 1530-7131. S2CID 55749077. doi:10.1353/pla.2016.0017. 
  5. ^ Goffrey, Andrew. Fuller, Matthew , 编. Algorithm有限度免费查阅,超限则需付费订阅. Cambridge, Mass.: MIT Press. 2008: 15–20. ISBN 978-1-4356-4787-9. 
  6. ^ Ziewitz, Malte. Governing Algorithms: Myth, Mess, and Methods. Science, Technology, & Human Values. 1 January 2016, 41 (1): 3–16. ISSN 0162-2439. S2CID 148023125. doi:10.1177/0162243915608948. 
  7. ^ Introna, Lucas D. The Enframing of Code. Theory, Culture & Society. 2 December 2011, 28 (6): 113–141. S2CID 145190381. doi:10.1177/0263276411418131. 
  8. ^ Sergot, MJ; Sadri, F; Kowalski, RA; Kriwaczek, F; Hammond, P; Cory, HT. The British Nationality Act as a Logic Program (PDF). Communications of the ACM. May 1986, 29 (5): 370–386 [18 November 2017]. S2CID 5665107. doi:10.1145/5689.5920. 
  9. ^ To stop algorithmic bias, we first have to define it. Brookings. [2023-06-27] (美国英语). 
  10. ^ Evans, Melanie; Mathews, Anna Wilde. Researchers Find Racial Bias in Hospital Algorithm. Wall Street Journal. 2019-10-24 [2023-06-27]. ISSN 0099-9660 (美国英语). 
  11. ^ Introna, Lucas D. Maintaining the reversibility of foldings: Making the ethics (politics) of information technology visible. Ethics and Information Technology. 21 December 2006, 9 (1): 11–25. CiteSeerX 10.1.1.154.1313可免费查阅. S2CID 17355392. doi:10.1007/s10676-006-9133-z.