書目探勘

维基百科,自由的百科全书

書目探勘(bibliomining),就是將資料探勘技術運用於圖書館。它是資料探勘書目計量學統計學、報表工具的結合,以求從圖書館系統的大量資料中,粹取並了解讀者的行為模式,進而支援決策、改進服務。

起源

「書目探勘」(bibliomining)一詞是由學者Scott Nicholson提出,最早見於2003年Nicholson的“The Bibliomining Process: Data Warehousing and Data Mining for Library Decision-Making.”文章中。「書目探勘」早期在英文中,是以「Data mining in library」統稱,但Nicholson認為,多數包含“data mining” + “library”的文章, “library” 純粹指在資料探勘中的工具庫,而非討論“資料探勘應用於圖書館”,因此另創詞彙“bibliomining”予以區隔。

過程

在2003年Nicholson的“The Bibliomining Process: Data Warehousing and Data Mining for Library Decision-Making.”文章中,介紹了書目探勘的過程如下:

  • 確定主題(determining areas of focus);
  • 決定圖書館內部與外部的資料來源(identifying internal and external data sources);
  • 建立資料倉儲,並予以收集、清理、與匿名化資料(collecting, cleaning, and anonymizing the data into a data warehouse);
  • 選擇適當的分析工具(selecting appropriate analysis tools);
  • 從探勘與分析的結果發掘資料樣態(discovery of patterns through data mining and creation of reports with traditional analytical tools);
  • 分析與實做(analyzing and implementing the results.)

應用

至於書目探勘在圖書館領域之應用,林湧順在其碩士論文「以資料探勘技術探討高中生使用圖書館之行為模式─以國立台灣師範大學附屬高級中學為例」中,有做出如下的歸納:

資料探勘技術 技術應用
關聯規則分析
  • 找出讀者個人特性與圖書之間的關聯性
  • 利用讀者特性的相似性推薦圖書
  • 將同質性的圖書推薦給適性的讀者
  • 這是最多人使用的探勘技術
分類分析
  • 藉由讀者不同的特性與借閱紀錄,判別讀者間的相似性與相異性,找出各類特性的讀者對圖書的興趣。
  • 以此模式推薦新書給讀者。
群集分析
  • 找出圖書與圖書、讀者與讀者之間的關係,以探討使用者的群集特性,並找出其借閱行為的傾向。
次序相關分析
  • 依據讀者借閱的順序,來推薦給其他未借閱之讀者。

書目探勘的資料倉儲

要進行書目探勘,必須先建立資料倉儲(data warehouse)。在2005年Nicholson的「The Basis for Bibliomining: Frameworks for Bringing Together Usage-Based Data Mining and Bibliometrics through Data Warehousing in Digital Library Services.」文章中,對圖書館的資料倉儲所應包含的內容,分為三大類別:作品(work)、使用者(user)、服務(service),有以下分別簡介:

  • 使用者(user)
    • 匿名化過後的使用者資料(Demographic Surrogate)。
    • 其他可用於了解使用者的資料:如IP位址郵遞區號

整體的資料倉儲概念圖,可以下圖表示:

參考資料