摘 要: 基于數(shù)據(jù)挖掘技術,以SQL 2000數(shù)據(jù)庫為基礎,設計了一種圖書館改進方案。詳細描述了借閱記錄、個性化服務、館藏布置、圖書分布和決策支持等管理和服務方面設計思路,初步建立了圖書館綜合化的管理服務平臺。
關鍵詞: 圖書館;數(shù)據(jù)挖掘技術;管理服務平臺
隨著計算機技術和通信技術的發(fā)展,高校圖書館的職能已從傳統(tǒng)的讀者服務和教育功能逐漸向讀者提高、領導決策的職能轉變,在豐富的信息資源中為用戶提供有效的信息和知識參考咨詢,完善圖書館的資源建設,進行數(shù)字化的科學管理[1-2]。現(xiàn)代圖書館正向自動化、數(shù)字化、信息化方向發(fā)展,數(shù)據(jù)挖掘技術可在促進職能轉變、建設圖書館資源、提高服務質量、拓寬服務范圍等方面提供強有力的技術和服務支持。
本文針對焦作大學圖書館管理和建設工作的現(xiàn)狀和不足,采用數(shù)據(jù)挖掘技術,提出一種圖書館改進方案設計,為校圖書館的資源建設、讀者服務提供有效保證,并根據(jù)采集的信息和數(shù)據(jù),為教學和科研的發(fā)展提供依據(jù)。
1 數(shù)據(jù)挖掘技術概述
1.1 數(shù)據(jù)挖掘技術的定義
數(shù)據(jù)挖掘[3-5]DM(Data Mining)是從大量數(shù)據(jù)中提取隱含在其中的事先不知道但又有潛在的有用信息和知識的過程,而這些信息和知識是不完全的、有噪聲的、模糊的、隨機的。發(fā)現(xiàn)的知識主要用于信息管理、查詢優(yōu)化、決策支持、過程控制等,也可以用于數(shù)據(jù)的自我維護。狹義上的數(shù)據(jù)挖掘是數(shù)據(jù)庫知識發(fā)現(xiàn)KDD(Knowledge Discovery in Database)的一個關鍵步驟,是提取數(shù)據(jù)和建立模型的重要環(huán)節(jié)。
1.2 數(shù)據(jù)挖掘的過程
數(shù)據(jù)挖掘大致可以分為四個步驟:(1)資源發(fā)現(xiàn),即提取信息所需要的數(shù)據(jù);(2)信息的選擇和預處理,即從檢索到的數(shù)據(jù)和信息中篩選和處理有用的信息;(3)模型化,即從單個或多個信息發(fā)現(xiàn)其中的規(guī)律,建立普遍的模型;(4)評價,即對挖掘出的模型進行確認或者解釋。
根據(jù)挖掘的類型不同,數(shù)據(jù)挖掘的方法主要有以下四種[6]:
(1)關聯(lián)分析。從大量不同屬性數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)之間的關聯(lián)性,挖掘出數(shù)據(jù)間潛在的相互關系或者結構,如超級市場的“購物籃”問題研究。
(2)序列分析。從一定時間間隔內接連發(fā)生的事件中發(fā)現(xiàn)各數(shù)據(jù)之間的聯(lián)系。把這些事件用一個序列表示,序列中的各事件除具有時間屬性外,還具有統(tǒng)計上的概率性,與關聯(lián)分析的算法相似。
(3)分類分析。把具有相同屬性的樣本看作同一個類別,通過分析類別樣本的特點,得到?jīng)Q定樣本屬性的規(guī)則和方法。如全國受教育程度分析中,可以依據(jù)文化程度來劃分樣本。
(4)聚類分析。與分類分析不同,聚類分析是把數(shù)據(jù)按照其相似性和差異性分成若干具有一定意義的子集,然后再分別描述不同的類別。
2 圖書館改進設計方案
焦作大學圖書館始建于1981年,經(jīng)過近30年的發(fā)展,擁有了豐富的館藏資源,可提供圖書借閱、期刊查詢、讀者服務等基本功能,為全校教學和科研提供了強有力的支撐。針對我校圖書館的資源布置、信息檢索和服務方面的缺點,采用數(shù)據(jù)挖掘技術,在現(xiàn)有圖書館資源和管理的基礎上,提出了圖書館改進方案。方案設計原理框圖如圖1所示。

系統(tǒng)以SQL 2000數(shù)據(jù)庫為基礎,分為用戶數(shù)據(jù)庫和館藏資源數(shù)據(jù)庫,并根據(jù)兩個數(shù)據(jù)庫的信息提供服務支持。用戶數(shù)據(jù)庫主要用來為圖書館館藏資源的使用者提供有用戶檢索、借閱記錄和個性化等主要功能;館藏資源數(shù)據(jù)庫用于搜集和提供圖書館的資源,包括紙質圖書、電子資源等;服務支持根據(jù)系統(tǒng)搜集的信息,提高圖書館在館舍布置、圖書分布及決策服務等管理方面的服務,促進圖書館的科學管理。在圖1所示的方案設計中,數(shù)據(jù)庫挖掘技術主要應用于借閱記錄、個性化服務和服務支持等功能中。
2.1 借閱記錄
讀者借閱記錄存儲于用戶數(shù)據(jù)庫中,每條記錄包含讀者的標識碼和借閱圖書的標識碼,如表1所示。

采用數(shù)據(jù)挖掘技術挖掘讀者信息和對應的圖書信息時,為提高挖掘效率,采用數(shù)據(jù)表形式存放挖掘記錄,并根據(jù)讀者的標識碼和圖書的分類及存放地址的表鏈接,如表2和表3所示。

借閱記錄采用關聯(lián)分析方法,通過唯一的讀者標識碼在數(shù)據(jù)庫內部自動把三者連接起來,顯示完整的圖書借閱信息供管理人員、讀者查詢。同時,數(shù)據(jù)庫自動記錄圖書的借閱頻率、圖書類別的使用頻率和圖書的交叉借閱頻率,并存儲為管理人員提供的參考信息。
2.2 個性化服務
采用數(shù)據(jù)挖掘技術,根據(jù)數(shù)據(jù)庫記錄的圖書借閱頻率和圖書類別使用頻率,數(shù)據(jù)庫在讀者查詢相關圖書時,自動把頻率較高的圖書置前,并根據(jù)讀者的興趣愛好向讀者推薦相關圖書。當讀者所需要的圖書已被全部借閱或者圖書館沒有收藏時,自動向讀者推薦3~5種的相關替代圖書或電子資源。
2.3 服務支持
服務支持主要包括圖書館館藏布置、圖書分布和決策服務。
館藏布置根據(jù)數(shù)據(jù)庫統(tǒng)計的圖書類別使用頻率和圖書交叉借閱頻率來布置不同類別的圖書庫在圖書館的位置,使關聯(lián)度較高的圖書庫緊鄰。如借閱了文學類圖書的讀者同時借閱藝術類圖書的頻率較高,則可把文學圖書庫和藝術圖書庫相鄰。同時,對于同一類目的圖書,可根據(jù)使用率的大小在圖書庫內設置閱覽桌的數(shù)量,使圖書館利用更加合理。
圖書分布根據(jù)同一類目的圖書使用率,把借閱率高的圖書放在圖書館的前面,方便讀者借閱的同時也提高了圖書館的利用率。
決策支持為圖書館的科學管理提供可靠依據(jù)。根據(jù)圖書借閱頻率和圖書類別使用頻率,圖書館管理人員在購買新的圖書時可優(yōu)先考慮頻率較高的相關圖書和圖書類目,使資金利用效果最大化。
基于數(shù)據(jù)挖掘技術的圖書館比傳統(tǒng)圖書館在圖書管理、服務等方面具有更大的優(yōu)勢。通過關聯(lián)分析方法,使圖書借閱記錄成為圖書館管理和服務的基礎,為個性化服務、館藏布置、圖書分布、決策服務等提供了可靠的參考,使圖書館成為一個綜合化的管理和服務平臺。本方案在建立高效的數(shù)據(jù)挖掘規(guī)則和服務體系方面仍需要進一步研究。
參考文獻
[1] 司徒浩臻.數(shù)據(jù)挖掘技術在圖書館信息服務中的應用[J].現(xiàn)代圖書情報技術,2005,10(129):15-19.
[2] 董云鵬.數(shù)據(jù)挖掘技術在圖書館中的應用[J].現(xiàn)代情報,2006,11(11):131-132.
[3] 陳文偉,黃金才,趙新昱.數(shù)據(jù)挖掘技術[M].北京:北京工業(yè)大學出版社,2002:189-200.
[4]孟曉明.淺談數(shù)據(jù)挖掘技術[J].計算機應用與軟件,2004,24(8):34-36.
[5] 唐笑林.數(shù)據(jù)挖掘技術的研究與應用[J].華東理工大學學報(自然科學版),2008,34(2):290-295.
[6] 梁協(xié)雄,雷汝煥,曹長修.現(xiàn)代數(shù)據(jù)挖掘技術研究進展[J].重慶大學學報,2004,27(3):21-27.
