《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信与网络 > 业界动态 > 基于信息网格的数字图书馆研究

基于信息网格的数字图书馆研究

2008-07-15
作者:沈士根,陈如清

  摘 要: 討論了信息網(wǎng)格" title="信息網(wǎng)格">信息網(wǎng)格和數(shù)字圖書館之間的關(guān)系、應(yīng)用以及構(gòu)建基于信息網(wǎng)格的數(shù)字圖書館的關(guān)鍵技術(shù),并給出了基于織女星" title="織女星">織女星信息網(wǎng)格的數(shù)字圖書館體系結(jié)構(gòu)。
  關(guān)鍵詞: 信息網(wǎng)格 數(shù)字圖書館 因特網(wǎng)


  網(wǎng)格自二十世紀(jì)90年代中期被提出以來(lái),得到了迅速的發(fā)展。網(wǎng)格是借鑒電力網(wǎng)的概念提出來(lái)的,其最終目的是希望用戶在使用網(wǎng)格計(jì)算" title="網(wǎng)格計(jì)算">網(wǎng)格計(jì)算能力時(shí),能像現(xiàn)在使用電力一樣方便。人們?cè)谑褂秒娏r(shí),不需要知道它是從哪個(gè)發(fā)電站輸送出來(lái)的,也不需要知道該電力是通過(guò)什么樣的發(fā)電機(jī)產(chǎn)生的,不管是水利發(fā)電,還是核動(dòng)力發(fā)電,使用的是統(tǒng)一的“電能”。網(wǎng)格也希望給最終使用者提供的是與地理位置無(wú)關(guān)、與具體的計(jì)算設(shè)施無(wú)關(guān)的通用問(wèn)題求解能力。網(wǎng)格技術(shù)正逐漸成為分布式超級(jí)計(jì)算、高吞吐率計(jì)算和數(shù)據(jù)密集型計(jì)算的新平臺(tái)。網(wǎng)格充分吸納各種計(jì)算資源,包括網(wǎng)絡(luò)通信能力、數(shù)據(jù)資料、儀器設(shè)備甚至是人等各種相關(guān)資源來(lái)建立復(fù)雜的虛擬組織,從而提供給用戶隨處可得的、可靠的、標(biāo)準(zhǔn)和經(jīng)濟(jì)的高端計(jì)算能力。根據(jù)求解問(wèn)題的特點(diǎn),網(wǎng)格可分為數(shù)據(jù)網(wǎng)格、信息網(wǎng)格和知識(shí)網(wǎng)格等。本文主要討論信息網(wǎng)格與數(shù)字圖書館的關(guān)系、信息網(wǎng)格在數(shù)字圖書館建設(shè)中的應(yīng)用、構(gòu)建基于信息網(wǎng)格的數(shù)字圖書館的關(guān)鍵技術(shù)和基于織女星信息網(wǎng)格的數(shù)字圖書館體系結(jié)構(gòu)。
1 信息網(wǎng)格與數(shù)字圖書館
  在互聯(lián)網(wǎng)技術(shù)普及的今天,因特網(wǎng)上Web信息服務(wù)器的數(shù)目眾多,但它們卻如同分布在因特網(wǎng)世界上的一個(gè)個(gè)孤立的小島。大量的信息被“鎖”在各個(gè)小島的中央數(shù)據(jù)庫(kù)中,只能通過(guò)搜索程序或固定渠道搜索信息。若要使用戶不必關(guān)心信息的實(shí)際存儲(chǔ)位置,隨心所欲地享用信息資源,其較理想的方法就是建立跨越Web的信息分布和集成應(yīng)用程序邏輯,也就是信息網(wǎng)格。
  信息網(wǎng)格是利用網(wǎng)格技術(shù)實(shí)現(xiàn)信息的共享、管理和提供信息服務(wù)的系統(tǒng),主要解決廣域、異構(gòu)信息的共享、互聯(lián)和互操作問(wèn)題,以滿足企業(yè)、政府部門等組織信息共享的需求。信息網(wǎng)格通過(guò)使用現(xiàn)有的網(wǎng)絡(luò)基礎(chǔ)設(shè)施、協(xié)議規(guī)范、Web和數(shù)據(jù)庫(kù)技術(shù),為用戶提供一體化的智能信息平臺(tái),其目標(biāo)是創(chuàng)建一種架構(gòu)在OS和Web之上的基于因特網(wǎng)的新一代信息平臺(tái)和軟件基礎(chǔ)設(shè)施。在這個(gè)平臺(tái)上,信息的處理是分布式、協(xié)作和智能化的,用戶可以通過(guò)單一入口訪問(wèn)所有信息。信息網(wǎng)格追求的最終目標(biāo)是能夠做到服務(wù)點(diǎn)播(Service On Demand)和一步到位的服務(wù)(One Click is Enough)。
  數(shù)字圖書館的特點(diǎn):(1)綜合運(yùn)用多種高新技術(shù)支持的數(shù)字信息資源系統(tǒng),將分散于不同載體、不同地域的數(shù)字化信息資源以網(wǎng)絡(luò)化方式互相聯(lián)結(jié)起來(lái),實(shí)現(xiàn)資源共享。(2)計(jì)算機(jī)可處理的、有序組織的信息集合,是存儲(chǔ)數(shù)字信息的倉(cāng)儲(chǔ)。(3)通過(guò)數(shù)字技術(shù)進(jìn)行信息資源的組織和管理,能夠存儲(chǔ)海量信息,用戶可以通過(guò)互聯(lián)網(wǎng)高效方便地進(jìn)行查詢、檢索服務(wù)。(4)具有信息資源數(shù)字化、信息組織非線性化、結(jié)構(gòu)復(fù)雜化、信息傳遞網(wǎng)絡(luò)化、服務(wù)方式多樣化等特點(diǎn)。網(wǎng)格是高性能計(jì)算機(jī)、數(shù)據(jù)源、因特網(wǎng)三種技術(shù)的有機(jī)組合,它具有高性能、一體化、知識(shí)生產(chǎn)、資源共享、異地協(xié)同工作、支持開(kāi)放標(biāo)準(zhǔn)、功能動(dòng)態(tài)變化等優(yōu)點(diǎn),為數(shù)字圖書館建設(shè)提供了有利的條件。
2 信息網(wǎng)格在數(shù)字圖書館中的應(yīng)用
  (1)海量數(shù)據(jù)處理。數(shù)字圖書館需要處理的數(shù)據(jù)通常很大,而信息網(wǎng)格能存儲(chǔ)和管理PB量級(jí)的海量數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行高效的分析和處理,還能提供可視化和多媒體的數(shù)據(jù)服務(wù)。在具體操作時(shí),只要網(wǎng)格用戶通過(guò)客戶端發(fā)出進(jìn)行數(shù)據(jù)計(jì)算的指令,信息網(wǎng)格便會(huì)把這些任務(wù)分配給信息網(wǎng)格中的各高性能計(jì)算機(jī)執(zhí)行,然后將各高性能計(jì)算機(jī)執(zhí)行的結(jié)果反饋給用戶。實(shí)際上,信息網(wǎng)格建立于數(shù)據(jù)網(wǎng)格的層次上,海量數(shù)據(jù)處理都是通過(guò)數(shù)據(jù)網(wǎng)格提供的一組服務(wù)來(lái)支持資源和信息發(fā)現(xiàn),如數(shù)據(jù)服務(wù)、注冊(cè)與發(fā)布服務(wù)、信息發(fā)現(xiàn)服務(wù)、存儲(chǔ)資源代理服務(wù)、身份認(rèn)證與訪問(wèn)控制服務(wù)、調(diào)度服務(wù)和方法執(zhí)行服務(wù)等。
  (2)高性能計(jì)算與信息處理。數(shù)字圖書館需要實(shí)時(shí)及時(shí)地對(duì)各種信息進(jìn)行處理,為用戶服務(wù)。而信息網(wǎng)格能大規(guī)模、高精度、高質(zhì)量地處理問(wèn)題,提供高速度、高效率、實(shí)時(shí)與及時(shí)的計(jì)算及信息處理能力。①基于信息網(wǎng)格的互聯(lián)網(wǎng)比現(xiàn)有的因特網(wǎng)具有更大的帶寬。②信息網(wǎng)格上的高性能并行處理計(jì)算機(jī)可使信息網(wǎng)格的計(jì)算速度和數(shù)據(jù)處理速度大幅度提高。③信息網(wǎng)格的體系結(jié)構(gòu)將比現(xiàn)在的因特網(wǎng)更能有效地利用資源,如信息網(wǎng)格采用的廣域緩存技術(shù)能自動(dòng)地把用戶最需要的信息存放到最近的服務(wù)器上。
  (3)資源共享?;ヂ?lián)網(wǎng)實(shí)現(xiàn)了計(jì)算機(jī)硬件的連通,Web實(shí)現(xiàn)了網(wǎng)頁(yè)的連通,而信息網(wǎng)格將實(shí)現(xiàn)互聯(lián)網(wǎng)上所有資源的全面連通,包括計(jì)算資源、存儲(chǔ)資源、通信資源、軟件資源和信息資源等,從而消除信息孤島,實(shí)現(xiàn)資源的全面共享。信息網(wǎng)格能實(shí)現(xiàn)對(duì)異構(gòu)數(shù)據(jù)資源的訪問(wèn),為用戶提供統(tǒng)一的訪問(wèn)接口,通過(guò)選擇適當(dāng)?shù)脑L問(wèn)協(xié)議實(shí)現(xiàn)用戶提出的數(shù)據(jù)訪問(wèn)" title="數(shù)據(jù)訪問(wèn)">數(shù)據(jù)訪問(wèn)請(qǐng)求。因此,基于信息網(wǎng)格的數(shù)字圖書館能實(shí)現(xiàn)資源的真正共享。
  (4)集成現(xiàn)有系統(tǒng)。自二十世紀(jì)90年代以來(lái),有關(guān)數(shù)字圖書館的理論和建設(shè)已逐漸成為我國(guó)圖書館界研究和實(shí)踐的最為熱門的話題。由國(guó)家863計(jì)劃智能計(jì)算機(jī)主題專家組牽頭,聯(lián)合國(guó)家圖書館、中國(guó)社科院圖書館、中央黨校圖書館、首都圖書館等十幾個(gè)應(yīng)用單位,并聘請(qǐng)國(guó)內(nèi)外諸多專家學(xué)者共同參與的中國(guó)數(shù)字圖書館工程(CDL工程),經(jīng)過(guò)90年代末的醞釀啟動(dòng),現(xiàn)已頗具規(guī)模。但由于各地在建設(shè)數(shù)字圖書館的過(guò)程中可能采用不同的管理系統(tǒng),而基于信息網(wǎng)格的數(shù)字圖書館可集成現(xiàn)有的不同的管理系統(tǒng),從而解決各管理系統(tǒng)間不兼容的問(wèn)題。
  (5)一體化。信息網(wǎng)格的重要特征之一就是一體化。因特網(wǎng)只是通過(guò)網(wǎng)頁(yè)的形式把全球的計(jì)算機(jī)聯(lián)為一體,各個(gè)機(jī)構(gòu)和公司可以在網(wǎng)上建立自己的網(wǎng)站,并為用戶提供相應(yīng)的信息。但用戶卻必須通過(guò)一定的網(wǎng)址或搜索引擎查找所需的信息,而且找到的信息通常是重復(fù)繁雜的。信息網(wǎng)格則進(jìn)一步把分布在全國(guó)甚至全世界的計(jì)算機(jī)、數(shù)據(jù)、信息等聯(lián)為一體,在邏輯上就像一臺(tái)機(jī)器。用戶可以像使用自己的計(jì)算機(jī)一樣方便地使用網(wǎng)上的各種資源。并且,用戶可以通過(guò)網(wǎng)格操作系統(tǒng)透明地使用整個(gè)網(wǎng)絡(luò)資源。信息網(wǎng)格為用戶提供一體化的智能信息平臺(tái)。在這個(gè)平臺(tái)上,信息處理是分布式、協(xié)作和智能化的,用戶可以通過(guò)單一入口訪問(wèn)所有信息,而不是像因特網(wǎng)那樣,用戶需要在成千上萬(wàn)的網(wǎng)站中尋找合適的信息。所以,信息網(wǎng)格是能為數(shù)字圖書館提供各種一體化信息服務(wù)的信息基礎(chǔ)設(shè)施。
  (6)知識(shí)生產(chǎn)和管理。數(shù)字圖書館的發(fā)展以智能化和知識(shí)化作為主要的發(fā)展動(dòng)力和方向,即如何發(fā)現(xiàn)并找到與指定任務(wù)或需求相適應(yīng)的所有信息,并以可解決問(wèn)題的知識(shí)形式提交用戶進(jìn)行問(wèn)題決策。信息網(wǎng)格為實(shí)現(xiàn)這一目標(biāo)提供了框架上的可能性。信息網(wǎng)格的知識(shí)生產(chǎn)特性是信息網(wǎng)格與因特網(wǎng)二者之間質(zhì)的區(qū)別。因特網(wǎng)只是簡(jiǎn)單的資源互聯(lián)和單一使用,用戶僅能獲取和使用有限的信息和資源,而并不能通過(guò)因特網(wǎng)進(jìn)行知識(shí)的再加工。而信息網(wǎng)格則可以通過(guò)組合來(lái)協(xié)同解決用戶的各種復(fù)雜問(wèn)題,從而產(chǎn)生出具有附加值的新服務(wù)、新數(shù)據(jù)和新信息等資源,以滿足用戶的新需求,即可以進(jìn)行知識(shí)的再生產(chǎn)。所以,信息網(wǎng)格有利于數(shù)字圖書館進(jìn)行知識(shí)管理。
3 構(gòu)建基于信息網(wǎng)格的數(shù)字圖書館關(guān)鍵技術(shù)
  (1)網(wǎng)格安全基礎(chǔ)設(shè)施GSI(Grid Security Infrastructure)。在構(gòu)建基于信息網(wǎng)格的數(shù)字圖書館時(shí),GSI是首先要考慮的問(wèn)題,沒(méi)有相應(yīng)的網(wǎng)格安全基礎(chǔ)設(shè)施,就不可能建立信息網(wǎng)格數(shù)字圖書館。在基于信息網(wǎng)格的數(shù)字圖書館環(huán)境中,各種資源都動(dòng)態(tài)地連接在因特網(wǎng)上,不同節(jié)點(diǎn)之間的通信都由因特網(wǎng)連接,并且用戶向網(wǎng)格計(jì)算環(huán)境提交任務(wù)和監(jiān)控管理任務(wù)也是通過(guò)因特網(wǎng)來(lái)完成。同時(shí),計(jì)算環(huán)境中的所有主體都可以動(dòng)態(tài)地加入或撤離網(wǎng)格中的虛擬組織,從而使基于信息網(wǎng)格的數(shù)字圖書館對(duì)安全的要求除因特網(wǎng)的安全要求(訪問(wèn)控制和通信安全)外更進(jìn)了一步。為了保證基于信息網(wǎng)格的數(shù)字圖書館安全,GSI應(yīng)實(shí)現(xiàn):①支持各主體之間的安全通信,防止主體假冒和數(shù)據(jù)泄密。②支持跨虛擬組織的安全,這樣就不能采用集中管理的安全系統(tǒng)。③支持用戶的單一登錄,包括跨多個(gè)資源及地點(diǎn)的信任委托和信任轉(zhuǎn)移等。為此,GSI提供了一系列的安全協(xié)議、安全服務(wù)、安全軟件開(kāi)發(fā)工具包(SDK)和命令行程序,如安全應(yīng)用編程接口、相互安全身份鑒別技術(shù)、單一登錄技術(shù)等。通過(guò)使用這些安全技術(shù)和服務(wù),可有效地保證基于信息網(wǎng)格的數(shù)字圖書館的安全性。
  (2)元數(shù)據(jù)" title="元數(shù)據(jù)">元數(shù)據(jù)訪問(wèn)服務(wù)。信息網(wǎng)格中最基本的操作是數(shù)據(jù)訪問(wèn),而用戶通常不是直接訪問(wèn)數(shù)據(jù),而是通過(guò)提供數(shù)據(jù)的需求描述信息(即元數(shù)據(jù))進(jìn)行間接的數(shù)據(jù)訪問(wèn),這些描述性信息包括創(chuàng)建時(shí)間、文件類型、數(shù)據(jù)大小等。所有元數(shù)據(jù)構(gòu)成一個(gè)元數(shù)據(jù)目錄,目錄中每一項(xiàng)或記錄都對(duì)應(yīng)著信息網(wǎng)格中的一個(gè)文件以及該文件的各種關(guān)鍵描述信息。元數(shù)據(jù)是實(shí)現(xiàn)不同數(shù)字圖書館系統(tǒng)中資源互操作的一種簡(jiǎn)單而有效的方法。因此實(shí)現(xiàn)元數(shù)據(jù)訪問(wèn)服務(wù)是基于信息網(wǎng)格的數(shù)字圖書館必須解決的問(wèn)題。元數(shù)據(jù)訪問(wèn)服務(wù)通過(guò)元數(shù)據(jù)訪問(wèn)服務(wù)器進(jìn)行實(shí)施和管理,其原理是根據(jù)用戶提供的需求描述信息找到相應(yīng)的數(shù)據(jù)并提供給用戶。首先,該服務(wù)把用戶對(duì)數(shù)據(jù)的描述性信息匯集并生成一條元數(shù)據(jù);然后在元數(shù)據(jù)目錄中查詢與之相符的記錄;最后把該記錄對(duì)應(yīng)的文件返回用戶。通過(guò)元數(shù)據(jù)訪問(wèn)服務(wù),用戶能夠根據(jù)自身需求定制數(shù)據(jù)信息,從而可以靈活快捷地進(jìn)行數(shù)據(jù)訪問(wèn)。目前,主要用輕量目錄存取協(xié)議(LDAP)實(shí)現(xiàn)元數(shù)據(jù)服務(wù)。
  (3)數(shù)據(jù)復(fù)制管理服務(wù)。數(shù)據(jù)復(fù)制管理服務(wù)可以實(shí)時(shí)地維護(hù)和更新邏輯文件與物理文件的映射,從而確定物理文件的位置。在基于信息網(wǎng)格的數(shù)字圖書館中數(shù)據(jù)復(fù)制管理服務(wù)是基本的、不可缺少的服務(wù)。通過(guò)使用數(shù)據(jù)復(fù)制管理服務(wù),可以獲得更好的數(shù)據(jù)訪問(wèn)效率及容錯(cuò)性能。因?yàn)樵诖笠?guī)模分布式協(xié)作的信息網(wǎng)格數(shù)字圖書館中,一方面數(shù)據(jù)的用戶群廣域分布,另一方面數(shù)據(jù)也分布在不同位置上。為了減少計(jì)算時(shí)通過(guò)網(wǎng)絡(luò)訪問(wèn)數(shù)據(jù)的時(shí)間,可以先從別的存儲(chǔ)位置中復(fù)制一部分?jǐn)?shù)據(jù)在本地機(jī)器上,或在多個(gè)位置存放某一數(shù)據(jù)。當(dāng)某個(gè)計(jì)算節(jié)點(diǎn)需要這些數(shù)據(jù)時(shí),可以從訪問(wèn)時(shí)間最短的存儲(chǔ)節(jié)點(diǎn)上獲取所需信息。這樣就產(chǎn)生了一份數(shù)據(jù)在整個(gè)系統(tǒng)中的多個(gè)拷貝。根據(jù)不同的粒度進(jìn)行數(shù)據(jù)復(fù)制,包括文件復(fù)制和數(shù)據(jù)對(duì)象復(fù)制。文件復(fù)制是指在現(xiàn)有文件粒度上的數(shù)據(jù)復(fù)制。數(shù)據(jù)對(duì)象復(fù)制是指在數(shù)據(jù)對(duì)象粒度上對(duì)數(shù)據(jù)進(jìn)行復(fù)制。通常數(shù)據(jù)對(duì)象復(fù)制時(shí),先要在源節(jié)點(diǎn)上將所需復(fù)制的數(shù)據(jù)對(duì)象拷貝到一個(gè)新的文件中,再將該文件傳送到目的節(jié)點(diǎn)。在具體操作時(shí),通常由復(fù)制文件管理器來(lái)建立、刪除、修改及查詢一個(gè)復(fù)制文件,并維護(hù)復(fù)制文件目錄,以提供文件或文件組的邏輯名到其物理存儲(chǔ)位置的映射關(guān)系。
  (4)網(wǎng)格文件傳輸協(xié)議GridFTP。在基于信息網(wǎng)格的數(shù)字圖書館中存在多種存儲(chǔ)系統(tǒng),這些存儲(chǔ)系統(tǒng)因采用了不同的協(xié)議和軟件而不兼容。因此在訪問(wèn)不同的存儲(chǔ)系統(tǒng)時(shí),必須采用多種訪問(wèn)方法。但這樣會(huì)降低在不同存儲(chǔ)系統(tǒng)上數(shù)據(jù)傳輸?shù)男?,并增加用戶使用的?fù)雜性。為支持安全、高速的數(shù)據(jù)傳輸,需要一種通用網(wǎng)格文件傳輸協(xié)議GridFTP。GridFTP基于規(guī)范的FTP協(xié)議,并對(duì)其進(jìn)行了全面的擴(kuò)展。GridFTP協(xié)議相對(duì)于FTP協(xié)議有許多新的特點(diǎn):①支持GSI和Kerberos安全機(jī)制,支持靈活可靠的安全鑒別和完整性檢查,而且用戶可以控制GridFTP在不同層次上的數(shù)據(jù)完整性。②支持第三方控制的數(shù)據(jù)傳輸。為了管理分布式通信中的大數(shù)據(jù)集,必須提供經(jīng)過(guò)鑒別的第三方控制的數(shù)據(jù)傳輸。③支持并行數(shù)據(jù)傳輸、條狀數(shù)據(jù)傳輸和部分文件傳輸。通過(guò)使用多個(gè)并行的TCP流提高數(shù)據(jù)傳輸?shù)目値挘褂脳l狀數(shù)據(jù)傳輸提高數(shù)據(jù)的傳輸速度。對(duì)只需要訪問(wèn)某個(gè)遠(yuǎn)程文件一部分的某些應(yīng)用,可從文件的任意位置開(kāi)始傳輸數(shù)據(jù),即部分文件傳輸。④自動(dòng)調(diào)整TCP緩沖及窗口大小,使用優(yōu)化的TCP緩沖/窗口大小設(shè)置可有效提高數(shù)據(jù)傳輸性能。⑤支持可靠傳輸和數(shù)據(jù)重傳。對(duì)于許多應(yīng)用程序而言,必須保證數(shù)據(jù)傳輸?shù)目煽啃?,并需要支持容錯(cuò)的數(shù)據(jù)傳輸。
  (5)存儲(chǔ)資源代理?;谛畔⒕W(wǎng)格的數(shù)字圖書館的數(shù)據(jù)位于廣域范圍內(nèi)分布的異構(gòu)存儲(chǔ)設(shè)備上。為了提高數(shù)據(jù)訪問(wèn)的效率,在網(wǎng)格范圍內(nèi)應(yīng)建立多個(gè)數(shù)據(jù)副本,從而實(shí)現(xiàn)數(shù)據(jù)的就近訪問(wèn)。存儲(chǔ)資源代理是網(wǎng)格中的數(shù)據(jù)管理核心。在實(shí)現(xiàn)時(shí),存儲(chǔ)資源代理利用元數(shù)據(jù)目錄為用戶提供面向集合的數(shù)據(jù)視圖,用戶利用存儲(chǔ)資源代理提供的應(yīng)用程序接口(API)提出數(shù)據(jù)訪問(wèn)請(qǐng)求。存儲(chǔ)資源代理利用元數(shù)據(jù)目錄中的信息進(jìn)行協(xié)議轉(zhuǎn)接,并將轉(zhuǎn)接后的數(shù)據(jù)訪問(wèn)請(qǐng)求發(fā)向不同的存儲(chǔ)系統(tǒng),從而實(shí)現(xiàn)對(duì)異構(gòu)存儲(chǔ)資源的統(tǒng)一訪問(wèn)。在系統(tǒng)功能方面,存儲(chǔ)資源代理可以劃分為:數(shù)據(jù)副本管理器、數(shù)據(jù)移動(dòng)器、數(shù)據(jù)訪問(wèn)器、數(shù)據(jù)定位器和緩沖區(qū)等幾個(gè)部分。數(shù)據(jù)副本管理器主要負(fù)責(zé)管理數(shù)據(jù)副本和維護(hù)數(shù)據(jù)副本的一致性,它通過(guò)數(shù)據(jù)定位器確定數(shù)據(jù)或其副本的物理位置,通過(guò)數(shù)據(jù)移動(dòng)器實(shí)現(xiàn)對(duì)數(shù)據(jù)及其副本的訪問(wèn)和一致性維護(hù)。數(shù)據(jù)移動(dòng)器主要負(fù)責(zé)數(shù)據(jù)在不同存儲(chǔ)資源之間的移動(dòng),通過(guò)數(shù)據(jù)定位器確定物理位置,通過(guò)數(shù)據(jù)訪問(wèn)器實(shí)現(xiàn)對(duì)數(shù)據(jù)的訪問(wèn)。數(shù)據(jù)訪問(wèn)器主要負(fù)責(zé)與具體的存儲(chǔ)設(shè)備和其他的存儲(chǔ)資源代理聯(lián)系,實(shí)現(xiàn)數(shù)據(jù)訪問(wèn)。數(shù)據(jù)定位器利用元數(shù)據(jù)目錄獲取含有數(shù)據(jù)的各種信息,從而實(shí)現(xiàn)數(shù)據(jù)定位。緩沖區(qū)的主要目標(biāo)是提高數(shù)據(jù)訪問(wèn)的效率。為了實(shí)現(xiàn)存儲(chǔ)資源代理對(duì)各種存儲(chǔ)資源的數(shù)據(jù)訪問(wèn),需要為不同的存儲(chǔ)資源設(shè)計(jì)轉(zhuǎn)換器,實(shí)現(xiàn)數(shù)據(jù)訪問(wèn)接口的轉(zhuǎn)換。
4 基于信息網(wǎng)格的數(shù)字圖書館體系結(jié)構(gòu)
  本文探討的體系結(jié)構(gòu)基于織女星信息網(wǎng)格。織女星信息網(wǎng)格(Vega Information Grid)是中國(guó)科學(xué)院計(jì)算所織女星網(wǎng)格研究的一個(gè)組成部分。其目的是在數(shù)據(jù)庫(kù)技術(shù)、因特網(wǎng)技術(shù)、網(wǎng)格技術(shù)、萬(wàn)維網(wǎng)服務(wù)等技術(shù)的基礎(chǔ)上研究信息網(wǎng)格的機(jī)制和體系結(jié)構(gòu),進(jìn)而指導(dǎo)信息網(wǎng)格系統(tǒng)及應(yīng)用的開(kāi)發(fā)??椗切畔⒕W(wǎng)格并不強(qiáng)調(diào)網(wǎng)格的地理規(guī)模,而是強(qiáng)調(diào)信息資源的有效共享與管理。該體系結(jié)構(gòu)采用B/S模式,主要包括網(wǎng)格用戶、網(wǎng)格應(yīng)用服務(wù)器、網(wǎng)格操作系統(tǒng)和網(wǎng)格硬件等。其相互關(guān)系如圖1所示。


  (1)網(wǎng)格用戶
  網(wǎng)格用戶使用網(wǎng)格瀏覽器通過(guò)網(wǎng)格服務(wù)請(qǐng)求協(xié)議GSRP(Grid Service Request Protocol)向網(wǎng)格應(yīng)用服務(wù)器提出服務(wù)請(qǐng)求。其中,網(wǎng)格瀏覽器采用類似于XML的網(wǎng)格服務(wù)標(biāo)記語(yǔ)言GSML(Grid Service Markup Language),提供圖形化的網(wǎng)格服務(wù)。
  (2)網(wǎng)格應(yīng)用服務(wù)器
  網(wǎng)格應(yīng)用服務(wù)器是基于織女星網(wǎng)格編程接口開(kāi)發(fā)的、面向網(wǎng)格最終用戶提供特定服務(wù)的程序。它通過(guò)編程接口實(shí)現(xiàn)對(duì)單個(gè)計(jì)算資源的訪問(wèn)或協(xié)同使用多個(gè)計(jì)算資源,在收到網(wǎng)格瀏覽器使用GSML描述的服務(wù)請(qǐng)求并經(jīng)過(guò)翻譯后,調(diào)用網(wǎng)格編程接口完成計(jì)算任務(wù),最后將結(jié)果通過(guò)GSRP協(xié)議返回網(wǎng)格瀏覽器。
  (3)網(wǎng)格操作系統(tǒng)
  網(wǎng)格操作系統(tǒng)是網(wǎng)格硬件資源的管理者。它主要實(shí)現(xiàn)全網(wǎng)格計(jì)算資源的統(tǒng)一管理,隱藏計(jì)算資源的異構(gòu)性、動(dòng)態(tài)性和分布性,提供可靠的資源使用方式,完成資源命名、資源綁定和資源協(xié)同等資源管理功能。網(wǎng)格操作系統(tǒng)使用網(wǎng)格目錄文件系統(tǒng)對(duì)以物理形式保存在存儲(chǔ)設(shè)備上的數(shù)據(jù)實(shí)現(xiàn)邏輯組織,通過(guò)數(shù)據(jù)復(fù)制和文件層次結(jié)構(gòu)命名的方法完成數(shù)據(jù)管理。它使用網(wǎng)格計(jì)算協(xié)議GCP(Grid Computing Protocol)處理資源提供者和使用者之間的各種協(xié)議報(bào)文。GCP協(xié)議分為二層:資源路由協(xié)議和網(wǎng)格計(jì)算協(xié)議。資源路由協(xié)議是廣域的資源查找協(xié)議,而網(wǎng)格計(jì)算協(xié)議則是網(wǎng)格計(jì)算的通用描述。它還提供應(yīng)用程序編程接口,其相應(yīng)函數(shù)定義如下:
  Vega( ):創(chuàng)建一個(gè)網(wǎng)格計(jì)算,返回網(wǎng)格描述符。
  Bind( ):查找計(jì)算資源,建立映射。
  Read( ):取回計(jì)算結(jié)果。
  Write( ):提交計(jì)算結(jié)果。
  Close( ):結(jié)束整個(gè)網(wǎng)格計(jì)算。
  (4)網(wǎng)格硬件
  網(wǎng)格硬件包含廣域分布的各種計(jì)算資源,具體為:存放與數(shù)字圖書館密切相關(guān)的資源庫(kù)、存儲(chǔ)資源代理庫(kù)、元數(shù)據(jù)目錄庫(kù)、全文索引庫(kù)等資源的高性能計(jì)算機(jī)以及其他非計(jì)算機(jī)設(shè)備。
  本文的研究在信息網(wǎng)格的實(shí)際應(yīng)用方面作了有益的探索。
參考文獻(xiàn)
1 都志輝.網(wǎng)格計(jì)算.北京:清華大學(xué)出版社,2002
2 張 綱.基于角色的信息網(wǎng)格訪問(wèn)控制的研究.計(jì)算機(jī)研究與發(fā)展,2002;(8)
3 黃曉斌.網(wǎng)格技術(shù)的發(fā)展與數(shù)字圖書館建設(shè).情報(bào)資料工作,2003;(5)
4 韓 毅.基于知識(shí)網(wǎng)格的區(qū)域數(shù)字圖書館建設(shè)框架.大學(xué)圖書館學(xué)報(bào),2003;(6)
5 Chervenak A,F(xiàn)oster I,Kesselmal C et al.The Data Grid:To-wards an Architecture for the Distributed Management and Analysis of Large Scientific Dadasets.Journal of Network and Computer Applications,2002;(23)
6 王意潔.數(shù)據(jù)網(wǎng)格及其關(guān)鍵技術(shù)研究.計(jì)算機(jī)研究與發(fā)展,2002;(8)
7 徐志偉.織女星信息網(wǎng)格的體系結(jié)構(gòu)研究.計(jì)算機(jī)研究與發(fā)展,2002;(8)

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。

相關(guān)內(nèi)容