摘 要: 數(shù)據(jù)空間的提出旨在解決模式驅動型的數(shù)據(jù)管理方式中所遇到的瓶頸,并最終解決數(shù)據(jù)管理所面臨的挑戰(zhàn)。而其中數(shù)據(jù)源內容之間的內部關聯(lián)性成為數(shù)據(jù)空間研究的重點。從自然語言處理的角度出發(fā),建立描述數(shù)據(jù)空間的模式實體,并且綜合考慮基本刻面和內容刻面的主要內容,提出基于數(shù)據(jù)空間的數(shù)據(jù)源內容的關系發(fā)現(xiàn)機制,從而為下一步創(chuàng)建索引、瀏覽、搜索、查詢以及其他服務提供良好的基礎。
關鍵詞: 數(shù)據(jù)空間;刻面;自然語言處理
計算機網絡的飛速發(fā)展以及信息化的推進,使得人類面臨著巨大的數(shù)據(jù)量,而且數(shù)據(jù)的采集、存儲、處理和傳播依然與日俱增,數(shù)據(jù)管理也呈現(xiàn)出海量、共享以及多樣化等新的特點。這些新特點使得數(shù)據(jù)管理技術面臨著挑戰(zhàn),DBMS無法解決這些挑戰(zhàn),如何對數(shù)據(jù)進行集成并有效的管理成為當前迫在眉睫的研究課題,數(shù)據(jù)空間就是在這個大背景下應運而生的。
數(shù)據(jù)空間[1]的概念由FRANKLIN M、HALEVY A、MAIER D等人在2005年的SIGMOD會議上提出,旨在解決數(shù)據(jù)空間包含的所有與主體(用戶)相關的信息,它不是一個信息集成的方法,而是一種信息共存的措施。數(shù)據(jù)空間淡化模式,凸顯數(shù)據(jù),支持多種不同的異質異構的數(shù)據(jù)源,而且具有pay-as-you-go(演化集成)的特性,強調數(shù)據(jù)的可關聯(lián)性和演化性,最終可實現(xiàn)對個人數(shù)據(jù)的輕量級管理。其中演化集成的思想以及人在數(shù)據(jù)管理中的主體作用越來越得到關注,對主體人的研究日益成為數(shù)據(jù)管理技術研究中的重要問題。數(shù)據(jù)空間強調數(shù)據(jù)的可關聯(lián)性,不僅要從用戶(主體人)的行為上來獲取數(shù)據(jù)的關聯(lián),還要從數(shù)據(jù)源內容上來獲取數(shù)據(jù)源之間存在的內部關系,對數(shù)據(jù)源內容關系的發(fā)現(xiàn)也成為目前數(shù)據(jù)空間研究的一個重點難點。本文從自然語言的角度,通過分析數(shù)據(jù)空間刻面描述模型,對基本刻面和內容刻面進行描述,輔以詞語語義相關度的模型,提出一個基于數(shù)據(jù)空間的數(shù)據(jù)源內容關系發(fā)現(xiàn)機制。
1 相關研究
數(shù)據(jù)源內容之間的關系發(fā)現(xiàn)是數(shù)據(jù)空間研究的一個重要問題,是創(chuàng)建索引、瀏覽、搜索、查詢以及其他服務的基礎。當前的研究前提大多假設已經獲得數(shù)據(jù)之間的關系,但這往往有其局限性,為了解決這個問題,需要提出更加精確的發(fā)現(xiàn)數(shù)據(jù)源之間關系的方法,以便有效地管理數(shù)據(jù)空間的數(shù)據(jù)源。參考文獻[2]認為采用統(tǒng)一的數(shù)據(jù)模型來描述數(shù)據(jù)空間中不同類型的物理數(shù)據(jù)源是困難的,故而提出一種三層(即物理層、邏輯層、應用數(shù)據(jù)層)組織結構,文章集中在邏輯數(shù)據(jù)層,并通過領域本體代表一類數(shù)據(jù)源資源,從而劃分為直接關系和間接關系。參考文獻[3]通過關聯(lián)調整(Reference Reconciliation)來解決數(shù)據(jù)源復雜信息空間問題,使用基于一個基本框架的算法,通過關聯(lián)調整傳播信息,使用上下文信息、相關實體上的相似性來計算和豐富關聯(lián)。參考文獻[4]提出了使用貝葉斯網絡模型來抽取元數(shù)據(jù)的匹配,通過可能性推理來解決不確定問題,建立數(shù)據(jù)的關系網,通過元數(shù)據(jù)匹配來抽取實體之間的關系。參考文獻[5]提出了新的分散的語義元數(shù)據(jù)組織模型SmartStore,利用元數(shù)據(jù)的語義來增加相關的文件。參考文獻[6]通過制定數(shù)據(jù)源之間聯(lián)系,并將每個聯(lián)系集定義為聯(lián)系軌跡(Association Trail),創(chuàng)建來自不同數(shù)據(jù)源的無聯(lián)系數(shù)據(jù)之間的一個增強的關聯(lián)圖??傊?,相關方面的研究也都是基于各自對數(shù)據(jù)空間的描述而進行的,通過本體或推理模型來發(fā)現(xiàn)數(shù)據(jù)之間的關系。本文基于之前所研究的詞語相關度模型,綜合分析基本刻面和內容刻面,從而確立數(shù)據(jù)源內容之間的關系發(fā)現(xiàn)機制。
2 刻面內容的關系發(fā)現(xiàn)機制
2.1 數(shù)據(jù)空間數(shù)據(jù)特點
數(shù)據(jù)空間的數(shù)據(jù)源是異質異構的,課題組提出了一個FADSM模型即基于刻面描述的數(shù)據(jù)空間模型,通過內容刻面以及基本刻面對數(shù)據(jù)空間進行描述,并分析刻面的內容來發(fā)現(xiàn)數(shù)據(jù)源本身之間的內部關聯(lián)性。
數(shù)據(jù)空間個人數(shù)據(jù)的特點:(1)多樣性和異構型。個人數(shù)據(jù)均來自不同的數(shù)據(jù)源,如Web、Email、文件系統(tǒng),數(shù)據(jù)都存儲在不同的位置,需要采取統(tǒng)一的方法來制定異構數(shù)據(jù)源;(2)個性化。緣于不同的知識背景,使用計算機的不同習慣,以及每個人不同的組織數(shù)據(jù)的方式;(3)復雜結構。RDBMS都是基于表結構的,但是在PDS中,關系都是基于元組級別的,數(shù)據(jù)源之間可能都是有關系的。
2.2 數(shù)據(jù)源描述
本文主要從兩個方面來討論數(shù)據(jù)源,一個是基本刻面,另一個是內容刻面。
將每個數(shù)據(jù)源作為一個模式實體來描述,每個數(shù)據(jù)實體都有一個獨立的實體標識符。基本刻面是數(shù)據(jù)源的主體屬性,包括文件名、文件類型、訪問頻率、目錄以及大小等。內容刻面是每個數(shù)據(jù)源的描述性的主體內容,在課題研究組中已經將內容刻面提取出來。將內容刻面的內容進行分詞(應用ICTCLAS軟件),分詞后進行預處理,去除停頓詞、虛擬詞、語氣詞等?;诳堂婷枋龅臄?shù)據(jù)空間中數(shù)據(jù)源實體的表示如圖1所示。

通過對基本刻面和內容刻面的內容進行分析,對內容刻面進行分詞預處理,形成刻面內容主題詞集合,即代表了該數(shù)據(jù)源的實體內容;而基本刻面主要考慮其刻面屬性。作為實體的類型集合,綜合兩者構造數(shù)據(jù)源實體的語義模式,發(fā)現(xiàn)數(shù)據(jù)源的內部關聯(lián)性即是發(fā)現(xiàn)語義實體模式之間的關聯(lián)機制。圖2所示為數(shù)據(jù)源內容關系發(fā)現(xiàn)機制的流程。

2.3 語義模式的建立和匹配
本文采用中科院的ICTCLAS進行分詞。對數(shù)據(jù)源的刻面內容進行分詞預處理,去掉一些修飾詞、停用詞等,所獲得的主題詞代表了該數(shù)據(jù)源的核心內容。而刻面屬性需要逐一考慮4個屬性,對其進行相關的匹配策略。數(shù)據(jù)源表示為模式實體即[實體標識符,基本刻面,內容刻面]的形式。
語義模式匹配的過程為:(1)考慮基本刻面各刻面屬性的匹配程度;(2)過濾掉內容刻面中修飾以及停頓的詞語、標點符號、數(shù)字、名字等;(3)提取內容刻面的主題詞集合以及該數(shù)據(jù)源所代表的實體類型組成待比較向量;(4)對于基本刻面中 [文件類型,目錄,訪問頻率,大小]等條件進行刻面匹配,以此對基本刻面的說明作為基本刻面的匹配策略;對于內容刻面,比較模式向量中的詞語與待比較向量中的每個詞語的語義相關度(應用相關度模型)。具體的內容刻面匹配策略如下。
2.3.1 基本刻面相關性匹配
基本刻面屬性即一個數(shù)據(jù)實體的主體屬性,能夠直接獲得,如一篇文檔的文件名、路徑、大小、修改時間、訪問時間等。


鑒于此處在分子中,已經對詞語項進行了相關度的計算,而在SVM中,對分母的取模是為了保證整個余弦值的范圍在(0,1)之間,而在式(7)中,已經轉化為對詞語項進行相關度計算了,因此直接使用了點積公式作為計算內容刻面相關度的公式形式,即RSource就是所求的兩個內容刻面的相關度值。
2.3.3 數(shù)據(jù)源內容關系發(fā)現(xiàn)機制
將基本刻面和內容刻面的相關性匹配策略結合起來,本文著重以內容刻面中表達的數(shù)據(jù)源內容來發(fā)現(xiàn)關聯(lián)關系,因而內容刻面所占的權重會比基本刻面對數(shù)據(jù)源關系發(fā)現(xiàn)的貢獻率更大,設基本刻面對數(shù)據(jù)源內容關系發(fā)現(xiàn)的貢獻率是λ,而內容刻面的貢獻率是σ。通過加權值來獲得最終數(shù)據(jù)源內容的關系發(fā)現(xiàn)機制,如式(8)所示,其中λ+σ=1且σ>λ。

2.4 討論與分析
根據(jù)以上對數(shù)據(jù)空間數(shù)據(jù)源的刻面模型描述以及對基本刻面和內容刻面的主要內容進行考慮,輔助以詞語相關度模型計算,可以從理論上分析出獲取數(shù)據(jù)源內容關系發(fā)現(xiàn)機制,并以上述的計算模型來表達其關系程度。但是,這個方案存在一些不足之處:(1)相關度的研究存在一些主觀上的誤差;(2)分詞上出現(xiàn)的誤差;(3)考慮內容刻面時,其中的許多主關鍵字沒有考慮到人物名詞,人物名詞對于發(fā)現(xiàn)數(shù)據(jù)空間中數(shù)據(jù)源之間的內部關系起到很大的作用,本文主要是考慮數(shù)據(jù)源的具體內容,而未涉及到具體的人物之間的聯(lián)系,因此對數(shù)據(jù)源的關系發(fā)現(xiàn)有一定的影響;(4)在基于數(shù)據(jù)空間對數(shù)據(jù)源內容的關系發(fā)現(xiàn)研究上,存在很多不同的方式,本文作為基礎性的研究,因而輔以之前的相關度的研究,從而提出這個數(shù)據(jù)源內容關系發(fā)現(xiàn)機制的方案。
數(shù)據(jù)空間中的數(shù)據(jù)源都是異質異構的,且基于數(shù)據(jù)空間,是數(shù)據(jù)驅動型的管理手段,這些數(shù)據(jù)源彼此之間的內部關聯(lián)性發(fā)現(xiàn)是數(shù)據(jù)空間研究的一個重點難點,國外研究方面,數(shù)據(jù)源內容關系的發(fā)現(xiàn)都是通過制定聯(lián)系或者是參考協(xié)調等方法來完成,而本文研究是以自然語言處理中的詞語相關度模型作為突破口,提出一個關系機制來發(fā)現(xiàn)數(shù)據(jù)源之間的關系。
今后的工作將繼續(xù)完善該策略,特別是在考慮到幾個不足之處的影響因素中,盡量減少這些因素所造成的誤差,以該策略為基礎,實現(xiàn)從相關度上進行數(shù)據(jù)空間中數(shù)據(jù)源的檢索和查詢。
參考文獻
[1] 李玉坤,孟小峰,張相於.數(shù)據(jù)空間技術研究[J].軟件學報,2008,19(8):2018-2031.
[2] Dong Yanlei,Shen Derong,Nie Tiezheng,et al.Discovering relationships among data resourcesin DataSpac[C].IEEE, 2009 Sixth Web Information Systems and Applications Conference,2009.
[3] Xin Dong.Providing best-effort services in dataspace systems[J].Doctor of Philosophy University of Washington,2007(9):76-81.
[4] Sun Daring,Ma Anxiang,Zhang Bin,et al.Metadata matching based bayesian network in DataSpace[C].Computer Design and Applications(ICCDA),2010:358-362.
[5] Hua Yu,Jiang Hong,Zhu Yifeng,et al.SmartStore:a new metadata organization paradigm with metadata semantic-awareness for next-generation file systems[C].Proceedings of the Conference on High Performance Computing
Networking,Storage and Analysis,Portland,Oregon,USA,2009.
[6] SALLES M A V,DITTRICH J,BLUNSCHI L.Intensional associations in dataspace[C].Data Engineering(ICDE),2010 IEEE 26th International Conference,2010:984-987.
[7] Li Yukun,Meng Xiaofeng.Exploring Personal corespace for dataspace management[C].Fifth International Conference on Semantics,Knowledge and Grid,2009.
