摘 要: 屬性坐標(biāo)系是由n個(gè)不相關(guān)的屬性組成的一個(gè)n-1維坐標(biāo)系。第n+1個(gè)屬性,可以由這n個(gè)屬性做合取運(yùn)算得到;這樣在這個(gè)n-1維坐標(biāo)系中,就形成一個(gè)唯一點(diǎn)來(lái)表示這第n+1個(gè)屬性。2007年Freebase數(shù)據(jù)庫(kù)的建立,使得該屬性坐標(biāo)系理論得以驗(yàn)證,并為屬性坐標(biāo)系的建立提供可能,而且將在語(yǔ)義相關(guān)度計(jì)算中發(fā)揮重要作用。
關(guān)鍵詞: 屬性坐標(biāo)系;Freebase;語(yǔ)義相關(guān)度計(jì)算
哲學(xué)上講,事物的質(zhì)是事物的內(nèi)在規(guī)定性,是區(qū)別于其他事物的規(guī)定性;質(zhì)通過(guò)屬性表現(xiàn)。在此引入集合論的概括公理可知:任給一個(gè)屬性,存在一個(gè)由所有具有該屬性的元素構(gòu)成的集合。若引入特征公理可知:任何兩不同事物,至少存在一屬性,使得它是一事物區(qū)別于另一事物的特征??勺C明:一個(gè)事物(或系統(tǒng))可由它所具有的特征予以確定(或定義)。此處,特征包括事物的關(guān)系和結(jié)構(gòu)。可見(jiàn),“給定一(組)特征可確定其對(duì)應(yīng)(或定義)的事物”是人類(lèi)識(shí)別事物的基本原則[1-2]。
2 語(yǔ)義數(shù)據(jù)庫(kù)Freebase
Graphd與關(guān)系數(shù)據(jù)庫(kù)以表的形式存儲(chǔ)數(shù)據(jù)完全不同,Graphd以節(jié)點(diǎn)以及節(jié)點(diǎn)之間的關(guān)系所形成的圖結(jié)構(gòu)來(lái)組織數(shù)據(jù),以數(shù)組的方式對(duì)節(jié)點(diǎn)和其關(guān)系的元數(shù)據(jù)進(jìn)行建模,以表格形式存儲(chǔ),表格中的每條數(shù)據(jù)對(duì)應(yīng)一個(gè)節(jié)點(diǎn)關(guān)系數(shù)組,數(shù)組由源節(jié)點(diǎn)、屬性、目標(biāo)節(jié)點(diǎn)、源節(jié)點(diǎn)值組成。使用MQL語(yǔ)言作為查詢(xún)語(yǔ)言,并通過(guò)HTTP標(biāo)準(zhǔn)的“請(qǐng)求/應(yīng)答”機(jī)制發(fā)送請(qǐng)求[4-5]。
2.1 Freebase知識(shí)表示和組織機(jī)制
Freebase的結(jié)構(gòu)分為3層:Domain->Type->Topic。以Arnold Schwarzenegger為例,解釋Freebase中的知識(shí)結(jié)構(gòu)。如圖2所示。其中,橢圓框表示Topic,方形框表示Type[6]。
以Arnold Schwarzenegger為原點(diǎn)進(jìn)行討論,首先是一個(gè)Topic,對(duì)應(yīng)于現(xiàn)實(shí)中的一個(gè)對(duì)象。它有4個(gè)Type(可理解為定義):Person、Body Builder、Actor、Politician。
Type:Person下有一個(gè)屬性:country of birth,其值為T(mén)opic:Austria。這樣,就把Arnold Schwarzenegger(對(duì)象)與Austria(對(duì)象)建立了聯(lián)系。以此類(lèi)推。
同樣反過(guò)來(lái)看Topic:Terminator有一個(gè)Type:File,其下有一個(gè)屬性cast,其值為:Schwarzenegger。這樣反向也建立了聯(lián)系[6]。
2.2 MQL查詢(xún)語(yǔ)言
由于Freebase后臺(tái)使用自己設(shè)計(jì)的Graphd,所以也摒棄了傳統(tǒng)的select等SQL語(yǔ)言。設(shè)計(jì)GQL(graph query language)作為請(qǐng)求處理語(yǔ)言;為了用戶(hù)使用方便,在此基礎(chǔ)上,設(shè)計(jì)MQL(Metaweb Query Language)作為數(shù)據(jù)查詢(xún)語(yǔ)言。其完全符合HTTP協(xié)議標(biāo)準(zhǔn)的“request/response”機(jī)制,可在瀏覽器地址欄,直接輸入MQL查詢(xún)語(yǔ)句。例:
https://api.freebase.com/api/service/mqlread?query={"query":{"type":"/music/artist","name":"The Police","album":[]}}
該例可在地址欄中直接輸入并在頁(yè)面中返回結(jié)果[7]。
3 屬性坐標(biāo)系框架下的Freebase研究
通過(guò)對(duì)Freebase的數(shù)據(jù)組織機(jī)制、知識(shí)表示的再研究,發(fā)現(xiàn)其暗含了屬性坐標(biāo)系的建庫(kù)理念。從側(cè)面證明了“屬性論”及“屬性坐標(biāo)系”等理論在知識(shí)處理領(lǐng)域的獨(dú)到性、前瞻性和實(shí)用性。
3.1 Freebase中對(duì)對(duì)象的定義
還是以Arnold Schwarzenegger為例,對(duì)人腦思維來(lái)說(shuō),首先該對(duì)象是一個(gè)人,對(duì)應(yīng)在Freebase存在一個(gè)Type:person;以此類(lèi)推其他(比如Type:actor)。
如一個(gè)謎語(yǔ):有一個(gè)人,是健美先生,是演員,演過(guò)《終結(jié)者》,這個(gè)人是誰(shuí)?如果人們腦中有這個(gè)定義,馬上就能得到謎底,也就是該對(duì)象Arnold Schwarzenegger。
綜上所述事實(shí),恰好印證了屬性論中闡述:一個(gè)事物(或系統(tǒng))可由它所具有的特征予以確定(或定義);人腦感覺(jué)則僅對(duì)其敏感的事物屬性作出反應(yīng)。用屬性坐標(biāo)系表示,如圖3所示。
不難看出P(A)=P1∧P2∧P3。這正是人們?nèi)四X中的反應(yīng)。
3.2 對(duì)象屬性坐標(biāo)的建立及相關(guān)度計(jì)算
Freebase在對(duì)象的定義、上下位關(guān)系的定義過(guò)程中有獨(dú)到的見(jiàn)解,提供了一個(gè)有效地途徑。比如Arnold Schwarzenegger對(duì)象和Austria、Terminator、Republican等對(duì)象之間的關(guān)系,不難看出,這些對(duì)象之間有明顯的包含和被包含關(guān)系。
但是,同級(jí)對(duì)象之間的關(guān)系比較,比如Arnold Schwarzenegger和Sylvester Stallone之間關(guān)系的定義,F(xiàn)reebase就稍顯不足??刹环翐Q一種思路,通過(guò)建立對(duì)象的屬性坐標(biāo),對(duì)象坐標(biāo)做笛卡爾積,從而得到兩個(gè)同級(jí)對(duì)象之間關(guān)系。
首先建立Arnold Schwarzenegger的對(duì)象坐標(biāo),根據(jù)上文的圖示坐標(biāo)可得(該對(duì)象有很多屬性,但該部分屬性已可以定義該對(duì)象):
Arnold Schwarzenegger=[
{person[{nationality:Austria,USA}…]},
{actor[{film:Terminator},…]},
{bodybuilder[]},…
]……V1
這里采用二級(jí)坐標(biāo)表示:person表示對(duì)象特征定義;nationality表示特征屬性;Austria表示特征屬性值。因?yàn)閚ationality等一些列特征屬性合取可得到person這個(gè)定義。
再來(lái)建立Sylvester Stallone的對(duì)象坐標(biāo),根據(jù)前文的構(gòu)造語(yǔ)句,可以得到Stallone的Type及屬性。
Sylvester Stallone=[
{person[{nationality:USA},…]},
{actor[{film:The First Blood},…]…},
]……V2
然后將兩個(gè)向量相乘,首先:
person*person=1
表示這兩個(gè)對(duì)象有特征定義person,可以進(jìn)一步比較特征屬性nationality:
Austria*USA=0
USA*USA=1
綜上可認(rèn)為:nationality*nationality=0.5
表示,這兩個(gè)對(duì)象的特征屬性nationality有部分相關(guān),都有USA這個(gè)特征屬性值。
其次,person*actor=0,表示這兩個(gè)對(duì)象的特征定義不存在相關(guān)關(guān)系。
再次,actor*actor=1,表示這兩個(gè)對(duì)象有相關(guān)的特征定義actor,進(jìn)一步比較特征屬性film,由前文提供計(jì)算方法可得film*film=0,表示沒(méi)有特征屬性值的相關(guān)關(guān)系。
綜上計(jì)算方法及結(jié)果,可得如下結(jié)論:Arnold Schwarzenegger和Sylvester Stallone兩個(gè)對(duì)象存在相關(guān)關(guān)系。即:這兩個(gè)對(duì)象是person,國(guó)籍都是USA,都是actor,但是沒(méi)有合演過(guò)電影。這個(gè)結(jié)論與現(xiàn)實(shí)相符。
前文所述的對(duì)象相關(guān)度計(jì)算方法,僅是表面上粗淺的計(jì)算,也僅是對(duì)語(yǔ)義相關(guān)度問(wèn)題提供一種方法參考,但計(jì)算結(jié)果讓人滿(mǎn)意,實(shí)際意義值得期待。而且完全可以對(duì)該方法進(jìn)一步加以研究,比如:每一個(gè)對(duì)象按特征定義的貢獻(xiàn)度,為特征定義賦予相關(guān)權(quán)值;細(xì)化計(jì)算粒度,可以用小數(shù)表示相關(guān)度;為結(jié)果定義實(shí)際意義,例如兩個(gè)向量的乘積等于1有什么意義,等于0.5時(shí)有什么意義。
人工智能發(fā)展至今,最根本的問(wèn)題是知識(shí)的表示問(wèn)題。各種知識(shí)庫(kù)如WordNet、Freebase數(shù)據(jù)庫(kù)、各種本體數(shù)據(jù)庫(kù),都力求將大千世界中的對(duì)象有機(jī)組織起來(lái)。但是,不管是本體數(shù)據(jù)庫(kù)還是Freebase數(shù)據(jù)庫(kù),都是利用了對(duì)象之間天然的上下位關(guān)系進(jìn)行層次關(guān)系定義,而且經(jīng)驗(yàn)證,這種方法是可行的,但僅是在縱向關(guān)系研究中。但是屬性坐標(biāo)系理論以其獨(dú)到性,提出了一種對(duì)象橫向關(guān)系(相關(guān)性)的表示方法,對(duì)本體數(shù)據(jù)庫(kù)或是Freebase數(shù)據(jù)庫(kù)中的對(duì)象橫向關(guān)系研究提供了寶貴的理論基礎(chǔ)。
參考文獻(xiàn)
[1] 馮嘉禮.思維智能與屬性論方法[J].廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),1997,15(3):1-6.
[2] 馮嘉禮.思維智能與屬性論方法(續(xù))[J].廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),1997,15(4):1-6.
[3] 馮嘉禮,馮嘉仁,詹增修.以屬性為基礎(chǔ)的知識(shí)庫(kù)建庫(kù)原則[J].計(jì)算機(jī)研究與發(fā)展,1987,24(11):56-61.
[4] 李俊.語(yǔ)義數(shù)據(jù)庫(kù)Freebase研究[J],現(xiàn)代圖書(shū)情報(bào)技術(shù),2011(10):18-23.
[5] A Brief Tour of Graphd[EB/OL]. http://wiki.freebase.com/wiki/Graphd.
[6] 阮一峰.Freebase再研究[EB/OL]. http://www.ruanyifeng.com/blog/2008/04/freebase_reloaded.html.
[7] Query Editor[EB/OL]. http://www.freebase.com/view/queryeditor/.