文獻標識碼: A
文章編號: 0258-7998(2010)12-0039-03
傳真服務(wù)器是隨著通信技術(shù)的發(fā)展,針對大中型企業(yè)、機關(guān)需求推出的一種集團傳真通信解決方案。它的基本原理是通過軟硬件集成,實現(xiàn)多路傳真的并發(fā)收發(fā),并在此基礎(chǔ)上,與辦公流程相結(jié)合,實現(xiàn)更復(fù)雜的自動化管理。
目前的傳真服務(wù)器,其主要業(yè)務(wù)是實現(xiàn)傳真的收發(fā)管理,但是不具備安全功能,因此很容易成為垃圾傳真的攻擊目標,尤其是一些大企業(yè),其號碼為公眾所熟悉,更是垃圾傳真的重災(zāi)區(qū)。垃圾傳真的泛濫不但造成巨大的浪費,而且嚴重影響正常辦公。
針對上述問題,本文提出一種安全傳真服務(wù)器的概念,在傳真服務(wù)器上增加垃圾傳真的自動檢測功能,從而使分發(fā)或打印的傳真都是安全有效的。
1 安全傳真服務(wù)器模型
文獻[1]、文獻[2]等給出了傳真服務(wù)器的實現(xiàn)方法。為實現(xiàn)安全傳真服務(wù)器,需要在原來的傳真服務(wù)器上增加傳真自動分類功能,只對無害的傳真進行分發(fā),而將垃圾傳真剔除。一種直觀的方法是在分發(fā)之前增加內(nèi)容的機器識別功能,如對傳真圖像進行OCR[3](光學(xué)字符識別)識別,得到傳真圖像的文本字符信息,在此基礎(chǔ)上進行文本分類。但是受限于傳真的實際情況,如手工發(fā)送造成的版面傾斜、手寫字體等,如果直接對其進行OCR識別,較低的準確率會嚴重影響系統(tǒng)的可用性,為此,需要對垃圾傳真的特征進行全面研究及利用,確保分類方法的有效性。
垃圾傳真通常是將一份傳真進行廣播式發(fā)送,因此在傳真服務(wù)器的接收端,垃圾傳真重復(fù)嚴重,而正常業(yè)務(wù)傳真則沒有此特征。所以本文的方法是對接收到的傳真進行聚類處理,能夠聚類的認為是垃圾傳真,不能聚類的認為是正常業(yè)務(wù)傳真。根據(jù)上述分析,得到安全傳真服務(wù)器的系統(tǒng)模型,如圖1所示。與傳統(tǒng)的傳真服務(wù)器相比,本服務(wù)器在傳真分發(fā)前,增加了對垃圾傳真的聚類檢測功能。為達到最佳的檢測效果,且避免垃圾傳真因數(shù)量少而不能聚類,增加了垃圾傳真的歷史特征庫。
2 垃圾傳真檢測算法
由安全傳真服務(wù)器系統(tǒng)模型可見,調(diào)制解調(diào)、編碼解碼、傳真收集與分發(fā)等都屬于普通傳真服務(wù)器具有的功能,相關(guān)資料中已有說明,本文不再重復(fù),這里只詳細介紹其中的垃圾傳真檢測算法。
本文中的應(yīng)用對精確度要求很高,不允許將正常業(yè)務(wù)傳真識別為垃圾傳真,所以需要選取一種能夠精確表達傳真內(nèi)容的特征進行聚類,本文采用傳真的游程[4]特征。
每幅傳真圖片的黑白像素分布不同,從每一掃描行的圖像數(shù)據(jù)上看,這種不同體現(xiàn)在黑像素和白像素的分布上,即交替的次數(shù)不同,且連續(xù)黑白像素點的長度也不同。將此特征以游程數(shù)M和游程值L來描述,游程數(shù)是指每個掃描行黑白像素變化的次數(shù),游程值是指每個連續(xù)像素段的像素個數(shù)。假如某一行的像素為00001111110011000,則該掃描行的游程特征為:M=4,L0,…,M=(4,6,2,2,3)。將所有的傳真圖像以此特征來描述,并進行比較,即可實現(xiàn)相同傳真圖像的聚類。傳真圖像與游程特征的對比如圖2、圖3所示。
正常業(yè)務(wù)傳真在聚類過程中可以認為是孤立點或者噪聲點,大量重復(fù)的垃圾傳真或者廣告?zhèn)髡媸潜疚木垲惖膶ο??;诿芏鹊腄BSCAN[6]聚類算法能夠?qū)构铝Ⅻc,并且能夠處理任意形狀和大小的類,因此這里選擇DBSCAN算法。DBSCAN算法提出了一些新的定義:
(2)如果一個對象的?著-近鄰中至少包含MinPts個對象,則稱這個對象為核對象。
(3)如果對象P為另一個對象q的ε-近鄰且q是核對象,則稱p是從q可“直接密度可達”(Density-Reachable)。
(4)如果存在一系列對象p1,p2,…,pn,其中p1=q,pn=p,而且pi+1(1≤i≤n-1)是從pi“直接密度可達”的,則稱p是從q可“密度可達”。
(5)若存在一個對象z,使得p和q都是從z“密度可達”的,則稱對象p“密度連接”對象q。
DBSCAN聚類算法就是檢查數(shù)據(jù)庫中每一個點的ε-近鄰。若一個對象p的ε-近鄰包含MinPts多于個對象,則創(chuàng)建包含p的聚類。然后DBSCAN根據(jù)這些核對象,循環(huán)搜索“直接密度可達”的對象,當各聚類中再無新對象加入時,聚類結(jié)束。
聚類算法的具體實現(xiàn)需要考慮如下因素:
(1)要判斷兩個圖像是否相同,只需要判斷有限個掃描行數(shù)據(jù)相似度大小即可。如果對整個圖片進行特征比對,會嚴重增加存儲和計算開支。
(2)正常情況下傳真都含有頁眉,頁眉涉及時間、主叫等信息,即使重復(fù)發(fā)送的垃圾傳真,頁眉顯示的時間也不相同,所以比較傳真時應(yīng)當避開頁眉。
(3)在聚類處理的時段內(nèi),垃圾傳真如果數(shù)量少就會因為不能聚類而漏檢,為此,應(yīng)該建立已知垃圾傳真特征庫,供后續(xù)檢測使用。
基于上述考慮,聚類算法實現(xiàn)過程如下:
(1)分類器訓(xùn)練:利用訓(xùn)練數(shù)據(jù),采用最小方差準則對?著、MinPts等聚類參數(shù)進行確定。
(2)提取每個傳真圖片的游程特征C[i]:設(shè)定起始行Srow(如Srow=20),從此行向下搜索,找到有效圖像掃描行,作為新的起始行,從起始行開始,提取有限行Mrow(如Mrow=80)游程特征。
(3)確定垃圾傳真類:遍歷所有傳真,若一個傳真的ε-近鄰中至少包含MinPts個傳真,就創(chuàng)建包含這個傳真的類,該類中的所有傳真為垃圾傳真。
(4)確定類代表特征:設(shè)dij表示某傳真數(shù)為n的類中點i到點j的距離,di表示點i到該類所有點的距離和,如果di=min(d1,d1,…,dn),則點i為該類的中心點,其游程特征作為該類的代表特征,加入垃圾傳真特征庫。
(5)確定孤立垃圾傳真:集合M={m1,m2,…}為垃圾傳真模版庫,G={g1,g2,…}為不能聚類的傳真的集合,若d(gi,mj}<?著,則gi為垃圾傳真。
3 仿真測試
上述方法通過MATLAB完成了仿真實現(xiàn)。通過該方法實現(xiàn)的傳真服務(wù)器,不但具有一般傳真服務(wù)器的功能,而且能夠?qū)Υ职l(fā)的傳真進行判別,確保最終用戶收到的傳真不是垃圾傳真。
本文最后進行了性能測試。測試過程如下:
(1)從某公司傳真服務(wù)器處收集得到2 000份傳真數(shù)據(jù),隨機取其中400份作為訓(xùn)練集,另外1 600份作為測試集。
(2)建立傳真特征表,用來記錄傳真的特征數(shù)據(jù)。字段包括:文件名、屬性(垃圾傳真為0,其他為1)、可聚類性(在訓(xùn)練集中能夠聚類為1,否則為0)、聚類類別(人工對訓(xùn)練集中能夠聚類的傳真進行分類,并標以不同的類別值)。
(3)對訓(xùn)練集傳真進行人工辨認,并將特征記入傳真特征表。
(4)根據(jù)最小方差準則,用訓(xùn)練集中傳真對分類器參數(shù)進行訓(xùn)練,使分類器輸出結(jié)果與傳真特征數(shù)據(jù)具有最大擬合度,從而得到分類器參數(shù)。
(5)對測試集中的傳真進行人工辨認,并將特征記入傳真特征表。
(6)用訓(xùn)練得到的分類器對測試集中的1 600份傳真進行分類,并將分類結(jié)果自動記入數(shù)據(jù)庫。
(7)比對識別結(jié)果與人工辨認數(shù)據(jù)。
測試結(jié)果如表1所示。
從表1中結(jié)果可知:
(1)沒有正常的業(yè)務(wù)傳真被檢測為垃圾傳真,說明本文的方法不會影響正常的傳真業(yè)務(wù)。
(2)垃圾傳真可能被誤識為正常傳真,這是因為本方法中,為了確保正常傳真不會被聚類,聚類的條件設(shè)置得比較苛刻,造成了部分垃圾傳真由于數(shù)量少不能聚類。
(3)在沒有影響正常傳真業(yè)務(wù)的情況下,本文方法對垃圾傳真的檢出率為92.5%,說明了本文方法的有效性。
在實際應(yīng)用中,能夠聚類的部分傳真可能包含用戶感興趣的資訊,用戶希望對此正常接收,所以在后續(xù)的工作中,應(yīng)該在聚類的基礎(chǔ)上,從用戶的感知和體驗角度出發(fā),深入研究垃圾傳真的本質(zhì),使垃圾傳真的分類更加合理,進一步提高安全傳真服務(wù)器的可用性。
參考文獻
[1] 羅新.基于局域網(wǎng)的傳真服務(wù)器的設(shè)計與實現(xiàn)[D].大連理工大學(xué)碩士學(xué)位論文,2006,6.
[2] 陳屹峰.嵌入式傳真服務(wù)器的設(shè)計與實現(xiàn)[D].復(fù)旦大學(xué)碩士學(xué)位論文,2004,4.
[3] 李寶安,孟慶昌.中文信息處理技術(shù)——原理與應(yīng)用[M]. 北京:清華大學(xué)出版社,2005.
[4] 田麗華.編碼理論[M].陜西:西安電子科技大學(xué)出版社,2004.
[5] 楊蘭倉.數(shù)據(jù)挖掘中聚類和孤立點檢測算法的研究[D].復(fù)旦大學(xué)碩士學(xué)位論文,2004,4.
[6] 周水庚,周傲英.一種基于密度的快速聚類算法[J].計算機研究與發(fā)展,2000,37(11).