《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計應(yīng)用 > 一種基于聚類技術(shù)的安全傳真服務(wù)器設(shè)計方法
一種基于聚類技術(shù)的安全傳真服務(wù)器設(shè)計方法
來源:電子技術(shù)應(yīng)用2010年第12期
于洪濤,黃 海,馮曉磊
國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心,河南 鄭州450002
摘要: 提出一種安全傳真服務(wù)器的概念,其基本原理是在傳真服務(wù)器中增加垃圾傳真檢測功能,使用戶免受垃圾傳真的侵擾。利用垃圾傳真普遍以廣播形式散播的特點,采用游程特征進行聚類,從而判別接收的是否垃圾傳真。仿真測試表明,該方法有較高的準確度。
中圖分類號: TN917
文獻標識碼: A
文章編號: 0258-7998(2010)12-0039-03
A design method of safety fax server based on clustering techniques
YU Hong Tao,HUANG Hai,F(xiàn)ENG Xiao Lei
National Digital Switching System Engineering & Technological R&D Center,Zhengzhou 450002,China
Abstract: This paper proposes a concept of safety fax server ,whose basic principle is to add junk fax detection function to the fax server to protect users from junk faxes. Junk faxes generally spread with the form of broadcast, thus the specific means is to cluster the receiving faxes with run-length characteristics to discriminate junk faxes from normal faxes, simulation result indicates that this method has high accuracy.
Key words : fax server;safety fax server;junk fax;run_length characteristics;cluster

    傳真服務(wù)器是隨著通信技術(shù)的發(fā)展,針對大中型企業(yè)、機關(guān)需求推出的一種集團傳真通信解決方案。它的基本原理是通過軟硬件集成,實現(xiàn)多路傳真的并發(fā)收發(fā),并在此基礎(chǔ)上,與辦公流程相結(jié)合,實現(xiàn)更復(fù)雜的自動化管理。
    目前的傳真服務(wù)器,其主要業(yè)務(wù)是實現(xiàn)傳真的收發(fā)管理,但是不具備安全功能,因此很容易成為垃圾傳真的攻擊目標,尤其是一些大企業(yè),其號碼為公眾所熟悉,更是垃圾傳真的重災(zāi)區(qū)。垃圾傳真的泛濫不但造成巨大的浪費,而且嚴重影響正常辦公。
    針對上述問題,本文提出一種安全傳真服務(wù)器的概念,在傳真服務(wù)器上增加垃圾傳真的自動檢測功能,從而使分發(fā)或打印的傳真都是安全有效的。
1 安全傳真服務(wù)器模型
    文獻[1]、文獻[2]等給出了傳真服務(wù)器的實現(xiàn)方法。為實現(xiàn)安全傳真服務(wù)器,需要在原來的傳真服務(wù)器上增加傳真自動分類功能,只對無害的傳真進行分發(fā),而將垃圾傳真剔除。一種直觀的方法是在分發(fā)之前增加內(nèi)容的機器識別功能,如對傳真圖像進行OCR[3](光學(xué)字符識別)識別,得到傳真圖像的文本字符信息,在此基礎(chǔ)上進行文本分類。但是受限于傳真的實際情況,如手工發(fā)送造成的版面傾斜、手寫字體等,如果直接對其進行OCR識別,較低的準確率會嚴重影響系統(tǒng)的可用性,為此,需要對垃圾傳真的特征進行全面研究及利用,確保分類方法的有效性。
    垃圾傳真通常是將一份傳真進行廣播式發(fā)送,因此在傳真服務(wù)器的接收端,垃圾傳真重復(fù)嚴重,而正常業(yè)務(wù)傳真則沒有此特征。所以本文的方法是對接收到的傳真進行聚類處理,能夠聚類的認為是垃圾傳真,不能聚類的認為是正常業(yè)務(wù)傳真。根據(jù)上述分析,得到安全傳真服務(wù)器的系統(tǒng)模型,如圖1所示。與傳統(tǒng)的傳真服務(wù)器相比,本服務(wù)器在傳真分發(fā)前,增加了對垃圾傳真的聚類檢測功能。為達到最佳的檢測效果,且避免垃圾傳真因數(shù)量少而不能聚類,增加了垃圾傳真的歷史特征庫。

2 垃圾傳真檢測算法
    由安全傳真服務(wù)器系統(tǒng)模型可見,調(diào)制解調(diào)、編碼解碼、傳真收集與分發(fā)等都屬于普通傳真服務(wù)器具有的功能,相關(guān)資料中已有說明,本文不再重復(fù),這里只詳細介紹其中的垃圾傳真檢測算法。
    本文中的應(yīng)用對精確度要求很高,不允許將正常業(yè)務(wù)傳真識別為垃圾傳真,所以需要選取一種能夠精確表達傳真內(nèi)容的特征進行聚類,本文采用傳真的游程[4]特征。
    每幅傳真圖片的黑白像素分布不同,從每一掃描行的圖像數(shù)據(jù)上看,這種不同體現(xiàn)在黑像素和白像素的分布上,即交替的次數(shù)不同,且連續(xù)黑白像素點的長度也不同。將此特征以游程數(shù)M和游程值L來描述,游程數(shù)是指每個掃描行黑白像素變化的次數(shù),游程值是指每個連續(xù)像素段的像素個數(shù)。假如某一行的像素為00001111110011000,則該掃描行的游程特征為:M=4,L0,…,M=(4,6,2,2,3)。將所有的傳真圖像以此特征來描述,并進行比較,即可實現(xiàn)相同傳真圖像的聚類。傳真圖像與游程特征的對比如圖2、圖3所示。

    正常業(yè)務(wù)傳真在聚類過程中可以認為是孤立點或者噪聲點,大量重復(fù)的垃圾傳真或者廣告?zhèn)髡媸潜疚木垲惖膶ο??;诿芏鹊腄BSCAN[6]聚類算法能夠?qū)构铝Ⅻc,并且能夠處理任意形狀和大小的類,因此這里選擇DBSCAN算法。DBSCAN算法提出了一些新的定義:
   
    (2)如果一個對象的?著-近鄰中至少包含MinPts個對象,則稱這個對象為核對象。
    (3)如果對象P為另一個對象q的ε-近鄰且q是核對象,則稱p是從q可“直接密度可達”(Density-Reachable)。
    (4)如果存在一系列對象p1,p2,…,pn,其中p1=q,pn=p,而且pi+1(1≤i≤n-1)是從pi“直接密度可達”的,則稱p是從q可“密度可達”。
    (5)若存在一個對象z,使得p和q都是從z“密度可達”的,則稱對象p“密度連接”對象q。
    DBSCAN聚類算法就是檢查數(shù)據(jù)庫中每一個點的ε-近鄰。若一個對象p的ε-近鄰包含MinPts多于個對象,則創(chuàng)建包含p的聚類。然后DBSCAN根據(jù)這些核對象,循環(huán)搜索“直接密度可達”的對象,當各聚類中再無新對象加入時,聚類結(jié)束。
    聚類算法的具體實現(xiàn)需要考慮如下因素:
    (1)要判斷兩個圖像是否相同,只需要判斷有限個掃描行數(shù)據(jù)相似度大小即可。如果對整個圖片進行特征比對,會嚴重增加存儲和計算開支。
    (2)正常情況下傳真都含有頁眉,頁眉涉及時間、主叫等信息,即使重復(fù)發(fā)送的垃圾傳真,頁眉顯示的時間也不相同,所以比較傳真時應(yīng)當避開頁眉。
    (3)在聚類處理的時段內(nèi),垃圾傳真如果數(shù)量少就會因為不能聚類而漏檢,為此,應(yīng)該建立已知垃圾傳真特征庫,供后續(xù)檢測使用。
    基于上述考慮,聚類算法實現(xiàn)過程如下:
    (1)分類器訓(xùn)練:利用訓(xùn)練數(shù)據(jù),采用最小方差準則對?著、MinPts等聚類參數(shù)進行確定。
    (2)提取每個傳真圖片的游程特征C[i]:設(shè)定起始行Srow(如Srow=20),從此行向下搜索,找到有效圖像掃描行,作為新的起始行,從起始行開始,提取有限行Mrow(如Mrow=80)游程特征。
    (3)確定垃圾傳真類:遍歷所有傳真,若一個傳真的ε-近鄰中至少包含MinPts個傳真,就創(chuàng)建包含這個傳真的類,該類中的所有傳真為垃圾傳真。
    (4)確定類代表特征:設(shè)dij表示某傳真數(shù)為n的類中點i到點j的距離,di表示點i到該類所有點的距離和,如果di=min(d1,d1,…,dn),則點i為該類的中心點,其游程特征作為該類的代表特征,加入垃圾傳真特征庫。
    (5)確定孤立垃圾傳真:集合M={m1,m2,&hellip;}為垃圾傳真模版庫,G={g1,g2,&hellip;}為不能聚類的傳真的集合,若d(gi,mj}<?著,則gi為垃圾傳真。
3 仿真測試
    上述方法通過MATLAB完成了仿真實現(xiàn)。通過該方法實現(xiàn)的傳真服務(wù)器,不但具有一般傳真服務(wù)器的功能,而且能夠?qū)Υ职l(fā)的傳真進行判別,確保最終用戶收到的傳真不是垃圾傳真。
    本文最后進行了性能測試。測試過程如下:
    (1)從某公司傳真服務(wù)器處收集得到2 000份傳真數(shù)據(jù),隨機取其中400份作為訓(xùn)練集,另外1 600份作為測試集。
    (2)建立傳真特征表,用來記錄傳真的特征數(shù)據(jù)。字段包括:文件名、屬性(垃圾傳真為0,其他為1)、可聚類性(在訓(xùn)練集中能夠聚類為1,否則為0)、聚類類別(人工對訓(xùn)練集中能夠聚類的傳真進行分類,并標以不同的類別值)。
    (3)對訓(xùn)練集傳真進行人工辨認,并將特征記入傳真特征表。
    (4)根據(jù)最小方差準則,用訓(xùn)練集中傳真對分類器參數(shù)進行訓(xùn)練,使分類器輸出結(jié)果與傳真特征數(shù)據(jù)具有最大擬合度,從而得到分類器參數(shù)。
    (5)對測試集中的傳真進行人工辨認,并將特征記入傳真特征表。
    (6)用訓(xùn)練得到的分類器對測試集中的1 600份傳真進行分類,并將分類結(jié)果自動記入數(shù)據(jù)庫。
    (7)比對識別結(jié)果與人工辨認數(shù)據(jù)。
    測試結(jié)果如表1所示。

    從表1中結(jié)果可知:
    (1)沒有正常的業(yè)務(wù)傳真被檢測為垃圾傳真,說明本文的方法不會影響正常的傳真業(yè)務(wù)。
    (2)垃圾傳真可能被誤識為正常傳真,這是因為本方法中,為了確保正常傳真不會被聚類,聚類的條件設(shè)置得比較苛刻,造成了部分垃圾傳真由于數(shù)量少不能聚類。
    (3)在沒有影響正常傳真業(yè)務(wù)的情況下,本文方法對垃圾傳真的檢出率為92.5%,說明了本文方法的有效性。
    在實際應(yīng)用中,能夠聚類的部分傳真可能包含用戶感興趣的資訊,用戶希望對此正常接收,所以在后續(xù)的工作中,應(yīng)該在聚類的基礎(chǔ)上,從用戶的感知和體驗角度出發(fā),深入研究垃圾傳真的本質(zhì),使垃圾傳真的分類更加合理,進一步提高安全傳真服務(wù)器的可用性。

參考文獻
[1] 羅新.基于局域網(wǎng)的傳真服務(wù)器的設(shè)計與實現(xiàn)[D].大連理工大學(xué)碩士學(xué)位論文,2006,6.
[2] 陳屹峰.嵌入式傳真服務(wù)器的設(shè)計與實現(xiàn)[D].復(fù)旦大學(xué)碩士學(xué)位論文,2004,4.
[3] 李寶安,孟慶昌.中文信息處理技術(shù)&mdash;&mdash;原理與應(yīng)用[M]. 北京:清華大學(xué)出版社,2005.
[4] 田麗華.編碼理論[M].陜西:西安電子科技大學(xué)出版社,2004.
[5] 楊蘭倉.數(shù)據(jù)挖掘中聚類和孤立點檢測算法的研究[D].復(fù)旦大學(xué)碩士學(xué)位論文,2004,4.
[6] 周水庚,周傲英.一種基于密度的快速聚類算法[J].計算機研究與發(fā)展,2000,37(11).

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。