《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 設(shè)計應(yīng)用 > 基于多特征的P2P直播流識別方法
基于多特征的P2P直播流識別方法
來源:電子技術(shù)應(yīng)用2014年第2期
楊 楷, 汪斌強(qiáng), 張 震
(國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心, 河南 鄭州450002)
摘要: 針對當(dāng)前P2P流媒體直播流的識別方法較少、識別效果一般的問題,分析了P2P直播流的行為特征,提出了基于節(jié)點連接度的識別方法和基于BM信息比的識別方法,并結(jié)合兩個流量特征采用聯(lián)合特征進(jìn)行P2P直播流識別。實驗表明,該識別方法整體上識別準(zhǔn)確率較高,可以實現(xiàn)P2P直播的在線識別。
中圖分類號: TP393
文獻(xiàn)標(biāo)識碼: A
文章編號: 0258-7998(2014)02-0125-03
A method of identifying P2P live streaming based on union features
Yang Kai, Wang Binqiang, Zhang Zhen
China National Digital Switching System Engineering & Technological R&D Center, Zhengzhou 450002,China
Abstract: There is less paper focusing on identifying P2P live streaming.This paper analyzes the behavioral characteristics of P2P live streaming and proposes an identification method based on node connectivity or BM packet .Then it combines two flow characteristics for identification of P2P live streaming.The experiment shows that the recognition method based on the union features can accurately and quickly identify P2P live streaming.
Key words : P2P live; connectivity; BM packet; union features

     近年已有部分學(xué)者開始進(jìn)行P2P流媒體識別技術(shù)的研究[1]。劉朝斌[2]等人提出了4個可區(qū)分P2P流媒體和P2P文件下載應(yīng)用業(yè)務(wù)的流量特征,采用支持向量機(jī)對P2P流媒體進(jìn)行識別。陳偉[3]通過提取6個端點流量特征并結(jié)合C4.5決策樹方法實現(xiàn)P2P流媒體的識別。上述方法通常采用P2P直播流代替P2P流媒體,未考慮P2P點播流的影響,識別算法較為片面。胡超、楊潔[4]等人通過P2P流媒體軟件的協(xié)議特征實現(xiàn)P2P流媒體的識別,但基于協(xié)議特征的識別方法不能識別未知的P2P流媒體軟件。周麗娟[5]利用P2P直播的暫存性,萬成威[6]分析了P2P直播失敗會話比例較高的問題,實現(xiàn)了P2P直播流的識別,但所屬方法需要對P2P節(jié)點的所有下行流量進(jìn)行統(tǒng)計計算,耗時較長,且識別效果不理想。
    P2P流媒體識別的關(guān)鍵在于P2P流媒體特征的選取[7]。從上述研究發(fā)現(xiàn),基于協(xié)議特征的識別方法不能識別全部的P2P流媒體應(yīng)用[8-9];基于流量特征的識別方法未能提取有效區(qū)分P2P直播與點播的流量特征;基于行為特征的識別方法雖然可以識別P2P直播流,但由于提取特征較少,識別效果不理想。本文以此為出發(fā)點研究P2P流媒體的直播流的行為特征,提出了可以有效識別P2P直播流的行為特征,并結(jié)合直播流的流量特征實現(xiàn)了P2P流媒體的快速準(zhǔn)確識別。
1 P2P直播流識別方法
    基于上述分析結(jié)果,本文提出了兩種能夠準(zhǔn)確識別P2P直播流的行為特征,一種是基于服務(wù)器角色的節(jié)點連接度,另一種是BM信息比,將兩者特征結(jié)合可以有效地識別P2P直播流。
1.1 基于節(jié)點連接度的P2P直播流識別(DLN)
    在采用基于節(jié)點連接度的P2P直播流識別方法之前,需定義如下3個變量:
    定義1 客戶端角色節(jié)點連接度 C_link
    將一個節(jié)點作為目的 IP 地址,記錄在一段時間內(nèi)流經(jīng)該節(jié)點的數(shù)據(jù)包。當(dāng)數(shù)據(jù)包長度大于800 B時,記錄該數(shù)據(jù)包的源IP,最后計算相異的源IP個數(shù),即為客戶端角色的節(jié)點連接度。
    定義 2  服務(wù)器角色節(jié)點連接度 S_link
    將一個節(jié)點作為源 IP 地址,記錄一段時間內(nèi)該節(jié)點發(fā)出的數(shù)據(jù)包。當(dāng)數(shù)據(jù)包長度大于800 B時,記錄該數(shù)據(jù)包的目的IP,最后計算相異的目的IP個數(shù),即為服務(wù)器角色的節(jié)點連接度。
    定義 3 節(jié)點出/入連接比 PL
    PL=S_link/C link
    DLN識別算法如下:
   (1) 初始化C_link、S_link、PL和時間計數(shù)t。
 (2) 當(dāng)有數(shù)據(jù)包流經(jīng)節(jié)點時,判斷計時t,如果t&ge;T,轉(zhuǎn)步驟(7);如果t<T;則轉(zhuǎn)步驟(3)。T為截取數(shù)據(jù)包時間的常量閾值。
    (3) 記錄當(dāng)前數(shù)據(jù)包源和目的IP,將IP與節(jié)點庫IPK中的IP進(jìn)行匹配。若成功,則轉(zhuǎn)步驟(2);否則轉(zhuǎn)步驟(4),并將該IP加入到IPK中。
    (4) 如果該數(shù)據(jù)包以該節(jié)點為目的節(jié)點,轉(zhuǎn)步驟(5);如果該數(shù)據(jù)包以該節(jié)點為源節(jié)點,則轉(zhuǎn)步驟(6)。
    (5) 測量該數(shù)據(jù)包長度L1,若L1&ge;800,則C_link=C_link+1,轉(zhuǎn)步驟(2)。
    (6) 測量該數(shù)據(jù)包長度L2,若L2&ge;800,則S_link=S_link+1,轉(zhuǎn)步驟(2)。
    (7) 計算PL。PL=S_Link/C_link。
    (8) 對PL進(jìn)行判斷,如果PL>&beta;,則該節(jié)點為P2P流媒體直播流。
1.2 基于BM信息比的P2P直播流識別
    定義4  S為客戶端角色時的下行流量集合,S={S1,S2,&hellip;,Sn},其中Si(i=1,2,&hellip;,n)為其中的一條五元組流。
    定義5  Ti為五元組流Si中IP包出現(xiàn)的時間數(shù)。
    定義6  Di為五元組流Si中BM信息包出現(xiàn)的時間數(shù)。
    定義7  Fi為五元組流Si的BM信息比,F(xiàn)i=Di/Ti。
    H-IRI方法識別步驟如下:
    (1) 初始化S為空集,n=0,t=0。
    (2) 對于時間t計數(shù),如果t&ge;T,轉(zhuǎn)步驟(5)。
    (3) 對于每一個到達(dá)的數(shù)據(jù)包P,如果flow(P)&isin;S,將其加入相應(yīng)子流,轉(zhuǎn)步驟(2);否則轉(zhuǎn)步驟(4)。
    (4) 如果length(P)&ge;800,則將flow(P)加入S中,同時n=n+1。
    (5) 對Si(i=1,2,&hellip;,n)進(jìn)行統(tǒng)計,開始時設(shè)置Ti,Di為0,然后進(jìn)行每秒統(tǒng)計,在當(dāng)前1 s內(nèi),其中若有數(shù)據(jù)包,則Ti=Ti+1。若數(shù)據(jù)包中有BM信息數(shù)據(jù)包,則Di=Di+1,同時統(tǒng)計Si的數(shù)據(jù)包個數(shù)Ni。
    (6)選取Ni最大的前6項五元組流集合SS={SS1, &hellip;,SS6},其中NNi為SSi的數(shù)據(jù)包個數(shù),TTi為SSi的IP包出現(xiàn)時間數(shù),DDi為SSi的BM包出現(xiàn)時間數(shù)。
 (7) 計算SSi的BM信息比:FFi=DDi/TTi。
    (8) 計算S的平均BM信息比:
    
    (9) 判讀F,如果F&ge;?濁,則該節(jié)點流為P2P直播流。
    采用主流的P2P流量進(jìn)行1 min流量采集,并進(jìn)行BM信息比測量,結(jié)果如表1所示。

    從上述數(shù)據(jù)可知,H-IRI采用權(quán)重較大的五元組流進(jìn)行賦權(quán)重的BM信息比統(tǒng)計,增大了直播流的BM信息比,減小了其他P2P應(yīng)用的BM信息比,使得直播流與其他應(yīng)用的BM信息比差距增大,有利于P2P直播流的識別。
1.3 基于聯(lián)合特征的P2P直播流識別方法
    單個行為特征無法全面測量P2P直播流的多方面的特性,僅僅使用單個行為特征來識別P2P直播流,必然導(dǎo)致識別的片面性。如果能夠綜合多個P2P直播流特征來共同識別P2P流,將有效地提高P2P直播流的識別效率。
    除上述兩特征,對實現(xiàn)較好的P2P流媒體PPTV、PPStream及QQlive分別進(jìn)行直播流和點播流的抓包測量,同時對P2P文件下載軟件迅雷和BT抓包測量。對它們的數(shù)據(jù)包長進(jìn)行統(tǒng)計,按字節(jié)長度分為0~300 B、300~800 B及&ge;800 B三類包,并統(tǒng)計每類包的分布比例。表2為1 min內(nèi)3種P2P流媒體直播、點播及2種P2P下載軟件的包長分布。
    由表2可知P2P直播流短包數(shù)遠(yuǎn)大于長包數(shù),而P2P點播流短包數(shù)稍小于長包數(shù)。同時P2P直播流的下載速率較為穩(wěn)定,一般不低于50 kb/s,而且不高于300 kb/s。

 

 

    本文采用基于特征加權(quán)的P2P識別方法,其中優(yōu)先級較高的特征擁有較高的權(quán)值,優(yōu)先級較低的特征擁有較低的權(quán)值。設(shè)定優(yōu)先級的權(quán)值為?琢i,?琢1>&hellip;>?琢n>0。根據(jù)匹配特征對識別準(zhǔn)確性的貢獻(xiàn)分配優(yōu)先級,進(jìn)而確定權(quán)值大小。
 

    從圖中知,采用聯(lián)合特征可以將P2P直播流的識別準(zhǔn)確率從90%提高到約95%,由此可見該方法識別性能良好。
    P2P流媒體是當(dāng)前P2P技術(shù)的一個重要應(yīng)用方面,本文實現(xiàn)了P2P直播流的識別。下一步將對P2P點播進(jìn)行分析,實現(xiàn)P2P點播的識別。
參考文獻(xiàn)
[1] 孫衛(wèi)喜,席少龍.對等網(wǎng)聯(lián)下NAT穿越問題的研究[J].電子技術(shù)應(yīng)用,2013,39(5):40-42.
[2] VALENTI S, ROSSI D, MEO M,et al. Accurate, finegrained classification of P2P-TV applications by simply counting packets[C].First International Workshop on Traffic Monitoring and Analysis, Aachen, Germany, 2009.
[3] 陳偉. 基于端點特征的P2P流媒體識別方法[J]. 計算機(jī)應(yīng)用研究,2012,29(7):60-62.
[4] 胡超. 實時識別P2P-TV視頻流的方法研究[J]. 電子與信息學(xué)報,2011,33(9):19-24.
[5] 周麗娟. P2P流媒體識別方法的研究[D]. 武漢:華東科技大學(xué),2008.
[6] 萬成威. 基于P2P流媒體模型的流量特征分析及實時分類[D]. 鄭州:解放軍信息工程大學(xué),2012.
[7] KARAGIANNIS T, PAPAGIANNAKI K, FALOUTSOS M. BLINC: multilevel traffic classification in the dark[C].ACM SIGCOMM Conference, Philadelphia, USA, 2005.
[8] 魯剛,張宏利,葉麟. P2P流量識別[J].軟件學(xué)報, 2011,22(6):81-86.
[9] 刑玲.基于節(jié)點連接度的 P2P 流量快速識別方法[J]. 計算機(jī)工程,2012,38(21):119-122.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。