摘 要: 提出了一種用于入侵檢測系統(tǒng)的多分類器融合的模式識別方法,通過試驗對單分類器和多分類器的IDS性能進行了比較。
關鍵詞: 入侵檢測 模式識別 多分類器融合
對計算機網(wǎng)絡的保護通常是通過訪問控制策略來實現(xiàn)的。盡管投入了很大的精力來設計這些過濾器,但是,網(wǎng)絡安全還是難以得到保證。為了檢測出已知的或潛在的威脅,入侵檢測系統(tǒng)被放入計算機網(wǎng)絡中作為網(wǎng)絡安全的第二道防線。入侵檢測系統(tǒng)作為一種積極、主動的防御系統(tǒng)是傳統(tǒng)的防火墻所不能替代的。
1 入侵檢測系統(tǒng)概述
1.1 入侵檢測系統(tǒng)的組成
入侵檢測系統(tǒng)從功能上可以分為三部分。
(1)探測器:探測器主要負責收集數(shù)據(jù)。探測器的輸入數(shù)據(jù)流包括任何可能包含入侵行為線索的系統(tǒng)數(shù)據(jù)。
(2)分析器:分析器又稱為檢測引擎,負責從一個或多個探測器處接收信息,并分析是否發(fā)生了非法入侵活動。
(3)用戶接口:IDS的用戶接口使用戶易于觀察系統(tǒng)的輸出信號,并對系統(tǒng)行為進行控制。
1.2 入侵檢測系統(tǒng)的分類
根據(jù)檢測引擎的實現(xiàn)技術,可把入侵檢測系統(tǒng)分為誤用入侵檢測(Misuse Detection)和異常入侵檢測(Anomaly Detection)。
(1)誤用入侵檢測主要根據(jù)網(wǎng)絡數(shù)據(jù)流的特征來匹配攻擊模式,具有較高的檢測準確性,但它的完整性則取決于特征庫的及時更新。理論上,可以通過設計通用的攻擊模式來解決此問題,但安全專家設計的通用攻擊模式往往產(chǎn)生大量的假警報。
(2)異常入侵檢測是基于計算機系統(tǒng)正常行為的統(tǒng)計知識的一種檢測方法。這種檢測方法與系統(tǒng)類型、環(huán)境、系統(tǒng)脆弱性和攻擊類型無關。它的檢測完整性很高,但由于網(wǎng)絡傳輸具有高可變性,因此很難保證高的準確性。較高的虛警率是它的主要缺陷。
2 入侵檢測系統(tǒng)中模式識別技術的引入及特點
從以上討論可看出,開發(fā)一個成功、高效的IDS的關鍵是找到檢測新攻擊和低虛警率之間的平衡。誤用檢測模型雖然檢測新攻擊的能力有限,但由于它具有低虛警率而得到廣泛的應用。
為了檢測新的攻擊,很多研究人員采用樣本學習的模式識別方法。用這種方法開發(fā)先進IDS的主要優(yōu)點在于它的歸納能力。它可以識別出以前沒有遇到過和沒有描述過的攻擊,尤其是,模式識別方法可以檢測出變異的攻擊?;跇颖緦W習的入侵檢測還處于初級階段,在系統(tǒng)得到實用之前還有大量問題需要解決。一個最主要的問題就是它常常產(chǎn)生高的虛警率。
應用模式識別和樣本學習方法開發(fā)高效的IDS具有以下優(yōu)點:(1)檢測新攻擊的能力。(2)從有標號的網(wǎng)絡數(shù)據(jù)自動提煉出一些攻擊特征,克服了人為的一些主觀性。
這些觀點在IDS開發(fā)早期就被提出過,尤其是對神經(jīng)網(wǎng)絡的應用投入了大量研究。神經(jīng)網(wǎng)絡提供了一種識別異常行為模式的能力。用于誤用和異常檢測的神經(jīng)網(wǎng)絡模型已于1999年提出。訓練集是由基本安全模塊(Base Security Module)捕獲的一系列事件。由網(wǎng)絡會話數(shù)據(jù)而不是審計數(shù)據(jù)組成的訓練集也被用在誤用檢測中。從以上分析中可以看出,模式識別技術非常適于提供一種IDS的解決方法。
3 基于模式識別技術的入侵檢測系統(tǒng)
3.1 基于模式識別技術的NIDS系統(tǒng)結構
計算機網(wǎng)絡的入侵主要是針對傳輸協(xié)議、系統(tǒng)軟件和應用軟件的漏洞進行的。檢測計算機網(wǎng)絡的入侵,可以采用NIDS系統(tǒng)。它通過處理網(wǎng)絡數(shù)據(jù)流,可以檢測到入侵行為?;谀J阶R別的入侵檢測系統(tǒng)的結構如圖1所示。

NIDS主要解決的問題是:通過給定2臺主機之間的會話連接信息,把每次會話歸類為N種數(shù)據(jù)類中的一種。這N種數(shù)據(jù)類包含了正常數(shù)據(jù)和各種入侵類別。
會話連接指的是某一特定服務的一系列的數(shù)據(jù)包。NIDS的目的是檢測出有惡意的會話連接,每個連接都可歸于一個數(shù)據(jù)類。
3.2 入侵特征的提取
特征提取是入侵檢測系統(tǒng)的核心問題之一。合理的特征提取是保證入侵檢測系統(tǒng)有效工作的重要前提。特征提取的結果將影響到IDS的誤報率和漏報率。降低誤報率和漏報率一直是IDS所追求的目標,而優(yōu)化的特征選取會對該目標產(chǎn)生積極而深遠的影響。
為了區(qū)分不同的攻擊,需要選擇合適的入侵特征。本文將入侵特征分為與數(shù)據(jù)內(nèi)容有關的特征(負載)和與網(wǎng)絡連接有關的特征,而網(wǎng)絡連接特征又可進一步細分為網(wǎng)絡特征和統(tǒng)計特征。因此,這三類特征經(jīng)常被用于劃分網(wǎng)絡連接類型。
(1)內(nèi)容特征:包含了數(shù)據(jù)包的數(shù)據(jù)內(nèi)容信息(負載)。
(2)網(wǎng)絡特征:本次連接的一般特征,包括連接時間、類型、協(xié)議和標志等。
(3)統(tǒng)計特征:與本次連接類似的連接的一些統(tǒng)計值。例如:與本次連接有相同目的主機的連接數(shù)目。
從網(wǎng)絡數(shù)據(jù)流中能夠提取3類特征,每類特征都可提供區(qū)分正常數(shù)據(jù)流或攻擊的信息。當一個攻擊發(fā)生時,攻擊模式會在一類或多類的特征集中被發(fā)現(xiàn)。對于每一種攻擊,網(wǎng)絡工程師根據(jù)他們的經(jīng)驗選擇更高效的特征系統(tǒng),以設計出有效的攻擊模式。一旦出現(xiàn)了新的攻擊,就要對特征系統(tǒng)進行人為調(diào)整。另一方面,模式識別工具可以處理所有的特征集以自動提取更多有用的特征,不需要人為的干預,大大提高了IDS的工作效率。
4 單分類器與多分類器的比較
設計模式識別系統(tǒng)的最終目的在于使當前的分類任務達到最佳的分類性能。該問題一般用神經(jīng)網(wǎng)絡分類器來解決,采用的算法是反向傳播(BackPropagation,BP)算法。為完成一個現(xiàn)有的模式分類問題,對多個可選的分類方案進行實驗測試,然后選擇最佳的分類器方案作為該問題的分類器。但這里出現(xiàn)了 3個問題:(1)BP算法存在易于陷入局部極值的缺點,因而可能使最終的分類結果達不到理想的分類狀態(tài)。(2)不能被最佳分類器識別的模式可能被其他分類器識別。(3)高維特征變量的輸入會導致計算復雜化,學習速度慢,在具體實現(xiàn)和精度上都會產(chǎn)生問題。解決這些問題的方法是將一個模式識別問題由多個分類器共同完成,并將多個分類器的輸出作為證據(jù)進行組合。
為此,可以把全體特征按不同的抽象層分為幾個特征集,然后用不同的分類器分別進行處理(但在大多數(shù)情況下,只用一個分類器處理所有特征集)。但分類器工作在這樣的環(huán)境中,會導致屬性(或維)的大量冗余。不同的網(wǎng)絡會話中,特征有不同的含義,因而用單個分類器處理不同語義的分類非常困難。鑒于這種情況,多分類器融合將比基于高維特征向量的單分類器更有效。
在目標識別中,利用不同的特征或分類器可以得到不同的分類識別結果。這些結果之間的互補性往往很強。因此,通過對多分類器的分類識別結果進行融合能有效地提高對目標的分類識別效果。此外,對多分類器的融合還可以降低分類系統(tǒng)的訓練時間并提高分類系統(tǒng)的魯棒性。
5 IDS中采用的多分類器融合方法
基于多分類器的模式識別方法能進一步利用由不同特征子集所提取出的攻擊模式。每個特征子空間獨立地執(zhí)行攻擊檢測,然后把檢測結果綜合起來得出最后的決定。入侵檢測多分類器結構如圖2所示。這個處理過程與網(wǎng)絡安全專家設計攻擊模式的過程吻合。

多分類器融合包括2種基本技術:(1)將每個分類器的輸出結果按照特定的融合方法進行融合來得到最終的分類結果。常用的融合方法有投票法、加權平均法、貝葉斯推理、D-S證據(jù)理論和模糊積分等。(2)動態(tài)分類器選擇,即對于特定類型的待識別模式通過動態(tài)選擇分類器進行分類。本文將采用投票法、加權平均法和樸素貝葉斯這3種融合方法和動態(tài)分類器選擇技術。
投票法是應用最廣泛的融合方法。它利用單個分類器對給定的測試樣本分類,將具有相同分類結果的分類器劃分為同一組。分類器數(shù)目最多的一組的分類結果就是測試樣本最終的分類結果。
由于分類系統(tǒng)中各分類器的分類效果不同,為發(fā)揮各個分類器的優(yōu)點,使融合結果達到高識別率和高置信度,在融合過程中常常需要對各分類器的輸出進行加權,得到最終的分類結果。這種方法就是加權平均法。
樸素貝葉斯方法直接利用貝葉斯公式進行預測,把從訓練樣本中計算出的各個屬性值和類別頻率比作為先驗概率,并假定各個屬性之間是獨立的。這樣就可以用貝葉斯公式和相應的概率公式計算出要預測實例對各類別的條件概率值。
動態(tài)分類器選擇技術就是要找出在輸入樣本周圍區(qū)域中具有最優(yōu)局部性能的分類器,并以該分類器的輸出作為整個融合系統(tǒng)的輸出結果。
假設根據(jù)不同特征集訓練的各分類器的輸出結果不具有相關性,則可用一些固定的融合方法,如投票法和加權平均法。然而,該假設并不總是成立。當不同分類器輸出結果之間具有相關性時,固定的規(guī)則就不能很好地進行處理。這時可以采用可訓練的融合方法,它能較好地解決不同分類器輸出結果的關聯(lián)性。
6 試驗結果
為了測試模式識別方法,只選擇Ftp服務,從中選取有代表性的30個特征,并分為3類:4個網(wǎng)絡特征、7個統(tǒng)計特征和19個內(nèi)容特征。特征值都被規(guī)格化為[0,1]。訓練集包括122個正常數(shù)據(jù)、6個U2R(非授權的本地根用戶權限訪問)攻擊、539個 R2L(非授權的遠程訪問)攻擊、1個探測和57個DoS(拒絕服務)攻擊,一共725次連接,測試集有7 400個連接。
單分類器系統(tǒng)總體性能對比如表1所示。表中對比了3類不同特征集訓練的神經(jīng)網(wǎng)絡的性能。這些網(wǎng)絡是用3層神經(jīng)元組成的完全連接多層感知機。這3層神經(jīng)元分別是輸入層、隱含層和輸出層神經(jīng)元。每個網(wǎng)絡有5個輸出神經(jīng)元作為數(shù)據(jù)類的數(shù)量,代表5種不同的輸出數(shù)據(jù)類。輸入神經(jīng)元個數(shù)與特征值數(shù)量相同。隱含層由5個神經(jīng)元組成。神經(jīng)網(wǎng)絡采用BP算法,用不同學習率、隨機初始權值和偏差值進行訓練,表1顯示了在測試集中獲得的性能。

從統(tǒng)計數(shù)據(jù)可以看出,除了用統(tǒng)計特征訓練的神經(jīng)網(wǎng)絡外,其他方法的性能比較接近,基于內(nèi)容特征的性能最好。從結果可以看出,內(nèi)容特征集最適合這類網(wǎng)絡服務,而統(tǒng)計特征集最差。
多分類器系統(tǒng)的總體性能對比如表2所示。從表1和表2 的對比中看出,由于采用了多個分類器的融合技術,因而獲得了比單個分類器更好的性能。相比固定的融合規(guī)則,可訓練的融合規(guī)則提供了更好的性能。動態(tài)分類器選擇(Dynamic Classifier Selection,DCS)的性能最好,它更好地解決了精度和相關性的問題。

7 結 論
本文提出了一種基于不同特征的多分類器方法,給出了一組實驗數(shù)據(jù),比較了單分類器與多分類器的總體性能。從結果可以看出,在入侵檢測系統(tǒng)中,多分類器性能遠優(yōu)于單分類器。
以前提出的基于模式識別的入侵檢測方法的主要缺點就是虛警率較高。本文的工作將有助于設計更好的基于模式識別的入侵檢測。實驗結論也證實了多分類器融合的方法相比單分類器而言,具有較低的虛警率和較高的準確率。
參考文獻
1 哈根著,戴葵譯.神經(jīng)網(wǎng)絡設計.北京:機械工業(yè)出版社,2002
2 趙誼虹.多分類器融合中一個新的加權算法.上海交通大學學報,2002;36(6)
3 Allen J,Christie A,F(xiàn)ithen W et al.State of the Practice of Intrusion Detection Technologies.http://www.sei.cmu.edu/publications/documents/99.reports/99tr028/99tr028abstract.
html,2000
4 Axelsson S.The Base-rate Fallacy and the Difficulty of Intrusion Detection.ACM Press,2000;3(8)
5 Lee W,Stolfo S J.A Framework for Constructing Features and Models for Intrusion Detection Systems.ACM Transactions on Information and System Security(TISSEC),2000;3(11)
