《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 設計應用 > 基于K-means的異常識別方法
基于K-means的異常識別方法
電子技術應用
劉道君,劉帥,張玉松,歐思程
中國長江電力股份有限公司 三峽水利樞紐梯級調度通信中心
摘要: 在工業(yè)、電力、交通等領域,異常往往是系統發(fā)生問題或故障的先兆。通過異常識別技術,可以及時發(fā)現系統異常行為,預防或迅速應對潛在的故障,提高系統的可靠性和穩(wěn)定性。當前的異常識別算法通常需要引入專家信息(如適宜的參數值),但在許多識別場景中,數據分布以及異常發(fā)生原因是未知的,導致專家信息不可信。因此,如何設計一款無需專家信息介入的異常識別算法意義非凡。設計了一種自適應的異常識別算法,通過K-means聚類算法識別出眾多小簇,然后統計各簇中對象數量的分布概率以生成概率分布圖。從概率分布圖中,可以清晰觀察到哪些簇中的對象數量明顯小于其他簇,從而將它們識別為異常簇,其中的對象識別為異常。換句話說,概率分布圖代替了專家信息,可協助使用者在分布以及原因未知情況下識別有效異常。
中圖分類號:TP181 文獻標志碼:A DOI: 10.16157/j.issn.0258-7998.245654
中文引用格式: 劉道君,劉帥,張玉松,等. 基于K-means的異常識別方法[J]. 電子技術應用,2025,51(5):62-67.
英文引用格式: Liu Daojun,Liu Shuai,Zhang Yusong,et al. Outlier detection method based on K-means[J]. Application of Electronic Technique,2025,51(5):62-67.
Outlier detection method based on K-means
Liu Daojun,Liu Shuai,Zhang Yusong,Ou Sicheng
China Yangtze Power Co.,Ltd., Three Gorges Cascade Dispatch Communication Center
Abstract: In industry, electric power, transportation and other fields, anomalies are often the precursors of problems or failures in the system. Through anomaly identification techniques, system abnormal behavior can be detected in time to prevent or quickly respond to potential failures and improve system reliability and stability. Current anomaly identification algorithms usually need to introduce expert information (e.g., suitable parameter values), but in many identification scenarios, the data distribution as well as the cause of anomaly occurrence are unknown, resulting in unreliable expert information. Therefore, it is significant to design an anomaly identification algorithm that does not require the intervention of expert information. In this paper, an adaptive anomaly identification algorithm is designed. Specifically, it identifies numerous small clusters by K-means, and then counts the distribution probability of the number of objects in each cluster to generate a probability distribution graph. From the probability distribution graph, it can be clearly observed which clusters contain significantly smaller numbers of objects than other clusters, and thus they are recognized as anomalous clusters in which the objects are recognized as anomalies. In other words, the probability distribution graph replaces expert information and assists the user in identifying valid anomalies when the distribution as well as the cause is unknown.
Key words : outlier detection;probability;decision graph

引言

異常識別在當今社會中具有重要意義,它可以幫助提高安全性、優(yōu)化效率、預測未來、改善數據質量以及支持決策,在各個領域中推動進步和發(fā)展。隨著技術的不斷發(fā)展和應用范圍的擴大,異常識別將繼續(xù)發(fā)揮重要作用,并為人類社會帶來更多的益處。

當前,已有上千種異常識別算法被陸續(xù)提出。它們大致可以被劃分為基于統計、基于距離、基于深度學習、基于集成的算法。具體地,基于統計的算法使用數據的統計特性來識別異常值,常見的統計信息包括均值、標準差、中位數、百分位數等。基于距離的算法通過計算對象之間的相似度或距離來識別異常值?;诩傻乃惴ńY合多個基本異常檢測模型的輸出,以提高整體的性能和魯棒性。基于深度學習的算法利用多層神經網絡來學習數據的復雜特征,并在此基礎上進行異常檢測。盡管上述類型算法已經被驗證可以在各樣場景下很好地識別數據集中的復雜異常,但大多算法面臨一個共同的問題,就是需要若干輸入參數,且異常識別效果與參數值高度相關。然而,異常識別是一種無監(jiān)督分析任務,這意味著面對未知數據集時,將無法客觀地預測哪些參數值是適當的。一種名為DPC的算法解決了上述問題,它通過識別簇邊界區(qū)域,然后將邊界區(qū)域中密度小于密度均值的對象識別為異常,識別過程中不需要輸入任何參數。然而,DPC的異常識別效果易受對象分布的影響。若簇間較為接近時,會有許多正常數據對象被錯誤地識別為異常。顯然,如果構建一個既無輸入參數又有優(yōu)異的異常識別效果的算法模型將是有意義的。

為了實現上一目標,本文提出了一種全新的名為K-outlier的算法。具體地,K-outlier算法首先將數據集劃分為個簇,其中為數據集中數據對象的數量。由于異常對象分布相對稀疏,因此異常對象將被劃分到只包含少量對象的小簇中。然后,K-outlier算法統計每個簇中對象的數量,并生成數量概率圖,稱之為決策圖。從決策圖中,使用者可以很清晰地識別出哪些簇中的對象數量少且概率低,從而將它們識別為異常簇(因為異常對象的數量遠小于正常對象,且異常對象所在簇中對象的數量也遠小于正常對象所在簇中對象的數量),其中的對象識別為異常。K-outlier算法的主要貢獻:

(1)首次將K-means引入異常識別任務。K-means是最經典的聚類算法,盡管它沒有異常識別能力,但它具有低時間復雜的優(yōu)勢,可以幫助K-outlier算法快速識別出異常。

(2)生成可視決策圖代替輸入參數。K-outlier算法不再像其他異常識別算法需要輸入參數來識別異常,使用者可以通過決策圖提供的可視信息直接得到異常識別結果。

(3)K-outlier算法的異常識別效果不受對象分布的影響。由于將異常劃分到小簇中,與正常對象進行了物理隔離,因此不受正常對象分布的影響。

(4)通過大量實驗驗證了K-outlier算法的有效性。實驗表明K-outlier算法對密度不平衡數據集、復雜分布數據集具有一定的魯棒性。在7個真實世界數據集上,相比于現有算法,K-outlier算法取得了最優(yōu)的結果。


本文詳細內容請下載:

http://m.ihrv.cn/resource/share/2000006527


作者信息:

劉道君,劉帥,張玉松,歐思程

(中國長江電力股份有限公司 三峽水利樞紐梯級調度通信中心 湖北 宜昌 443000)


Magazine.Subscription.jpg

此內容為AET網站原創(chuàng),未經授權禁止轉載。