高集榮1,田艷2,楊永紅1,劉清華1
(1.中山大學(xué) 計(jì)算機(jī)科學(xué)系,廣東 廣州 510006;2.西安財(cái)經(jīng)學(xué)院 統(tǒng)計(jì)學(xué)院,陜西 西安 710061)
摘要:乳腺癌已經(jīng)成為當(dāng)今世界影響婦女健康的重要疾病。對(duì)于乳腺癌診斷來說,當(dāng)一個(gè)惡性病例被誤分類為良性病例的時(shí)候,其代價(jià)遠(yuǎn)遠(yuǎn)大于一個(gè)良性病例被誤分類為惡性病例。它利用數(shù)據(jù)挖掘領(lǐng)域的代價(jià)敏感相關(guān)方法,建立一個(gè)識(shí)別良性乳腺腫瘤和惡性乳腺腫瘤的診斷預(yù)測(cè)系統(tǒng)。在建模過程中充分考慮到誤分類代價(jià)的因素,提出了誤分類代價(jià)策略。通過一系列實(shí)驗(yàn)驗(yàn)證了所建立的模型。從實(shí)驗(yàn)結(jié)果來看,Adaboost與SVM的誤分類組合分類算法在正確率和總誤分類代價(jià)兩個(gè)評(píng)估指標(biāo)上得到了良好的效果。
關(guān)鍵詞:數(shù)據(jù)挖掘;代價(jià)敏感;誤分類代價(jià);乳腺癌
中圖分類號(hào):TP393.092文獻(xiàn)標(biāo)識(shí)碼:ADOI: 10.19358/j.issn.1674-7720.2017.02.004
引用格式:高集榮,田艷,楊永紅,等.基于誤分類模式的乳腺癌診斷研究[J].微型機(jī)與應(yīng)用,2017,36(2):10-13,16.
0引言
乳腺癌已經(jīng)成為當(dāng)今世界影響婦女健康的重要疾?。?],全球乳腺癌發(fā)病率從上世紀(jì)70年代末起就一直呈上升趨勢(shì)。據(jù)美國(guó)的調(diào)查,平均每8名美國(guó)婦女中,就有一個(gè)人在其一生中可能患有乳腺癌疾病。據(jù)中國(guó)國(guó)家癌癥中心和衛(wèi)生部疾病預(yù)防控制局2012年公布的2009年乳腺癌發(fā)病數(shù)據(jù)顯示:全國(guó)腫瘤登記地區(qū)的女性惡性腫瘤排行榜上,乳腺癌發(fā)病率位居第1位。
乳腺癌的研究和治療歷史悠久,積累了不少的數(shù)據(jù),如何從這些數(shù)據(jù)中發(fā)現(xiàn)有用的信息來輔助治療,成了當(dāng)下比較熱門的一個(gè)課題。數(shù)據(jù)挖掘技術(shù)和機(jī)器學(xué)習(xí)的不斷進(jìn)步,將這些技術(shù)用于乳腺癌的識(shí)別和預(yù)測(cè)是大勢(shì)所趨。再結(jié)合醫(yī)生本身的經(jīng)驗(yàn)來預(yù)測(cè)乳腺癌,這將是未來癌癥疾病的診斷模式。
國(guó)內(nèi)外對(duì)乳腺癌診斷預(yù)測(cè)的研究從未停止過,很多研究算法都得到了95%以上的正確率。但是這些研究所使用的數(shù)據(jù)集為威斯康星乳腺癌數(shù)據(jù)集,共收集病例樣本699個(gè)樣本,只有9個(gè)特征屬性。
本文使用到的良惡性乳腺腫瘤分析的數(shù)據(jù)為威斯康星乳腺癌診斷數(shù)據(jù)集,含有569個(gè)樣本(其中良性樣本357個(gè),惡性樣本212個(gè)),30個(gè)特征維度[2];近些年的乳腺癌挖掘研究大都采用此數(shù)據(jù)集。
在進(jìn)行乳腺癌診斷預(yù)測(cè)的過程中,降低誤診斷的風(fēng)險(xiǎn)是一個(gè)實(shí)際的需求。如果是惡性乳腺腫瘤被預(yù)測(cè)為良性,其帶來的后果比原本是良性的被預(yù)測(cè)為惡性的給病人帶來的后果會(huì)更嚴(yán)重。因此,本文引入誤分類代價(jià),誤分類代價(jià)是一種代價(jià)敏感的策略,它定義了被誤分類為不同類型時(shí)所產(chǎn)生的成本是不同的。
1算法描述
基于誤分類的乳腺癌診斷預(yù)測(cè)建模主要分為兩個(gè)步驟:首先是對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行降維操作,乳腺癌細(xì)胞的特征屬性本來就很多,本數(shù)據(jù)集中含有30個(gè)特征屬性,如果直接對(duì)其進(jìn)行建模,所花費(fèi)的成本會(huì)很高,而且這么多特征屬性之中,可能存在噪聲數(shù)據(jù),影響建模的效果;其次是使用基于誤分類代價(jià)的建模方法對(duì)其數(shù)據(jù)進(jìn)行訓(xùn)練和驗(yàn)證。文中重點(diǎn)考察了決策樹和SVM兩種分類方法,并且在研究中引入它們的誤分類策略。
1.1乳腺癌特征選擇的方法
降維方式基本分為兩種,特征選擇和特征變換。特征選擇方法依據(jù)是否獨(dú)立于后續(xù)的學(xué)習(xí)算法又分為過濾式和封裝式兩種[3]。過濾式與后續(xù)的學(xué)習(xí)分類算法無關(guān),一般是直接利用所有訓(xùn)練數(shù)據(jù)的統(tǒng)計(jì)信息評(píng)估特征,其特點(diǎn)是速度快;封裝式利用后續(xù)學(xué)習(xí)算法的訓(xùn)練準(zhǔn)確率評(píng)估特征子集,其特點(diǎn)是偏差小,計(jì)算量大。特征變換不同于特征選擇之處在于其輸出結(jié)果不是原有的屬性,而是基于某種變換的原則所產(chǎn)生的新屬性。作為醫(yī)療診斷來說,不僅需要診斷預(yù)測(cè)的結(jié)果,還重視其推理的過程。由于變換后的屬性改變了原有屬性的物理特性,不可能看到其推理的結(jié)果,因此這里不討論特征變化方式。
本文研究的模型針對(duì)的是擁有30個(gè)屬性維度的數(shù)據(jù)集,屬于高維數(shù)據(jù)集。如果直接針對(duì)原始數(shù)據(jù)集采用分類方法,不僅成本較高,而且可能由于噪聲屬性的影響而降低精確度。
在絕大部分的特征選擇方法中,其核心部分在于對(duì)屬性特征重要性的評(píng)估,本文將選用三種特征重要度評(píng)估方式,其中一種是上文中提到的Fscores,另一種是在構(gòu)建決策樹過程中用于選擇分裂數(shù)據(jù)集時(shí)評(píng)估屬性的GINI方法,最后一種則是基于分類器的特征評(píng)估方式。選擇這三種評(píng)估方式的先驗(yàn)條件是假定每一個(gè)特征是獨(dú)立的,可以評(píng)估出每一個(gè)特征的重要程度,并按照重要程度進(jìn)行降序排序,從而根據(jù)需要選擇最重要的前N個(gè)特征屬性。
1.2乳腺癌誤分類代價(jià)的組合分類研究
在進(jìn)行了降維操作之后,需要對(duì)其進(jìn)行分類建模操作。本文除了要基本保持診斷預(yù)測(cè)的正確率之外,還要降低其誤分類診斷的總代價(jià)。這里將把誤分類代價(jià)的概念引入到乳腺癌診斷預(yù)測(cè)課題中,誤分類代價(jià)屬于代價(jià)敏感的一種。
1.2.1代價(jià)敏感
數(shù)據(jù)挖掘的本質(zhì)在于利用一個(gè)特定的數(shù)學(xué)模型來給某一個(gè)數(shù)據(jù)進(jìn)行分類,判定其類別,為了構(gòu)建出數(shù)學(xué)模型,需要從大量的數(shù)據(jù)中獲取信息,并發(fā)現(xiàn)其中蘊(yùn)含的規(guī)律,最后利用這個(gè)規(guī)律,也就是數(shù)學(xué)模型來預(yù)測(cè)一些數(shù)據(jù),得到其可能的一個(gè)類別,這個(gè)類別是通過預(yù)測(cè)而來的,可能會(huì)和該數(shù)據(jù)真實(shí)的類別(假設(shè)只能在未來驗(yàn)證得知)不一致,這時(shí)就會(huì)出現(xiàn)一個(gè)分類正確率的問題,對(duì)于一個(gè)預(yù)測(cè)數(shù)學(xué)模型來說,正確率是一個(gè)非常重要的指標(biāo)。但是在實(shí)際應(yīng)用中,代價(jià)因素也是不得不考慮的一個(gè)問題。
分類的代價(jià)不平等性給基于代價(jià)敏感的數(shù)據(jù)挖掘方法帶來了全新的視角和方向。TURNEY P D[4]認(rèn)為代價(jià)具有抽象的意義,可以用不同的單位來進(jìn)行衡量,并且他歸納總結(jié)了分類過程中8種不同的代價(jià)類型:誤分類代價(jià)、測(cè)試代價(jià)、標(biāo)注代價(jià)、干預(yù)代價(jià)、計(jì)算代價(jià)、獲取實(shí)例代價(jià)、人機(jī)交互代價(jià)、不穩(wěn)定代價(jià)。
代價(jià)敏感,尤其是誤分類代價(jià)在機(jī)器學(xué)習(xí)中重點(diǎn)處理的是數(shù)據(jù)不平衡的情況,擔(dān)心大樣本類別數(shù)據(jù)在建模過程中對(duì)分類結(jié)果產(chǎn)生一定的傾斜。而對(duì)于本文所研究的問題而言,這卻是一個(gè)具有實(shí)際意義的問題。對(duì)于乳腺腫瘤良惡性診斷來說,當(dāng)一個(gè)惡性病例被誤分類為良性病例的時(shí)候,其代價(jià)遠(yuǎn)遠(yuǎn)大于一個(gè)良性病例被誤分類為惡性病例的代價(jià)(主要指對(duì)病人的關(guān)注)。
對(duì)于二元分類問題,一個(gè)實(shí)例本來是i類別的,但是在分類預(yù)測(cè)的時(shí)候被錯(cuò)誤地歸為類別j,Ci,j表示將類別為i的事物預(yù)測(cè)為類別j時(shí)所產(chǎn)生的代價(jià)。
一個(gè)二元分類的代價(jià)矩陣定義如表1所示。其中,正確分類的不會(huì)產(chǎn)生代價(jià)。誤分類代價(jià)的分類的目的就是要以最小誤分類代價(jià)建立以下模型:
TotalCost=C0,1*FN+C1,0*FP(1)
其中FN和FP分別為假負(fù)實(shí)例數(shù)和假正實(shí)例數(shù)。
1.2.2組合分類器誤分類策略
將誤分類策略分別引入到基礎(chǔ)分類器和組合分類器中,但是在大部分的誤分類研究中,主要是使用單一的分類器進(jìn)行誤分類建模,在上述給出的單一誤分類器中,從某種程度來說也改變了其建模過程中的一些步驟,因此可能與不引入誤分類策略后分類正確率有所出入。為此,使用組合分類模式來降低個(gè)體分類器在引入誤分類策略時(shí)所帶來的誤差,同時(shí)使用基于誤分類策略的組合分類模式,也能達(dá)到基礎(chǔ)分類器和組合分類器誤分類效果的疊加。
本文使用的基礎(chǔ)分類器有C45決策樹和SVM,使用的組合分類器有Adaboost與Bagging。其中Adaboost擁有誤分類策略,而Bagging盡管自身沒有誤分類策略,但是可以使用帶有誤分類策略的基礎(chǔ)分類器來達(dá)到其誤分類的效果。
2算法驗(yàn)證
本節(jié)著重根據(jù)上文提到的各種方法對(duì)乳腺癌數(shù)據(jù)進(jìn)行建模實(shí)驗(yàn),從而構(gòu)建出基于誤分類代價(jià)的診斷預(yù)測(cè)系統(tǒng)。因篇幅所限,本文只列出了一部分。
2.1N-交叉驗(yàn)證
交叉驗(yàn)證是數(shù)據(jù)挖掘?qū)嶒?yàn)中常用的方法。在N交叉驗(yàn)證[56]中,將數(shù)據(jù)集隨機(jī)劃分為N份,并進(jìn)行N次實(shí)驗(yàn)。在每一次實(shí)驗(yàn)中,選取與之前不同的一份作為驗(yàn)證集,剩余N1份作為建立模型使用的訓(xùn)練集。
在本文的實(shí)驗(yàn)中會(huì)頻繁用到N交叉驗(yàn)證,例如在特征選擇的時(shí)候,需要經(jīng)過N交叉驗(yàn)證來確定特征屬性的重要程度;在建立預(yù)測(cè)診斷模型的時(shí)候,需要使用N交叉驗(yàn)證來評(píng)估預(yù)測(cè)的準(zhǔn)確性和總誤分類代價(jià)。
2.2評(píng)估標(biāo)準(zhǔn)
乳腺腫瘤良惡性診斷是一個(gè)分類問題,目前成熟的分類模型評(píng)估方式有:正確率、召回率、精確度、AUC、ROC曲線、混淆矩陣等。在混淆矩陣的基礎(chǔ)上,可以得到以上多個(gè)評(píng)估度量值。其中正確率(Acc)和錯(cuò)誤率(Err)是使用最廣泛的兩個(gè)基礎(chǔ)度量標(biāo)準(zhǔn),其公式如下:
除了基本的正確率和錯(cuò)誤率之外,由于本文重點(diǎn)考察的是基于代價(jià)敏感的乳腺腫瘤良惡性診斷。在前文的描述中也提到,一個(gè)惡性乳腺癌患者被診斷為良性所付出的代價(jià)遠(yuǎn)比一個(gè)良性乳腺腫瘤患者被診斷為惡性所付出的代價(jià)要高得多。所以本文所做研究是,除預(yù)測(cè)結(jié)果基本保持在一個(gè)比較高的水準(zhǔn)之外,還需要預(yù)測(cè)的代價(jià)盡可能地小。下面給出基本準(zhǔn)則去判斷實(shí)驗(yàn)評(píng)估指標(biāo),即預(yù)測(cè)產(chǎn)生的錯(cuò)誤總代價(jià)(TotalCost)。
表2給出了乳腺癌預(yù)測(cè)的代價(jià)矩陣,其中如果本身為良性乳腺腫瘤而預(yù)測(cè)為良性,由于預(yù)測(cè)是正確的,因此不會(huì)產(chǎn)生代價(jià),惡性乳腺腫瘤預(yù)測(cè)為惡性也是同樣的道理。而如果本身是良性乳腺腫瘤被診斷為惡性的話,其花費(fèi)的代價(jià)是C0,1,如果本身是惡性乳腺腫瘤而被診斷為良性的話,其花費(fèi)的代價(jià)為C1,0,其中C1,0>C0,1。由此可以得到式(4):
TotalCost=FN*C0,1+FP*C1,0(4)表2代價(jià)矩陣預(yù)測(cè)正類(預(yù)測(cè)良性)預(yù)測(cè)負(fù)類(預(yù)測(cè)惡性)實(shí)際正類(實(shí)際良性)0C0,1實(shí)際負(fù)類(實(shí)際惡性)C1,00
本文希望達(dá)到的目標(biāo)是:在保持正確率不會(huì)有太大下降的情況下,降低總的誤分類代價(jià)。
2.3誤分類組合建模實(shí)驗(yàn)
在組合不同誤分類代價(jià)策略時(shí),基本分類器均具有其誤分類代價(jià)策略,可以進(jìn)行對(duì)比試驗(yàn),而組合分類器只有Adaboost具有誤分類策略,可考慮將基礎(chǔ)誤分類與Bagging組合分類器,而Adaboost可對(duì)比采用誤分類策略與不采用誤分類策略的效果,并同時(shí)與基礎(chǔ)分類器的誤分類策略進(jìn)行整合。
為了看出誤分類策略的效果,需要設(shè)計(jì)對(duì)比試驗(yàn),下面針對(duì)每一個(gè)基礎(chǔ)分類器設(shè)計(jì)了幾組對(duì)比試驗(yàn)。表3給出了需要對(duì)比的實(shí)驗(yàn),以證實(shí)在建模過程中確實(shí)有誤分類策略的效果。
本文采用的誤分類矩陣為0101000,使用的數(shù)據(jù)集為乳腺腫瘤疾病良惡性診斷集,有兩個(gè)類型,0表示良性,1表示惡性,根據(jù)前文對(duì)于良惡性誤分類代價(jià)的分析判斷,得cost(1,0)=10,cost(0,1)=100。
本文所采用的數(shù)據(jù)挖掘的基礎(chǔ)程序來自Weka3.6。懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis,Weka)是一款免費(fèi)的、非商業(yè)化的挖掘工具,基于Java環(huán)境的開源的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件。源代碼可在其官方網(wǎng)站下載,其中的C45基礎(chǔ)算法也來自該官網(wǎng)。
SVM則采用LIBSVM的Java版本,LIBSVM是臺(tái)灣大學(xué)林智仁等人開發(fā)設(shè)計(jì)的一個(gè)簡(jiǎn)單、易于使用和快速有效的SVM模式識(shí)別與回歸軟件包,不但提供了編譯好的可在Windows操作系統(tǒng)上執(zhí)行的文件,還提供了源代碼,方便改進(jìn)、修改以及在其他操作系統(tǒng)上應(yīng)用。
(1) C45算法結(jié)果分析
首先展示Adaboost+C45算法的結(jié)果,以便與后期結(jié)果進(jìn)行對(duì)照。
(2) SVM算法結(jié)果分析
SVM在此問題上有很好的處理效果。這里可以對(duì)其進(jìn)行分析比較,研究其在誤分類代價(jià)的情況下的處理效果。本文采用的是LIBSVM的Java版本,其中一些參數(shù)均為默認(rèn)值,其中核函數(shù)采用的是RBF核函數(shù)。
圖1、圖2分別給出了正確率、總代價(jià)曲線,表4給出了不采取誤分類策略的Adaboost+SVM的最高評(píng)估值?! ?/p>
從實(shí)驗(yàn)結(jié)果可以看出,盡管Adaboost+SVM組合模式的正確率非常高,但是其代價(jià)也不低,主要原因在于其高誤分類代價(jià)的個(gè)數(shù)比較多。而采用SVM的誤分類策略組合模式可能可以做到既擁有比較高的分類正確率,又能減少其高代價(jià)誤分類的個(gè)數(shù),從而降低總的誤分類代價(jià)。
從對(duì)比實(shí)驗(yàn)可以看出,SVM在誤分類代價(jià)策略效果下表現(xiàn)得比決策樹都要好一些。其相對(duì)較高的正確率是一個(gè)重要原因,從SVM和決策樹兩者的表現(xiàn)來看,SVM構(gòu)建模型的分類正確率遠(yuǎn)高于決策樹,因而被誤分類的個(gè)數(shù)要小于決策樹;另一原因是在采用了誤分類代價(jià)策略之后,惡性乳腺腫瘤被診斷為良性的個(gè)數(shù)比不采用誤分類策略時(shí)減少了,所以總的誤分類的代價(jià)才會(huì)減少。
實(shí)驗(yàn)結(jié)果表明,大部分實(shí)驗(yàn)都達(dá)到了其降低總誤分類代價(jià)的目的,而且能保持比較高的正確率:Adaboost與SVM的誤分類組合分類算法不僅正確率達(dá)到了98.23%,而且將總誤分類代價(jià)從600左右降到了330。
3結(jié)論
本文結(jié)合傳統(tǒng)的基礎(chǔ)分類算法,運(yùn)用組合分類模式進(jìn)行診斷預(yù)測(cè),并針對(duì)乳腺癌樣例的特征屬性采取了降維的處理,旨在降低建模過程的成本和對(duì)樣例進(jìn)行預(yù)測(cè)時(shí)的成本,并希望清除噪聲屬性。同時(shí),也將代價(jià)敏感的概念引入到乳腺癌診斷過程中。在建模過程中,將誤分類代價(jià)策略和基礎(chǔ)分類模式、組合分類模式Bagging和Adaboost進(jìn)行整合修改,以便能在保持較高正確率的情況下,降低總的誤分類代價(jià)。設(shè)計(jì)了對(duì)比試驗(yàn),以便能得出最優(yōu)的組合分類模式;在此基礎(chǔ)上采用粒子群算法,以最低誤分類代價(jià)為評(píng)估標(biāo)準(zhǔn),采用上述組合實(shí)驗(yàn)中的最佳組合分類方法,選擇出最穩(wěn)定的低誤分類代價(jià)的特征屬性和相關(guān)參數(shù)值。
參考文獻(xiàn)
?。?] The Women’s Health Resource .What is breast cancer[EB/OL].(2013-06-10)[2016-07-28].http://www.imaginis.com/general informationonbreastcancer/whatisbreastcancer2.
[2] UCI Machine Learning Repository. Wisconsin breast cancer dataset[EB/OL]. (20120630)[2016-07-28]http://archive.ics.uci.edu/ml/datasets.html-format=&task=cla&att=&area=&numAtt=&numIns=&type=&sort=.
?。?] 姚旭.特征選擇方法綜述[J].控制與決策.2012,127(2):35-40.
[4] TURNEY P D. Types of cost in inductive concept learning[C]. Workship on CostSensitive Learning at ICML, 2000:15-21.
?。?] DUPRET, G. KODA, M. Theory and methodology: boostrap resampling for unbalanced data in supervised learning[J]. Eropean Journal of Operational Research,2001,134(1), 141-156.
?。?] GOOD,P.I. Resampling methods: a practical guide to data analysis (3rd Edition)[M]. Birkhauser, 2006.